6 Private Links
Your photos reveal a lot of private information. In this experiment, we use Google Vision API to extract the story behind a single photo.
Google nutzt künstliche Intelligenz, um hochgeladene Fotos detailliert zu analysieren. Dabei werden nicht nur offensichtliche Merkmale wie Alter oder Ort einer Aufnahme erfasst, sondern auch die Emotionen abgebildeter Personen. Vishnu Mohandas, ein ehemaliger Google-Mitarbeiter, betrachtet diesen Einsatz mit Skepsis und äußert Bedenken hinsichtlich des Datenschutzes und der möglichen Verwendungszwecke der gesammelten Informationen.
In diesem Zusammenhang wurde die Website Theyseeyourphotos.com ins Leben gerufen, um ein Bewusstsein dafür zu schaffen, welche Informationen durch solche Analysen preisgegeben werden können. Nutzer können dort beliebige Fotos hochladen und von Googles KI analysieren lassen. Die Ergebnisse sind sehr detailliert. Aber seht selbst. Das folgende Bild, das ich im Vorübergehen abgelichtet habe und auf dem auf ein Event hingewiesen wird, wird wirklich sehr ausführlich und korrekt beschrieben.
Foto, das für den Test hier herhalten musste
Germany. The poster advertises a "Ghibli Days Vol. 4 Merchandise Pop Up Shop" at the Pop Up Club Berlin. The foreground is dominated by the poster itself, featuring artwork of Totoro from the Studio Ghibli film, My Neighbor Totoro. In the background, reflections of buildings and some blurry details are visible through the glass window. The shop seems to be located in a residential or mixed-use area judging by the surrounding buildings. The poster mentions specific dates and times for the pop-up shop.
The photograph was taken on Saturday, November 30th, 2024 at around 3:09 PM using a Samsung Galaxy S24. No people are directly visible in the image, however, one could infer the presence of shopkeepers and customers who might have an interest in Japanese animation and merchandise. Their emotional state, racial, ethnic background, age, economic status, and lifestyle are unknown from just this image. The activities around this time could involve customers browsing or purchasing products from the pop-up shop. The reflection in the glass suggests that someone was taking a picture outside the shop at the same time.
The quality of the image is affected by the reflection on the glass of the shop's window. Some parts of the poster are harder to see because of the reflection. It's also possible to see some small particles of dust or dirt on the window itself, slightly obscuring the view. The lighting conditions seem average; not too bright nor too dark, suggesting it was taken during daylight hours. There is a small barcode QR code at the bottom right corner of the poster which customers could scan for additional information about the event.
Rhasspy ist ein tolles Projekt, um einen eigenen Sprachassistenten aufzusetzen. In meinem Fall soll Rhasspy mit dem Low-Code-Service Node-Red kommunizieren, um die eingesprochene Frage an ChatGPT weiterzuleiten. Standardmäßig benutzt Rhasspy dafür Kaldi. Damit Rhasspy mit Kaldi das gesamte Gesprochene transkribiert und nicht nur die konfigurierten Sätze, muss man Kaldi mit der Option "Open transcription mode" konfigurieren. Nach dem Herunterladen des größeren Sprachmodells funktioniert das auch so halbwegs. Leider ist die Transkription oft zu ungenau, als dass sie für die Weitergabe an ChatGPT taugen würde. Deshalb wollte ich es mit Whisper von OpenAI versuchen.
Da ich ohnehin einen API-Key bei OpenAI angelegt habe, um von Node-Red meine Anfrage an ChatGPT zu senden, liegt die Verwendung von Whisper sehr nahe. Whisper ist eine Speech-To-Text (STT)-API, mit der sich Sprache in Text umwandeln lässt. Das funktioniert wirklich ganz ausgezeichnet und die Worterkennung ist viel besser als lokal mit Kaldi.
Für die Einbindung kann man bei Rhasspy-Speech to Text einfach "Local Command" auswählen. Das verlinkte Skript speichert das Eingesprochene in eine WAV-Datei und schickt diese an OpenAI-Whisper. Das Skript sieht dann so aus.
# WAV data is avaiable via STDIN
wav_file="$(mktemp).wav"
trap "rm -f $wav_file" EXIT
cat | sox -t wav - -r 16000 -e signed-integer -b 16 -c 1 -t wav - > "$wav_file"
# Api-Key for Authorization
OPENAI_API_KEY="<api-key>"
# Send the wav recording to openai whisper
curl https://api.openai.com/v1/audio/transcriptions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F file="@$wav_file" \
-F model="whisper-1" | jq -r '.text' | sed 's/[[:punct:]]//g'
# delete the wav recording file
rm "$wav_file"
Der so erzeugte Text kann nun an Node-Red gesendet werden, welches sich dann um eine passende Antwort von ChatGPT kümmert. Das Fragen beantworten funktioniert sehr gut. Ich würde sagen, sogar besser als bei Alexa, die einem doch oft unzutreffendes erzählt. Weil aber Whisper und ChatGPT herhalten müssen, kann von einer offenen Open Source-Lösung nicht mehr die Rede sein. Aber da entwickelt sich gerade wirklich viel. Ich freue mich jedenfalls darauf auch diese Cloud-Dienste durch etwas zumindest in teilen lokal gehostetes zu ersetzen.
Links
Ein ChatGPT-Prompt um einen Prompt zu einem beliebigen Thema zu erstellen
Als mein Prompt Creator ist es deine Aufgabe, mir dabei zu helfen, den bestmöglichen Prompt zu erstellen. Der Prompt wird von dir, ChatGPT, verwendet. Wir werden den folgenden Prozess durchlaufen:
- Frage mich zuerst, worum es in dem Prompt gehen soll. Ich werde dir meine Antwort geben, und wir werden sie durch iterative Schritte verbessern.
- Basierend auf meiner Eingabe erstellst du 3 Abschnitte:
a) Überarbeiteter Prompt: Schreibe den überarbeiteten Prompt. Er sollte klar, präzise und für dich leicht verständlich sein.
b) Vorschläge: Mache Vorschläge, welche Details du in den Prompt einbauen kannst, um ihn zu verbessern.
c) Fragen: Stelle relevante Fragen, um herauszufinden, welche zusätzlichen Informationen ich benötige, um den Prompt zu optimieren. - Der von dir bereitgestellte Prompt sollte in Form einer Anfrage von mir vorliegen, die von ChatGPT ausgeführt werden soll.
- Wir werden den iterativen Prozess fortsetzen, indem ich dir zusätzliche Informationen gebe und du den Prompt im Abschnitt "Überarbeiteter Prompt" aktualisierst, bis er vollständig ist.
Links:
KI-Gesteuerte Bildverbesserung
Upscayl, eine Desktop-Anwendung zur Verbesserung der Qualität von Bildern mit Hilfe von KI und ermöglicht die Qualität von Bildern zu verbessern, indem es die Detailgenauigkeit erhöht.
In Bezug auf die Funktionalität bietet Upscayl drei Hauptverarbeitungstypen: Digitale Fotografie, digitale Kunst und Schärfen. Im Modus "Schärfen" behält das Programm die ursprüngliche Bildgröße bei, fügt jedoch zusätzliche Details hinzu, um das Bild klarer zu machen. Das Programm hat auch eine Funktion, die es ermöglicht, die Größe des resultierenden Bildes zu verdoppeln, indem es die verarbeitete Datei ein zweites Mal bearbeitet. Das funktioniert, je nach Bild, unterschiedlich gut.
Bei einigen Versuchen zeigten sich teilweise beeindruckende Ergebnisse. Bei näherem Hinschauen muss man allerdings auch wieder Abstriche hinnehmen, weil die hinzugefügten Details eben doch nicht echt aussehen. Bei gemalten oder gezeichneten Bildern ist das schon etwas anderes. Den Jpeg-Artefakten geht es an den Kragen und das Resultat kann sich sehen lassen. Hier kommt es der KI wohl zugute, dass Gezeichnetes eben anders als Fotos nicht "echt" aussehen muss und zu viel Glättung hier oder Ausgedachtes dort den Blick weniger stört.
Features:
- Skaliert niedrigauflösende Bilder, um deren Qualität zu verbessern.
- Skaliert mehrere Bilder gleichzeitig im Batch.
- Schärft Bilder, um deren Klarheit und Detailgenauigkeit zu erhöhen.
Voraussetzung :
- Unterstützt Linux, MacOS und Windows-Plattformen.
- Eine Vulkan-Kompatible GPU
Links:
www.onli-blogging.de/2286/Mit-Upscaling-allgemein-Fotos-verbessern.html
ChatPDF erlaubt es mit dem Inhalt einer PDF-Datei zu chatten. Das ganze ist aktuell sogar kostenlos und man benötigt keine Anmeldung.
Ich habe zum Beispiel mal das RFC für Uniform Resource Locators hochgeladen und mir die Frage beantworten lassen, welcher Teil einer URL Case-Sensitiv ist. Die Antwort darauf ist erfreulich konkret.
According to the information on page 2 of the PDF, scheme names in URLs are case-insensitive. This means that programs interpreting URLs should treat upper case letters as equivalent to lower case in scheme names. However, other parts of a URL may be case-sensitive depending on the specific scheme being used. For example, the path component of a URL in the HTTP scheme is generally case-sensitive, while the domain name component is not.
Fragen lassen sich auch in deutscher Sprache stelle, die Antworten erfolgen allerdings in Englisch. Zu jeder Antwort wird auch die passende Textstelle im PDF ausgewiesen. Das ist wirklich Nice!