6 Private Links
Rhasspy ist ein tolles Projekt, um einen eigenen Sprachassistenten aufzusetzen. In meinem Fall soll Rhasspy mit dem Low-Code-Service Node-Red kommunizieren, um die eingesprochene Frage an ChatGPT weiterzuleiten. Standardmäßig benutzt Rhasspy dafür Kaldi. Damit Rhasspy mit Kaldi das gesamte Gesprochene transkribiert und nicht nur die konfigurierten Sätze, muss man Kaldi mit der Option "Open transcription mode" konfigurieren. Nach dem Herunterladen des größeren Sprachmodells funktioniert das auch so halbwegs. Leider ist die Transkription oft zu ungenau, als dass sie für die Weitergabe an ChatGPT taugen würde. Deshalb wollte ich es mit Whisper von OpenAI versuchen.
Da ich ohnehin einen API-Key bei OpenAI angelegt habe, um von Node-Red meine Anfrage an ChatGPT zu senden, liegt die Verwendung von Whisper sehr nahe. Whisper ist eine Speech-To-Text (STT)-API, mit der sich Sprache in Text umwandeln lässt. Das funktioniert wirklich ganz ausgezeichnet und die Worterkennung ist viel besser als lokal mit Kaldi.
Für die Einbindung kann man bei Rhasspy-Speech to Text einfach "Local Command" auswählen. Das verlinkte Skript speichert das Eingesprochene in eine WAV-Datei und schickt diese an OpenAI-Whisper. Das Skript sieht dann so aus.
# WAV data is avaiable via STDIN
wav_file="$(mktemp).wav"
trap "rm -f $wav_file" EXIT
cat | sox -t wav - -r 16000 -e signed-integer -b 16 -c 1 -t wav - > "$wav_file"
# Api-Key for Authorization
OPENAI_API_KEY="<api-key>"
# Send the wav recording to openai whisper
curl https://api.openai.com/v1/audio/transcriptions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F file="@$wav_file" \
-F model="whisper-1" | jq -r '.text' | sed 's/[[:punct:]]//g'
# delete the wav recording file
rm "$wav_file"
Der so erzeugte Text kann nun an Node-Red gesendet werden, welches sich dann um eine passende Antwort von ChatGPT kümmert. Das Fragen beantworten funktioniert sehr gut. Ich würde sagen, sogar besser als bei Alexa, die einem doch oft unzutreffendes erzählt. Weil aber Whisper und ChatGPT herhalten müssen, kann von einer offenen Open Source-Lösung nicht mehr die Rede sein. Aber da entwickelt sich gerade wirklich viel. Ich freue mich jedenfalls darauf auch diese Cloud-Dienste durch etwas lokal gehostetes zu ersetzen.
Links
Ein ChatGPT-Prompt um einen Prompt zu einem beliebigen Thema zu erstellen
Als mein Prompt Creator ist es deine Aufgabe, mir dabei zu helfen, den bestmöglichen Prompt zu erstellen. Der Prompt wird von dir, ChatGPT, verwendet. Wir werden den folgenden Prozess durchlaufen:
- Frage mich zuerst, worum es in dem Prompt gehen soll. Ich werde dir meine Antwort geben, und wir werden sie durch iterative Schritte verbessern.
- Basierend auf meiner Eingabe erstellst du 3 Abschnitte:
a) Überarbeiteter Prompt: Schreibe den überarbeiteten Prompt. Er sollte klar, präzise und für dich leicht verständlich sein.
b) Vorschläge: Mache Vorschläge, welche Details du in den Prompt einbauen kannst, um ihn zu verbessern.
c) Fragen: Stelle relevante Fragen, um herauszufinden, welche zusätzlichen Informationen ich benötige, um den Prompt zu optimieren. - Der von dir bereitgestellte Prompt sollte in Form einer Anfrage von mir vorliegen, die von ChatGPT ausgeführt werden soll.
- Wir werden den iterativen Prozess fortsetzen, indem ich dir zusätzliche Informationen gebe und du den Prompt im Abschnitt "Überarbeiteter Prompt" aktualisierst, bis er vollständig ist.
Links:
KI-Gesteuerte Bildverbesserung
Upscayl, eine Desktop-Anwendung zur Verbesserung der Qualität von Bildern mit Hilfe von KI und ermöglicht die Qualität von Bildern zu verbessern, indem es die Detailgenauigkeit erhöht.
In Bezug auf die Funktionalität bietet Upscayl drei Hauptverarbeitungstypen: Digitale Fotografie, digitale Kunst und Schärfen. Im Modus "Schärfen" behält das Programm die ursprüngliche Bildgröße bei, fügt jedoch zusätzliche Details hinzu, um das Bild klarer zu machen. Das Programm hat auch eine Funktion, die es ermöglicht, die Größe des resultierenden Bildes zu verdoppeln, indem es die verarbeitete Datei ein zweites Mal bearbeitet. Das funktioniert, je nach Bild, unterschiedlich gut.
Bei einigen Versuchen zeigten sich teilweise beeindruckende Ergebnisse. Bei näherem Hinschauen muss man allerdings auch wieder Abstriche hinnehmen, weil die hinzugefügten Details eben doch nicht echt aussehen. Bei gemalten oder gezeichneten Bildern ist das schon etwas anderes. Den Jpeg-Artefakten geht es an den Kragen und das Resultat kann sich sehen lassen. Hier kommt es der KI wohl zugute, dass Gezeichnetes eben anders als Fotos nicht "echt" aussehen muss und zu viel Glättung hier oder Ausgedachtes dort den Blick weniger stört.
Features:
- Skaliert niedrigauflösende Bilder, um deren Qualität zu verbessern.
- Skaliert mehrere Bilder gleichzeitig im Batch.
- Schärft Bilder, um deren Klarheit und Detailgenauigkeit zu erhöhen.
Voraussetzung :
- Unterstützt Linux, MacOS und Windows-Plattformen.
- Eine Vulkan-Kompatible GPU
Links:
www.onli-blogging.de/2286/Mit-Upscaling-allgemein-Fotos-verbessern.html
ChatPDF erlaubt es mit dem Inhalt einer PDF-Datei zu chatten. Das ganze ist aktuell sogar kostenlos und man benötigt keine Anmeldung.
Ich habe zum Beispiel mal das RFC für Uniform Resource Locators hochgeladen und mir die Frage beantworten lassen, welcher Teil einer URL Case-Sensitiv ist. Die Antwort darauf ist erfreulich konkret.
According to the information on page 2 of the PDF, scheme names in URLs are case-insensitive. This means that programs interpreting URLs should treat upper case letters as equivalent to lower case in scheme names. However, other parts of a URL may be case-sensitive depending on the specific scheme being used. For example, the path component of a URL in the HTTP scheme is generally case-sensitive, while the domain name component is not.
Fragen lassen sich auch in deutscher Sprache stelle, die Antworten erfolgen allerdings in Englisch. Zu jeder Antwort wird auch die passende Textstelle im PDF ausgewiesen. Das ist wirklich Nice!