Protokoll How to Bild&Ton-KI (4h)

Fahrplan

Text zu Sprache Anwendungen
Sprache zu Text Anwendungen
Bild KI-Systeme

Beispiele Audio KI

Hier findest du Beispiele für die Qualität von ElevenLabs.
Hier sind Beispiele von den Stimmen von OpenAI.
Der Spiegel vertont zum Beispiel alle seine Artikel, damit alle sie anhören können.
Hier ist ein Beispiel
ElevenLabs Stimmen
OpenAI Stimmen
Link zu Spiegel Beitrag

Tooleinführung

ElevenLabs Link

sehr gute Aussprache, mit betonung
kann eigene Stimme klonen
kann aus vielen Stimmen auswählen

Infos zu Lizenzen und Kosten findest du hier.

Audiobook Generator von Morpheus

sehr einfache bedinung nach Einrichtung
Rechnet nur soviel ab wie gebraucht wird
aus verschiedenen Stimmen wählbar
gute Aussprache

Die voraussichtlichen Kosten pro generierung werden dir direkt anzeigt.
Das Programm nutzt das Model von OpenAI, dort muss man sich einen Account anlegen, Guthaben aufladen und einen „Token“ erstellen
Die Lizenzvereinbarung von OpenAI findest du hier. (LINK)
Zum Installieren musst du den folgenden ZIP Ordner herunterladen, entpacken und die Index.html öffnen.
Link zum Download.
Link zum Repositorie.
Link zu OpenAI

Audio Funktion wie beim Spiegel bauen

Hier ist ein Beitrag, in dem erklärt wird, wie ihr eure Audio Dateien auf eurer WordPress Seite hochladen könnt.

Herrausforderungen

Es gibt einige Herausforderungen, die mit der Technik einzug halten.

Anrufe mit geklonter Stimme von z.B. dem Kond
Fakes der eigenen Stimme im Internet
Die Sycronsprecherindustrie bangt um Jobs (Link)
…

Ein effektiver Weg, sich vor Fakeanrufen zu schützen, ist mit Freunden und Familie Sicherheitsfragen auszumachen, für den Fall dass Geldangelegenheiten per Telefon geklärt werden müssen.

Vorstellung Wispher

Wispher ist ein Modell von OpenAI, welches Sprache in Text umwandelt und vollständig auf dem eigenen Computer laufen kann. Es ist OpenSource und hier verfügbar. LINK
Eine Anleitung zum Installieren findest du hier.
Die Lizenz findest du hier.

Beispiele KI Generierter Bilder

„Hier werden noch Bilder von Dalle/Stable Diffusion/Midjourny hochladen“

Unterschiede der Modelle

Die Modelle interpretieren die Prompts zuweilen sehr unterschiedlich, wie am folgenden Beispiel zu sehen.
„Bild von Prompt der in 3 Modelle gegeben wird.“

Beispiele für Prompts

Hier ist ein Beispiel für ein sehr problematisches Bild, den die Rechteinhaber an Deadpool könnten einen Anspruch auf dieses Bild haben.

Tipps für gute Prompts

Die Modelle sind sehr unterschiedlich, ein Prompt der bei Midjourny funktioniert, muss nicht bei Dall*E genauso funktionieren.
Dennoch gibt es einige allgemeine Tipps:

Stil angeben
Details (Objekte/Farben/…) benennen
Komposition und Perspektive beschreiben
Trail and Error, nimm im Zweifel mehrere Anläufe
Lasse Prompt von KI optimieren

Thema Urheberrecht & Kosten & Lizenzen bei Bild-KI-Modellen

Es gibt Streit, ob KI generierte Bilder überhaupt schützendswert sind. („Quellen Klagen, Einschätzungen“)
Die Anwendung sagt dir nicht, ob nicht andere ein Recht an dem generierten Bild haben. Nutze Foto Rückwertssuchen z.B. Google Bilder Rückwertssuche
Links zu den Kosten & Lizenzen
- Dall*E Kosten Lizenz
- Midjourny Kosten Lizenz
- Stable Diffusion Kosten Lizenz

Herausforderungen mit dem Einzug von Bild-KI-Systemen

Fakes können schneller erstellt werden
Trainingsdaten möglicherweise illegal
…

Edit this page