Protokoll How to Bild&Ton-KI (4h)

Fahrplan

  • Text zu Sprache Anwendungen
  • Sprache zu Text Anwendungen
  • Bild KI-Systeme

Beispiele Audio KI

Hier findest du Beispiele für die Qualität von ElevenLabs.
Hier sind Beispiele von den Stimmen von OpenAI.
Der Spiegel vertont zum Beispiel alle seine Artikel, damit alle sie anhören können.
Hier ist ein Beispiel
ElevenLabs Stimmen
OpenAI Stimmen
Link zu Spiegel Beitrag


Tooleinführung

ElevenLabs Link

  • sehr gute Aussprache, mit betonung
  • kann eigene Stimme klonen
  • kann aus vielen Stimmen auswählen

    Infos zu Lizenzen und Kosten findest du hier.

Audiobook Generator von Morpheus

  • sehr einfache bedinung nach Einrichtung
  • Rechnet nur soviel ab wie gebraucht wird
  • aus verschiedenen Stimmen wählbar
  • gute Aussprache

Die voraussichtlichen Kosten pro generierung werden dir direkt anzeigt.
Das Programm nutzt das Model von OpenAI, dort muss man sich einen Account anlegen, Guthaben aufladen und einen „Token“ erstellen
Die Lizenzvereinbarung von OpenAI findest du hier. (LINK)
Zum Installieren musst du den folgenden ZIP Ordner herunterladen, entpacken und die Index.html öffnen.
Link zum Download.
Link zum Repositorie.
Link zu OpenAI


Audio Funktion wie beim Spiegel bauen

Hier ist ein Beitrag, in dem erklärt wird, wie ihr eure Audio Dateien auf eurer WordPress Seite hochladen könnt.


Herrausforderungen

Es gibt einige Herausforderungen, die mit der Technik einzug halten.

  • Anrufe mit geklonter Stimme von z.B. dem Kond
  • Fakes der eigenen Stimme im Internet
  • Die Sycronsprecherindustrie bangt um Jobs (Link)

Ein effektiver Weg, sich vor Fakeanrufen zu schützen, ist mit Freunden und Familie Sicherheitsfragen auszumachen, für den Fall dass Geldangelegenheiten per Telefon geklärt werden müssen.


Vorstellung Wispher

Wispher ist ein Modell von OpenAI, welches Sprache in Text umwandelt und vollständig auf dem eigenen Computer laufen kann. Es ist OpenSource und hier verfügbar. LINK
Eine Anleitung zum Installieren findest du hier.
Die Lizenz findest du hier.


Beispiele KI Generierter Bilder

„Hier werden noch Bilder von Dalle/Stable Diffusion/Midjourny hochladen“


Unterschiede der Modelle

Die Modelle interpretieren die Prompts zuweilen sehr unterschiedlich, wie am folgenden Beispiel zu sehen.
„Bild von Prompt der in 3 Modelle gegeben wird.“


Beispiele für Prompts

grafik

grafik

grafik

grafik

grafik

Hier ist ein Beispiel für ein sehr problematisches Bild, den die Rechteinhaber an Deadpool könnten einen Anspruch auf dieses Bild haben.


Tipps für gute Prompts

Die Modelle sind sehr unterschiedlich, ein Prompt der bei Midjourny funktioniert, muss nicht bei Dall*E genauso funktionieren.
Dennoch gibt es einige allgemeine Tipps:

  • Stil angeben
  • Details (Objekte/Farben/…) benennen
  • Komposition und Perspektive beschreiben
  • Trail and Error, nimm im Zweifel mehrere Anläufe
  • Lasse Prompt von KI optimieren

Thema Urheberrecht & Kosten & Lizenzen bei Bild-KI-Modellen

  1. Es gibt Streit, ob KI generierte Bilder überhaupt schützendswert sind. („Quellen Klagen, Einschätzungen“)
  2. Die Anwendung sagt dir nicht, ob nicht andere ein Recht an dem generierten Bild haben. Nutze Foto Rückwertssuchen z.B. Google Bilder Rückwertssuche
  3. Links zu den Kosten & Lizenzen

Herausforderungen mit dem Einzug von Bild-KI-Systemen

  • Fakes können schneller erstellt werden
  • Trainingsdaten möglicherweise illegal

 

  Edit this page

 

 


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert