
Über den Autor
Bei Gappex entwickelt Tomáš Rolc die Geschäftsseite der SmartFP-Plattform, die Unternehmen bei der Digitalisierung von Prozessen mit einem Low-Code-Ansatz unterstützt. Er ist bestrebt, technisches Wissen mit dem Geschäftlichen zu verbinden und konzentriert sich darauf, SmartFP für möglichst viele Nutzer zugänglich und verständlich zu machen.
Rechtliche und ethische Hinweise für KI-Videos und -Audio
Werfen wir gemeinsam einen Blick darauf, wie KI die Arbeit mit Video und Audio erleichtert
In dieser Folge möchten wir Ihnen zeigen, wie künstliche Intelligenz Sie bei der Erstellung von Videoinhalten und Audioaufnahmen unterstützen kann. Von der Erstellung von Filmmaterial und Animationen bis hin zu Kommentaren oder Synchronisationen – KI kann die kreativen Aktivitäten im Marketing beschleunigen. Sie brauchen keine Angst vor Experimenten zu haben, Sie müssen nur wissen, was Sie von ihr erwarten können und wo ihre Grenzen liegen.
Wie in den vorangegangenen Episoden werden die besten Ergebnisse durch eine Kombination aus KI und Menschen erzielt. KI kann auf der Grundlage von Anweisungen blitzschnell ein Video oder eine Tonspur erstellen, aber sie braucht Ihre Aufsicht und kreative Anleitung. In der Praxis funktioniert es am besten, wenn ein Mensch das Skript vorgibt und die KI bei der Ausführung hilft – bei der Gestaltung des Bildmaterials, der Bearbeitung des Filmmaterials und der Vertonung. Die KI wird Ihnen die Arbeit nicht ganz abnehmen, aber wenn sie richtig eingesetzt wird, können Sie wesentlich effizienter arbeiten – Inhalte schneller erstellen, problemlos verschiedene Varianten ausprobieren und sich mehr auf Ideen als auf technische Details konzentrieren. Es ist, als hätten Sie die gesamte Produktion auf einem Computer, aber Sie sind immer noch der Regisseur.
Beispiel für den Einsatz von KI bei der Arbeit mit Video und Audio 1/5:
HeyGen: Video aus Text mit KI-Avataren
Verbringen Sie Stunden damit, Videos zu drehen, weil Sie etwas klar darstellen müssen? Oder sehen Sie sich einfach nicht gerne vor der Kamera? Die Lösung ist ein KI-Avatar – eine virtuelle Figur, die den vorbereiteten Text für Sie spricht. HeyGen ist ein Online-Tool, mit dem Sie ein solches Video in wenigen Minuten erstellen können. Schreiben Sie einfach ein Skript, wählen Sie einen Avatar (digitalen „Schauspieler“) und legen Sie die Stimme fest – HeyGen generiert dann einen Videoclip, in dem Ihr gewählter Avatar Ihren Text mit originalgetreuer Mimik und Gestik spricht.

HeyGen bietet Dutzende von vorgefertigten Avataren mit unterschiedlichem Aussehen, Geschlecht und Stil. Sie können eine Geschäftsfrau im Anzug, eine Dozentin im lässigen T-Shirt oder eine junge Influencerin wählen, je nachdem, was zum Inhalt des Videos passt. Mehr als 30 Sprachen werden unterstützt, darunter auch Tschechisch, so dass Ihr Avatar Tschechisch sprechen kann (die Akzente sind minimal). Geben Sie den Text einfach auf Tschechisch ein und wählen Sie eine tschechische Stimme aus dem Menü. HeyGen bietet Hunderte von verschiedenen Stimmen zur Auswahl – von männlich und weiblich über formell und freundlich bis hin zu verschiedenen Akzenten. So können Sie den Tonfall leicht an Ihre Bedürfnisse anpassen.

Die Videoerstellung selbst ist sehr einfach: Nachdem Sie sich bei HeyGen registriert haben, wählen Sie eine Videovorlage aus (oder beginnen mit einer leeren Leinwand), fügen Text ein, wählen einen Avatar und eine Stimme und starten die Erstellung mit einem Klick. In ein paar Minuten sehen Sie das fertige Video, das Sie abspielen und herunterladen können. Auf dem Bildschirm sehen Sie eine Vorschau des Avatars und daneben einen Texteditor für das Skript – so geht die Bearbeitung schnell (siehe Bild unten). Wenn Ihnen das Ergebnis nicht gefällt, ändern Sie einfach den Text oder andere Einstellungen und lassen die KI das Video neu generieren.

Und wenn Sie etwas Unverwechselbareres als vorgefertigte Charaktere wünschen? Mit HeyGen können Sie auch Ihren eigenen Avatar erstellen, der aussieht (und klingt) wie Sie selbst oder vielleicht ein Kollege, ein Firmenmaskottchen usw. Es gibt zwei Hauptmethoden: Entweder laden Sie ein kurzes Video von der Person hoch, die spricht (etwa 2 Minuten Filmmaterial), oder Sie laden eine Reihe von Fotos des Gesichts hoch (10-15 Aufnahmen aus verschiedenen Winkeln werden empfohlen). Die KI erstellt anhand dieser Aufnahmen eine digitale Kopie – einen Avatar, der das Aussehen, die Mimik und bis zu einem gewissen Grad auch die Stimme des Originals nachahmt.
Diese Funktion muss zunächst in den HeyGen-Einstellungen (Abschnitt Benutzerdefinierter Avatar) aktiviert werden und Sie sollten damit rechnen, dass es einige Stunden dauern kann, bis ein benutzerdefinierter Avatar erstellt ist. Sobald er fertig ist, erscheint er in Ihrer Bibliothek und Sie können ihn wie jeden anderen verwenden – geben Sie ihm einfach einen Text und er wird Ihr „digitales Ich“ sprechen. Für eine detaillierte Anleitung zur Erstellung Ihres eigenen Avatars hat HeyGen eine klare Schritt-für-Schritt-Anleitung veröffentlicht – ich empfehle Ihnen einen Blick in den Hilfebereich, wir zeigen den Vorgang auch in unserem Video.

Der KI-Avatar von HeyGen eignet sich für Erklärvideos, Produktpräsentationen, E-Learning oder Web-Begrüßungsvideos – kurz gesagt, überall dort, wo Sie etwas persönlich sagen möchten, aber nicht physisch vor der Kamera stehen können oder wollen. Die resultierenden Videos sind erstaunlich glaubwürdig. Natürlich kann der aufmerksame Betrachter erkennen, dass es sich um eine Animation handelt (die Bewegungen können manchmal etwas ruckartig sein), aber für den täglichen Gebrauch ist die Qualität mehr als ausreichend. Für einen Bruchteil des Zeit- und Kostenaufwands können Sie Inhalte erstellen, für die Sie sonst ein Kamerastudio, Schauspieler oder eigene Filmaufnahmen benötigen würden.
Schauen Sie sich an, wie wir eine der Funktionen unserer SmartFP-Plattform mit HeyGen beschrieben haben:
Tipp: Viele Benutzer verwenden HeyGen auch, um Videos zu lokalisieren – sie nehmen ein Video einmal auf (z. B. auf Englisch) und lassen dann HeyGen den Avatar in andere Sprachen sprechen. Auf diese Weise müssen sie das Video nicht noch einmal aufnehmen, sondern tauschen nur die Stimme und die Untertitel aus. Die KI kümmert sich um die Lippensynchronisation des Avatars in die neue Sprache. Sie können das Video also ganz einfach „übersetzen“, z. B. ins Tschechische, Slowakische, Englische und Deutsche – und überall spricht dieselbe Figur, nur in einer anderen Sprache.
Beispiel für den Einsatz von KI bei der Arbeit mit Video und Audio 2/5:
Sora: Videoerstellung und -bearbeitung durch OpenAI
Jetzt gehen wir von sprechenden Avataren zur allgemeinen Videoerstellung über. Stellen Sie sich vor, Sie könnten ein beliebiges Szenario als Text schreiben und die KI würde daraus ein Video erstellen. Das ist genau das, was das neue Produkt von OpenAI namens Sora verspricht. Es ist ein fortschrittliches Tool zur Erstellung von Videos aus Text, einem Bild oder einem kurzen Videoclip. Sora kann auf der Grundlage einer Textbeschreibung Videoclips von bis zu 20 Sekunden Länge erstellen. Sie beschreiben z. B. eine Szene „Sonnenuntergang über dem Meer, die Kamera fährt langsam hoch“ und die KI erzeugt eine bewegte Aufnahme, die der Beschreibung entspricht.

Aber Sora kann viel mehr als nur Text → Video. Es bietet einen vollständigen Video-Editor mit künstlicher Intelligenz. Die wichtigsten Funktionen sind:
- Remix Video: Sie laden Ihr eigenes kurzes Video hoch und texten, was Sie darin ändern möchten. Sie können z.B. die Szene „Tag-zu-Nacht-Szene mit Regen“ umschreiben und die KI nimmt die entsprechenden Anpassungen an dem Video vor.
- Storyboard (Zeitleiste): Sie können mehrere generierte Szenen kombinieren. Sora verfügt über einen Editor, mit dem Sie eine Abfolge von Clips in einer Timeline anordnen können – zum Beispiel eine erste Landschaftsaufnahme, eine zweite Nahaufnahme einer Figur, eine dritte Action-Bewegung. Mit dem Editor können Sie einstellen, wie die Szenen aufeinander aufbauen und einen einheitlichen Stil für das gesamte Video beibehalten.
- Schleife: Mit einer einzigen Taste kann Sora das Video so bearbeiten, dass das letzte Bild auf das erste folgt – so entsteht eine perfekte Schleife. Dies ist z. B. für animierte Web-Hintergründe oder Endlos-GIFs nützlich.
- Überblenden: Sora kann zwei verschiedene Videoclips zu einem einzigen zusammenfügen und dabei auf intelligente Weise einen Übergang zwischen ihnen schaffen. So können Sie verschiedene Szenen oder Stile mischen, um interessante Effekte zu erzielen (z. B. eine Qualle, die durch die Baumkronen schwebt).
- Voreinstellungen: Es stehen voreingestellte Stile zur Verfügung, um Ihrem Video einen einheitlichen Look zu verleihen. Z.B. „Film Noir“ (schwarz-weiß mit hohem Kontrast), „Papierausschnitt“ (alles sieht aus wie Pappe), „Retro-Archiv“ usw. Sie können die KI ein Video in einer bestimmten Ästhetik erstellen lassen, ohne jedes Detail anpassen zu müssen.

Sora ist einfach ein kleines KI-Filmstudio. 🙂 In der Praxis muss man sagen, dass die Ausgaben immer noch in der Länge begrenzt sind (max. 10 Sekunden für normale Benutzer, 20 Sekunden für höhere Pläne) und die Erzeugung komplexerer Szenen eine Herausforderung sein kann (die KI kämpft manchmal mit Details wie genauen Gesichtern oder Text im Bild). Aber das ist ein gewaltiger Wandel – noch vor einem Jahr war so etwas unvorstellbar. Heute können Sie mit ein paar Klicks Ihr eigenes Sci-Fi-Filmmaterial „drehen“ oder eine statische Illustration animieren.
Wie kann ich Sora ausprobieren? Sora ist derzeit in die ChatGPT-Webanwendung integriert. Wenn Sie ein ChatGPT Plus-Abonnement haben, können Sie auch auf die Bild- und Videofunktionen zugreifen – besuchen Sie einfach die Sora-Website und melden Sie sich mit denselben Daten wie bei ChatGPT an.
Tipp: Sie werden Sora auch dann zu schätzen wissen, wenn Sie nicht selbst einen Film drehen wollen. Es eignet sich zum Beispiel hervorragend zur Belebung von Präsentationen oder Websites. Anstelle eines statischen Hintergrunds können Sie mit Sora eine beeindruckende Animation erstellen (z. B. eine abstrakte Schleife oder ein Naturmotiv). Auch das Social Media Marketing kann von KI-Videos profitieren – Sie können im Handumdrehen kurze, ansprechende Spots produzieren. Und wenn Sie gerne experimentieren, ist Sora ein Spielzeug für Kreative – Sie können unrealistische Kombinationen ausprobieren (z. B. „mit Bleistift gezeichneter Dinosaurier, der auf dem Mond Gitarre spielt“) und sich überraschen lassen, was die KI hervorzaubert.
Beispiel für den Einsatz von KI bei der Arbeit mit Video und Audio 3/5:
SmartFP: Planung und Verwaltung von Marketingkampagnen
In den vorherigen Beispielen haben wir Inhalte erstellt – entweder Video oder Audio. Aber ein großartiges Tool, das Ihnen in der nächsten Phase helfen kann, ist ein Tool, das nicht per se generative KI ist, sondern Ihnen hilft, alles zu organisieren. Was nützen die besten KI-Kreationen, wenn Sie sie nirgendwo ordentlich sammeln, ihre Veröffentlichung planen und die Zusammenarbeit im Team sicherstellen können? Genau dafür hat die SmartFP-Plattform ein Modul Projektverwaltung (FastTask). Sehen wir uns an, wie es dem Marketingteam die Planung und Genehmigung von Social Media-Posts oder die Verwaltung von Kampagnen im Allgemeinen erleichtern kann.
Das Modul Projektmanagement wurde entwickelt, um die effektive Planung, Verfolgung und Koordination von Aufgaben innerhalb eines Teams zu erleichtern. Sie können z.B. ein Projekt „Sommer-Marketing-Kampagne“ erstellen , ihm alle Unteraufgaben hinzufügen (z.B. „Trailer-Video erstellen“, „Text für Posts schreiben“, „Facebook-Posting planen“, „Bildmaterial mit der Geschäftsleitung abstimmen“, usw.) und sie Kollegen mit Fristen zuweisen. Sie können jede Aufgabe auf einer übersichtlichen Kanban-Tafel sehen, die Spalten wie “ Zu erledigen“, “ In Bearbeitung“, “ Erledigt“ usw. anzeigt. Sie können Aufgaben per Drag & Drop zwischen den Spalten verschieben, je nachdem, in welchem Stadium sie sich befinden, so dass jeder sofort einen Überblick über den Status der Kampagne hat.

Die Kommunikation innerhalb des Teams findet direkt bei den Aufgaben statt – jede Aufgabe hat ihre eigene Diskussion, Änderungshistorie und die Möglichkeit, Dateien anzuhängen. Ein Grafikdesigner lädt zum Beispiel ein Bannerdesign in eine Aufgabe hoch (wie das KI-generierte Bild in der vorherigen Episode 😊) und markiert die Aufgabe als zur Genehmigung anstehend. Die zuständige Person erhält eine Benachrichtigung (per E-Mail oder in der App) und kann sich die Aufgabe ansehen, kommentieren oder vorantreiben. Alle Änderungen (Verschieben in einen anderen Status, neuer Kommentar, Textbearbeitung…) werden mit Zeitangabe auf der Aufgaben-Zeitleiste protokolliert – so können Sie jederzeit sehen, wer was wann getan hat. Diese Transparenz verhindert, dass etwas in einer E-Mail verloren geht oder vergessen wird.

Eine großartige Funktion des FastTask-Moduls ist die schnelle Erfassung von Ideen und Anfragen (Windows, Outlook und Chrome erforderlich). Wenn Sie z.B. eine E-Mail von einem Kunden erhalten, der Marketingmaterial anfordert, ziehen Sie diese einfach in das SmartFP-Fenster – eine neue Aufgabe wird automatisch mit dem vorausgefüllten Titel und der Beschreibung aus dieser E-Mail erstellt. Ebenso können Sie mit einem Klick einen Screenshot einfügen: Drücken Sie Bildschirm drucken oder Strg+V und der Screenshot wird an die Aufgabe angehängt – ideal für visuelle Erinnerungen („diesen Teil der Website hier bearbeiten“ usw.).
Aus der Sicht eines Teamleiters bietet das Modul auch Filter und Berichte. Sie können sich alle Aufgaben eines Mitarbeiters projektübergreifend anzeigen lassen, oder umgekehrt alle Aufgaben, die in dieser Woche eine Frist haben. So können Sie leicht feststellen, wer überlastet ist, was brennt und wo es freie Kapazitäten gibt. Die Genehmigung von Aufgaben ist auch für Marketingkampagnen wichtig – in SmartFP implementieren Sie einfach, dass eine Aufgabe den Status „Zur Genehmigung anstehend“ hat, und die verantwortliche Person genehmigt sie entweder (verschiebt sie nach Erledigt) oder gibt sie mit einem Kommentar zurück an „In Arbeit“. Auf diese Weise haben Sie die Kontrolle über den gesamten Prozess und nichts wird ohne Genehmigung veröffentlicht.

Das Modul Projektmanagement ist vielseitig: Es kann nicht nur von Marketingfachleuten, sondern auch von Entwicklungsteams, Vertriebsabteilungen für das Angebotsmanagement, der Personalabteilung für die Personalbeschaffung usw. verwendet werden. Es ist ein flexibles Tool für jedes Projektmanagement. Wenn Sie an dieser Demo interessiert sind, können wir gerne eine Demo einrichten und Ihnen zeigen, wie das Modul in Ihrer Umgebung funktionieren würde.
Tipp: Überlegen Sie, an welcher Stelle in Ihrem Prozess Sie ein Projektmanagement-Tool einsetzen könnten, und lassen Sie es uns wissen.
Beispiel für die Verwendung von KI für Video und Audio 4/5:
OpenArt: Videos mit einem einheitlichen Charakter erstellen
Als wir in der letzten Folge über Bilder sprachen, erwähnten wir, dass die KI manchmal Probleme mit der Konsistenz hat – wenn Sie zehn Bilder der „gleichen“ Person erstellen, kann jedes etwas anders aussehen. Das ist ein Problem bei Videos: In jedem Bild würden sich die Gesichtszüge des Schauspielers ändern! Aus diesem Grund werden Tools entwickelt, die darauf abzielen, den Charakter über mehrere Aufnahmen hinweg konsistent zu halten. Ein solches Tool ist OpenArt – ursprünglich eine Plattform zur Erzeugung von KI-Bildern, die jetzt auch fortschrittliche Modelle für Videos anbietet.
OpenArt verfügt über eine Funktion namens Charaktere, mit der Sie Ihren eigenen Charakter erstellen und ihn wiederholt verwenden können. Der Prozess besteht darin, dass Sie ein oder mehrere Bilder der Figur hochladen (es kann sich dabei um eine reale Person handeln – z. B. Ihr Selfie – oder sogar um eine fiktive Zeichentrickfigur) oder einfach mündlich beschreiben, wie sie aussehen soll. Die KI erstellt dann ein Modell dieser Figur und Sie können ihr einen Namen geben. Wenn Sie dann ein Bild oder ein Video in OpenArt erstellen, geben Sie in der Eingabeaufforderung einfach einen Link zu dieser speziellen Figur ein und die KI sorgt dafür, dass das Ergebnis mit ihrem Aussehen übereinstimmt.

Beispiel: Nehmen wir an, Sie erstellen die Figur „Anna – eine junge Brünette in einem roten Kleid“. Sie lassen OpenArt mehrere Bilder generieren, wählen dasjenige aus, das Ihnen am besten gefällt, und speichern Anna als Ihren Charakter. Nun möchten Sie eine Comic-Geschichte über Anna erstellen – Sie brauchen also eine Reihe von Bildern, in denen Anna jedes Mal in einer anderen Situation erscheint, aber immer noch wie Anna aussieht. Mit einem normalen Generator würde es passieren, dass sie das eine Mal eine andere Nase hat, das zweite Mal andere Augen… Mit OpenArt Characters sagen Sie: „[Anna] sitzt in einem Büro und tippt auf einem Computer, im Stil eines Comics“. Die KI wird ein Bild von Anna am Computer erzeugen. Nächste Szene: „[Anna] läuft bei Sonnenuntergang am Strand “ – Sie erhalten wieder Anna, diesmal in Bewegung am Strand. Und so weiter. Der ganze Comic hat einen einzigen Protagonisten.
Dies ist ideal für Markencharaktere, Maskottchen oder wenn Sie denselben KI-„Darsteller“ in verschiedenen Bildern im Marketing verwenden möchten. Sie müssen die Eingabeaufforderung nicht jedes Mal anpassen, damit sie „gleich aussieht“ – OpenArt kümmert sich automatisch um die Anpassung der Merkmale.
Aber OpenArt beschränkt sich nicht nur auf statische Bilder. Dank der eingebauten Modelle (wie Kling 2.1 – eines der neuesten KI-Videomodelle) können Sie auch kurze Videos erstellen. Entscheidend ist, dass die Konsistenz des Charakters auch über die Zeit – also innerhalb des Videos – gilt. Wenn Sie ein definiertes Zeichen verwenden, versucht die KI, es vom ersten bis zum letzten Bild des Videos gleich zu halten. Dies löst das Problem, dass ältere KI-Videomodelle „fließende“ Gesichter hatten (die Figur sah in jedem Bild ein wenig anders aus, was das Auge als unnatürlich empfand). Mit OpenArt sollte dies weniger vorkommen.

Wie verwendet man OpenArt? Registrieren Sie sich einfach bei openart.ai – die grundlegende Bilderstellung ist kostenlos (Sie erhalten eine bestimmte Anzahl von Credits pro Tag). Für fortgeschrittenere Funktionen, längere Videos oder das Trainieren Ihrer eigenen Figuren benötigen Sie einen kostenpflichtigen Plan oder müssen Credits kaufen, aber Sie müssen nichts bezahlen, um es auszuprobieren.
Wählen Sie in der Toolbox Charaktere und erstellen Sie einen Testcharakter. Sie können zum Beispiel ein Foto von sich selbst hochladen und die KI die Figur neu trainieren lassen. Versuchen Sie dann, ein einfaches Bild mit dieser Figur zu erstellen (verwenden Sie den Namen oder den Link zu dieser Figur in der Eingabeaufforderung – die Anweisungen von OpenArt zeigen es Ihnen). Sehen Sie sich an, wie die KI die Szene mit Ihnen als „Schauspieler“ rendert. Es ist ein bisschen Sci-Fi, aber es funktioniert! 🙂 Sobald Sie mit Bildern herumgespielt haben, wechseln Sie zu Video (OpenArt unterstützt die Erzeugung von Videos – entweder nur aus Text oder aus einem Bild, wie bei Sora). Geben Sie ein, was Ihre Figur tun soll, und Sie erhalten im Handumdrehen einen animierten Clip.

Tipp: OpenArt hat vor kurzem die Lippensynchronisation hinzugefügt – die Möglichkeit, die Lippen der Figur entsprechend dem Soundtrack zu bewegen. Sie können Ihr eigenes Audiomaterial aufnehmen (z. B. den Kommentar, den Sie in ElevenLabs erstellt haben, siehe unten) und OpenArt generiert ein Video von Ihrer KI-Figur, die genau die von Ihnen aufgenommene Sprache artikuliert. Auf diese Weise wird der Stimmenklon mit der animierten Figur verbunden – das Ergebnis ist ein sprechender Avatar, der der Realität sehr nahe kommt. Diese Technologie befindet sich noch im Anfangsstadium, aber sie deutet auf eine Zukunft hin, in der jeder in seinem virtuellen Studio nach Belieben mit Schauspielern und Stimmen „spielen“ kann.
Beispiel für die Verwendung von KI für Video und Audio 5/5:
ElevenLabs: Text-to-Speech und Kopie Ihrer eigenen Stimme
Lassen Sie uns zum Schluss noch einen Blick auf den Bereich Ton werfen – insbesondere auf die synthetische Stimme. Ganz gleich, ob Sie ein Video erzählen, eine Audioversion eines Artikels erstellen oder sogar eine Stimme für Ihren Chatbot benötigen, Sie müssen keinen professionellen Schauspieler engagieren. Hochwertige KI-Modelle können heute Texte lesen, die von einer menschlichen Stimme nicht zu unterscheiden sind. Eines der bekanntesten Tools ist ElevenLabs.

ElevenLabs können Sie einfach einen beliebigen Text einfügen und ihn in gesprochenes Wort umwandeln lassen. Es unterstützt viele Sprachen (einschließlich Englisch) und bietet sehr natürlich klingende Stimmen. Nachdem Sie sich für ElevenLabs registriert haben, können Sie sofort loslegen – öffnen Sie den Bereich Sprachsynthese, geben Sie Ihren Text ein oder fügen Sie ihn ein und wählen Sie eine Stimme aus dem Menü. Es stehen voreingestellte Stimmen zur Verfügung (die meisten davon sind in Englisch, für Tschechisch können Sie z.B. Antonín oder Zuzana auswählen, die wie ein normaler tschechischer Sprecher klingen). Sie klicken auf Generieren und innerhalb weniger Sekunden wird eine Audiodatei erzeugt, die Sie abspielen oder herunterladen können.
Die Qualität der Ausgabe wird Sie wahrscheinlich überraschen – die Zeiten der monotonen Roboterstimmen sind vorbei. ElevenLabs kann Sätze intonieren, natürliche Pausen machen, den Tonfall je nach Inhalt ändern (eine Frage fragend klingen lassen, einem Ausrufezeichen Nachdruck verleihen usw.). Wenn Ihnen etwas nicht gefällt, können Sie versuchen, den Text zu bearbeiten (z.B. Kommas für ein langsameres Tempo einfügen oder die Aussprache von Fremdwörtern phonetisch beenden) und ihn erneut zu generieren. Bei tschechischen Texten ist die Qualität ebenfalls sehr gut, obwohl die KI bei schwierigen Wörtern oder Namen manchmal ein wenig stottert – in diesem Fall hilft es, das problematische Wort so zu schreiben, wie es ausgesprochen wird.

Spielen Sie das Ergebnis ab:
Wo kann eine solche synthetische Stimme nützlich sein? Sie können zum Beispiel ein Lehrvideo vertonen (wie das, das Sie in HeyGen erstellt haben – anstelle der Standard-Avatarstimme setzen Sie Ihr eigenes Audio ein). Es eignet sich auch hervorragend für Podcasts oder Audioblogs – Sie schreiben einen Artikel und mit einem Klick haben Sie eine Audioaufnahme davon, die die Zuhörer hören können, anstatt sie zu lesen. Unternehmen nutzen ElevenLabs für automatisierte Telefonsysteme, Sprachassistenten oder sogar personalisierte Nachrichten (bei denen der Kunde seinen Namen in gesprochenem Text hört, ohne dass ihn jemand manuell aufnimmt).
Das i-Tüpfelchen ist die Funktion Voice Lab, mit der Sie Ihre eigene Stimme klonen können. Wenn Ihnen eine der vorgefertigten Stimmen nicht gefällt (oder Sie einfach nur wollen, dass sie nach Ihnen klingt), laden Sie ein paar Hörproben Ihrer Stimme in das System hoch. Alles, was Sie brauchen, sind ein paar Minuten Aufnahmezeit – idealerweise mit einer klaren, rauschfreien Stimme. ElevenLabs verwendet diese Proben, um ein Modell zu trainieren, das fast genau wie Sie spricht. Dann kann jeder Text, den Sie schreiben, so klingen, als ob Sie ihn selbst lesen würden. Es ist schon eine seltsame Erfahrung, Ihre Stimme Sätze sagen zu hören, die Sie nie gesagt haben. 🙂
Der Nutzen liegt auf der Hand: Sie können sich selbst skalieren – zum Beispiel Videos oder Präsentationen erstellen, in denen Sie „Sie“ sind, ohne jede Ausgabe mühsam überreden zu müssen. Podcast-Ersteller lokalisieren auf diese Weise Inhalte in Fremdsprachen (sie bringen ihrer Stimme bei, Englisch, Spanisch usw. zu sprechen, und erhalten so ausländische Versionen ihrer Sendung, die immer noch wie sie selbst klingen).
Tipp: ElevenLabs zeichnet sich durch seine Sprachausgabe aus – es kann der Stimme Emotionen verleihen. In der Benutzeroberfläche können Sie die Parameter Stabilität und Klarheit/Stil für die Stimme einstellen. Wenn Sie die Stabilität verringern, wird die Stimme ausdrucksstärker (z.B. für dramatisches Lesen oder emotionales Sprechen). Erhöhen Sie die Klarheit für eine förmlichere und klarere Sprache (z.B. für Nachrichten). Versuchen Sie, mit diesen Einstellungen herumzuspielen, oder verwenden Sie den Voice Styler, mit dem Sie Ihrem Text Anweisungen wie „sagen Sie es mit Begeisterung“ oder „in einem traurigen Ton“ hinzufügen können . Die KI passt dann die Intonation so an, als ob sie die Emotion tatsächlich erleben würde.
Was Sie aus diesem Beitrag mitnehmen können
- KI kann bereits Video und Sprache erzeugen, was die Erstellung von Multimedia-Inhalten erheblich vereinfacht. Kurze Spots, Animationen, Präsentationen oder gesprochene Kommentare können ohne spezielle Ausrüstung erstellt werden.
- Ein virtueller Avatar (HeyGen) kann Ihre Präsentation vor der Kamera ersetzen – ideal, wenn Sie nicht persönlich sprechen möchten oder Inhalte in mehreren Sprachen benötigen.
- Das Erzeugen von Videos aus Text (Sora, OpenArt) befindet sich noch in einem frühen Stadium, ermöglicht aber bereits das Experimentieren mit visuellen Ideen. Auch ohne Kenntnisse in der Bearbeitung oder Animation können Sie originelle Clips für Ihre Projekte erstellen.
- Konsistente Charaktere: Tools wie OpenArt können Ihnen helfen, einen konsistenten Charakter-Look in Bildern und Videos zu erhalten. Dies gibt dem Aufbau einer visuellen Identität (Maskottchen, Charaktere in Kampagnen) eine neue Dimension.
- Die KI-Stimme (ElevenLabs) ist nicht von einer menschlichen Stimme zu unterscheiden und ebnet den Weg für die Automatisierung der Audioproduktion – von Videos über Podcasts bis hin zum Kundensupport. Das Klonen Ihrer eigenen Stimme kann bei der Aufnahme von sich wiederholenden Texten viel Zeit sparen.
- Integration in die Praxis: Integrieren Sie all diese Ergebnisse in Ihre Arbeitsabläufe, um sie nützlich zu machen. Verwenden Sie Projektwerkzeuge (wie SmartFP FastTask), um die Arbeit zu organisieren, legen Sie klare Prozesse für die Genehmigung von KI-generierten Inhalten fest und schulen Sie Ihr Team in der ethischen Nutzung von KI.
- Seien Sie verantwortungsbewusst: KI gibt Ihnen viel Macht in die Hand, um überzeugende Inhalte zu erstellen. Nutzen Sie sie kreativ, aber transparent – kennzeichnen Sie die von Ihnen erstellten Inhalte und respektieren Sie die Privatsphäre und die Rechte anderer.
Vergleich von KI-Tools für die Arbeit mit Bildern
Werkzeug | Funktionen | Vorteile | Preis |
---|---|---|---|
HeyGen | Videos mit KI-Avataren erstellen | Einfach zu bedienen; viele Avatare und Stimmen; Unterstützung der tschechischen Sprache; Möglichkeit zur Personalisierung mit Ihrem eigenen Avatar. | Kostenlos: 3 Videos pro Monat (720p, bis zu 3 Minuten). Creator: $29/Monat (HD, 30 min Video, benutzerdefinierter Avatar). |
Sora | Video aus Text oder Bild generieren | Erweiterte Funktionen zur Videobearbeitung; Stacking mehrerer Szenen; hohe Qualität (1080p) für einen höheren Plan. | Teil von ChatGPT Plus ($20/Monat – 720p, 10 s Video) / Pro ($200/Monat – 1080p, 20 s, schneller). |
SmartFP: Projektleitung | Projektmanagement – Kampagnenplanung, Aufgaben, Teamarbeit | Anpassbare Unternehmensumgebung; E-Mail-Integration; Kanban, Zeitleiste, Benachrichtigungen; | Lizenz innerhalb der SmartFP-Plattform (Lösung für Unternehmen, Preis je nach Umfang des Einsatzes – Demo-Option). |
OpenArt | Erzeugen Sie Bilder und Videos mit einheitlichen Zeichen | Beibehaltung desselben Charakters bei allen Ausgaben; Lippensynchronisation für sprechende Charaktere; Community teilt Kreationen. | Kostenloses Basisangebot (tägliches Bildguthaben, begrenztes Video). Premium Credits/Pläne für mehrere Generationen, schnellere Berechnung und erweiterte Funktionen. |
ElevenLabs | Text-to-Speech, Klonen der Stimme des Benutzers | Überlegene natürliche Stimme; Unterstützung für Intonation und Emotionen; Fähigkeit, Ihre eigene Stimme zu kreieren. | Kostenlos: begrenzte Anzahl von Zeichen/Monat (ca. 10k Zeichen), kein Klonen. Starter: ab $5/Monat (mehr Zeichen, 1 eigene Stimme). |
Empfehlungen zum Schluss
Wenn Sie eine Idee für ein bestimmtes Thema oder ein Tool haben, das Sie innerhalb der KI interessiert, lassen Sie es mich wissen! 🙂 Diese Serie wird für Sie erstellt – ich bin gerne bereit, sie auf das zuzuschneiden, was Ihnen am meisten am Herzen liegt oder was Sie gerne ausprobieren möchten. Gleichzeitig würde ich mich freuen, wenn Sie Ihre Erfahrungen mit den heute vorgestellten Tools mit mir teilen würden. Haben Sie versucht, Ihren eigenen Video-Avatar zu erstellen, oder haben Sie Ihre Stimme klonen lassen? Was hat Sie begeistert und was haben Sie bisher als enttäuschend empfunden? Ihre Erkenntnisse können anderen Lesern und mir helfen, wenn wir die Möglichkeiten der KI weiter erforschen.
Lassen Sie uns gemeinsam weiter erforschen, wie KI unsere Arbeit und unser Leben erleichtern kann, während wir von ihr lernen und etwas von diesem futuristischen Spaß haben. Vielen Dank, dass Sie sich die Serie angesehen haben, und ich freue mich schon auf die nächste Folge!
Was uns in den nächsten Episoden erwartet
In der nächsten – bereits fünften – Folge werden wir uns darauf konzentrieren, wie KI uns bei der Arbeit mit Informationen und Daten hilft. Wir stellen Ihnen Tools wie NotebookLM, die erweiterten Funktionen von ChatGPT und die Suchmaschine Perplexity vor, mit denen Sie effizient recherchieren, Texte analysieren und mit großen Dokumenten arbeiten können. Wir zeigen Ihnen, wie Sie KI als Assistent für das Studium, die Bearbeitung von Unternehmensdokumenten oder auch für die Recherche bei Geschäftsentscheidungen einsetzen können. Sie können sich auf viel freuen – KI kann auch ein leistungsstarker „Partner“ für die Arbeit mit Daten sein, nicht nur für die Erstellung von Inhalten.
Abonnieren Sie, damit Sie nichts verpassen: