06/09/2024
KI im Audiobereich-Klänge der Zukunft?🎤
Künstliche Intelligenz gewinnt auch im Audio-Bereich zunehmend an Bedeutung und beginnt die Art und Weise, wie Musik produziert und bearbeitet wird, grundlegend zu verändern. Von automatischer Musikkomposition bis hin zu Sprachsynthese und -erkennung eröffnen sich spannende neue Möglichkeiten. Auch in der täglichen Arbeit einer Filmproduktion spielt der Umgang mit Audio- und Musikdateien eine zentrale Rolle. Doch ist die Audio-KI bereits in der Lage, alltägliche Prozesse vollständig zu ersetzen oder zumindest zu beschleunigen?
Kann Audio-KI die Sprecher in Zukunft ersetzen?🥸
Für die Aufnahme von Sprechertexten, etwa für Dokumentationen, Serien oder Werbefilme, sind in der Regel ein professionelles Tonstudio und ein Sprecher erforderlich. Soll der Sprecher beispielsweise einen Text für ein Video von etwa vier Minuten einsprechen, dauert die Aufnahme im Schnitt rund eine Stunde. Je nach Ausstattung des Unternehmens, ob ein eigenes Tonstudio vorhanden ist oder nicht, variiert der Aufwand. Hinzu kommen in den meisten Fällen ein Toningenieur und ein Producer, die den Aufnahmeprozess begleiten. Doch was wäre, wenn dieser gesamte Ablauf auf wenige Sekunden reduziert werden könnte? Genau das haben wir mit der KI-Software „ElevenLabs“ getestet.
ist eine fortschrittliche Audio-KI, die eine Vielzahl an Stimmen in unterschiedlichen Sprachen bietet. Die Software unterstützt mehrere Sprachen, Akzente und Dialekte und kann somit weltweit eingesetzt werden. Zu den Hauptfunktionen gehören die Stimmenklonung, mit der bestimmte Stimmen präzise imitiert werden können, sowie anpassbare Stimmen, bei denen Tonhöhe, Geschwindigkeit und Ausdruck individuell angepasst werden können. Jede Stimme ist außerdem einem bestimmten Stil zugeordnet – wie z. B. Nachrichten, Erzählung, Konversation oder Social Media –, was es ermöglicht, die passende Stimme je nach Projektanforderung auszuwählen.
Wir haben ElevenLabs getestet und den Text eines Sprechers eingespeist – hier seht ihr das Ergebnis
https://f.io/J7HvSmKC
So beeindruckend all diese technologischen Fortschritte auch sind, möchten wir dennoch nicht auf unsere geschätzten Sprecherkollegen verzichten. Denn sie besitzen etwas, das KIs nicht bieten können: Sie sind echte Menschen. Während eine KI lediglich bis zu einem gewissen Grad programmiert werden kann, um einen Text auf eine bestimmte Weise zu sprechen, bringen Sprecher wertvolle Vorschläge und reichlich Erfahrung mit. Sie sind in der Lage, subtile Nuancen im Text zu erkennen und gezielt Akzente zu setzen. Besonders bei der Aussprache nicht-deutscher Wörter oder Namen bringen sie das nötige Feingefühl und Respekt mit, dass einer Software naturgemäß fehlt. Zudem wirkt eine menschliche Stimme vor allem bei ernsten Themen, wissenschaftlichen Fakten oder Nachrichten, deutlich glaubwürdiger und authentischer als eine KI-generierte Stimme.
KI-generierte Sprachaufnahmen können jedoch besonders nützlich sein, wenn es darum geht, vor der endgültigen Aufnahme mit einem Sprecher ein Sprachlayout zu erstellen. Das bedeutet, dass bereits vorab eine Sprachaufnahme existiert, um das Timing und den Charakter des fertigen Produkts besser zu veranschaulichen. Dies spart wertvolle Zeit und Ressourcen, da ein Producer ohne Sprecherausbildung diese Aufgabe nicht mehr selbst übernehmen muss – die KI erledigt dies in wenigen Sekunden.
Unter bestimmten Voraussetzungen können KI-generierte Stimmen sogar veröffentlicht und für kommerzielle Zwecke verwendet werden. Allerdings erfordert dies eine entsprechende Lizenzierung sowie die Klärung der Nutzungs- und Persönlichkeitsrechte, insbesondere wenn die Stimme einer realen Person nachgebildet oder modifiziert wurde.
Musik mit KI produzieren – geht das und darf man das?🎹
Auch während der Produktion eines Films oder Videos ist die Verwendung von Audio und Musik unerlässlich. Da wir jedoch keine Musikproduktionsfirma sind und nicht für jedes Werbevideo ein individuelles Musikstück komponieren und aufnehmen können, greifen wir auf bereits bestehende Musikstücke zurück, deren Lizenzen wir zuvor selbstverständlich erwerben. Dazu nutzen wir häufig Plattformen wie zum Beispiel , oder , wo wir in den meisten Fällen passende Musik oder Soundtracks finden, die sowohl uns als auch unseren Kunden zusagen. Sollte dies einmal nicht der Fall sein, kann auch hier künstliche Intelligenz zum Einsatz kommen und uns in kleine Musikproduzenten verwandeln.
AI ist eine innovative Musik-KI, die in der Lage ist, Musikstücke sowohl mit als auch ohne Gesang zu generieren. Das Besondere an Suno AI ist seine benutzerfreundliche Handhabung. Es sind weder tiefgehende Kenntnisse in Musikproduktion noch das Lesen von Noten erforderlich, um qualitativ hochwertige Musik zu erstellen, die immer wieder neu und nach individuellen Vorstellungen – sei es für interne Zwecke oder für den Kunden – angepasst werden können. Alles, was ihr braucht, ist eine kurze Beschreibung, um einen „Hit“ zu kreieren. Gleichzeitig ist die Plattform wie ein kleines soziales Netzwerk aufgebaut, wo sich die generierte Musik anderer angehört, bewertet und für weitere Ideen genutzt werden kann.
Als kleines Beispiel haben wir ein kurzes Lied über uns selbst generiert. Dafür haben wir folgenden Text in das Beschreibungsfeld eingegeben: „German Indie Pop Song about the media production company RP Next“. Das Ergebnis könnt ihr euch unter folgendem Link anhören.
https://f.io/Bf6SRnRQ
Ein weiteres Beispiel ist die Software AI. Mubert ist eine KI-gestützte Musikplattform, die ebenfalls in der Lage ist, personalisierte Soundtracks und lizenzfreie Musik innerhalb weniger Sekunden zu generieren. Besonders spannend ist die Möglichkeit für Künstler, mit der KI zu kollaborieren und gemeinsam neue Musik zu erschaffen. Zudem unterstützt Mubert die nahtlose Integration der generierten Musik in soziale Plattformen und Apps, was sie ideal für den kommerziellen Einsatz macht.
Ein herausragendes Feature von Mubert ist die Fähigkeit, Musik nicht nur auf Basis von Textbeschreibungen zu erstellen, sondern auch Bildinhalte zu vertonen. Wir haben der KI das Titelbild dieses Beitrags zur Verfügung gestellt, und das Resultat könnt ihr euch hier anhören.
https://f.io/ex02uI_s
Wie hier zu hören ist, ist das Feature „Bild zu Musik“ noch nicht ganz so weit entwickelt wie das „Text zu Musik“ Feature. Es kann aber dann nützlich sein, wenn sich die Frage stellt, welche Stimmung mit einem Bild vermittelt wird. Dies kann zum Beispiel beim Erstellen eines Storyboards interessant sein oder auch bei Erstellung eines Social Media Beitrags helfen, die richtige Nachricht mit einem Bild zu vermitteln.
Sind Audio-KIs kriminell?🤯
Leider kommt es aber bei Audio-KIs immer wieder zu rechtlichen Problemen. Wie bereits in einem früheren Beitrag erwähnt (Hier geht´s zum Beitrag) , stehen die Plattformen Suno und Udio aktuell im Mittelpunkt von Klagen wegen angeblicher Datenschutz- und Urheberrechtsverletzungen. Große Unternehmen der amerikanischen Musikindustrie werfen den KI-Plattformen vor, urheberrechtlich geschützte Musik aus ihren Labels verwendet zu haben, um ihre künstliche Intelligenz zu trainieren. Im Gegenzug argumentieren die KI-Unternehmen, dass diese Klagen nur eingereicht wurden, weil die Plattformen als ernsthafte Konkurrenz zur traditionellen Musikindustrie wahrgenommen werden.
Die KI-Firmen berufen sich in diesem Zusammenhang auch auf die "Fair Use"-Richtlinie, die Teil des US-amerikanischen Urheberrechtsgesetzes ist. Diese besagt, dass geschütztes Material unter bestimmten Bedingungen ohne die Zustimmung der Rechteinhaber verwendet werden darf, wozu auch das Training von KI-Systemen gehört. So gesehen streiten sie also gar nicht ab, die Daten der Labels verwendet zu haben, sie argumentieren aber, dass es ihr gutes Recht sei, diese zum „Trainieren“ der Programme zu verwenden. In Deutschland gibt es im Übrigen keine "Fair Use"-Regelung jedoch existiert eine Sonderbestimmung im Nutzungsrecht, die die Verwendung fremder Daten für wissenschaftliche Zwecke und zur Lehre erlaubt. Ein spezifisches Gesetz, das die Nutzung von Daten zum Trainieren von KI regelt, existiert allerdings bisher nicht.
Welche Auswirkungen diese rechtlichen Auseinandersetzungen auf die Zukunft haben werden, ist derzeit unklar. Bislang liegt noch kein gerichtliches Urteil vor (Stand: 06.09.2024). Es ist also abzuwarten und die kommerzielle Nutzung von Audio-KI mit Vorsicht zu betrachten.
Klänge der Zukunft?🕙
Die rasante Entwicklung von KI im Audiobereich eröffnet faszinierende Möglichkeiten, sowohl in der Musikproduktion als auch bei der Erstellung von Sprachaufnahmen. Tools wie ElevenLabs und Suno AI demonstrieren eindrucksvoll, wie effizient und flexibel Künstliche Intelligenz eingesetzt werden kann, um Musik und Sprechertexte zu generieren. Trotz dieser Fortschritte bleibt die menschliche Komponente weiterhin unverzichtbar, insbesondere bei Nuancen und emotionaler Authentizität, die eine KI nicht vollständig nachbilden kann.
Dennoch können KI-gestützte Lösungen wertvolle Unterstützung leisten, etwa bei der Vorproduktion oder in spezifischen Anwendungsfällen. Gerade für Kunden, die wenig mit Medienbranche zu tun haben, kann dies sinnvoll sein, da sie so eine Vorstellung des Endprodukts bekommen können. Es ist außerdem davon auszugehen, dass die Softwareprogramme zukünftig immer besser werden, weshalb es nicht auszuschließen ist, dass sie in Zukunft die Sprecher oder immerhin Teile ihrer Arbeit ablösen könnten.
Die rechtliche Unsicherheit, vor allem im Hinblick auf Urheberrechte und die Nutzung von KI-generierten Inhalten, zeigt jedoch, dass der Einsatz von KI im Audiobereich für kommerzielle Zwecke noch nicht die optimale Lösung ist, es sei den es ist von den Kunden ausdrücklich gewünscht und alle benötigten Lizenzen sind vorhanden. Für uns bleibt festzuhalten, dass wir das Thema -KI weiterhin verfolgen und ausprobieren werden.