030 88 70 23 80 kanzlei@ra-juedemann.de

Recht an der Eigenen Stimme – Sprachsynthese und ihre rechtlichen Auswirkungen auf die Kreativwirtschaft

ein Artikel unseres wissenschaftlichen Mitarbeiters Stephan Müller

Hurra, Hurra der Pumuckl ist wieder da! RTL bringt die Kultserie der 80er Jahre mit neuen Folgen zurück und das, zur großen Freude vieler Fans, mit der Originalstimme des kleinen Kobolds, gesprochen von Hans Clarin.
Die Besonderheit: Hans Clarin ist bereits vor 18 Jahren verstorben.

Technisch wurde diese Produktion durch die neusten Entwicklungen der Sprachsynthese, welche durch das vermehrte Aufkommen von generativen Sprach-KIs bzw. durch deren raschen Fortschritt vorangetrieben wurden, ermöglicht. Lag der Hauptanwendungsfall von Sprach-KI bisher zumeist noch in der Konvertierung menschlicher Stimmen in Text, generieren spätestens 2023, allgemein zugänglich und sogar zumeist kostenfrei, KI-basierte TTS (Text-to-Speech) bzw. STS (Speech-to-Speech) Technologien menschliche Stimmen in Echtzeit. Unter Zugrundelegung einer gesamtgesellschaftlichen Betrachtung dürfte man sogar allzu euphorisch werden, eröffnet diese Technologie eben nicht nur die Möglichkeit alte Idole stimmlich wieder zum Leben zu erwecken, die etwas eingestaubte Kunstform des harmlosen Telephonstreiches in ein zeitgemäßes Gewand zu kleiden, sondern insbesondere die Aussicht, bereits mittelfristig digitale Barrierefreiheit herzustellen. Tatsächlich resultierte das Aufkommen von Sprach-KIs kurzfristig in einer Flut an nachgeahmten prominenten Stimmen. Durch die Kombination mit fiktiven Inhalten, verfolgen diese scheinbaren Sprachaufnahmen eigene, teils politische, aber auch kommerzielle, individuelle Zwecke und so schickt gegen ein kleines Entgelt vermeintlich George Clooney Grüße zum Geburtstag oder bewirbt die Stimme von Homer Simpson das Angebot einer lokalen Bäckerei.
Inwiefern solche Fakes durch den aktuell rechtlich noch defizitären Rahmen der KI-Anwendungen befeuert werden, ob diese Nachahmungen legal sind, aber auch wie sich Betroffene dagegen wehren können, soll im Folgenden dargestellt werden.
In einem ersten Schritt wird hierzu zunächst die Rechtmäßigkeit von KI-Training bzw. von infolge von Datenverarbeitung gewonnen neuen Aufnahmen bewertet, um im Anschluss entsprechende Rechtsschutzmöglichkeiten aufzuzeigen.

Was sind Sprach-KIs?

Die Zahl an Anbietern bzw. Tools zur Sprachgenerierung ist mittlerweile kaum noch überschaubar. Mit ElevenLabs, TorToiSE, VALL-E, oder aber auch dem demnächst Mitte September 2023 erscheinenden IOS 17 seien an dieser Stelle nur einige prominente Beispiele genannt.
Weshalb an dieser Stelle jedoch auch auf die technischen Spezifikationen der jeweiligen Anwendung eingegangen werden muss, liegt darin begründet, dass jeweils abhängig von deren Ausgestaltung auch die jeweilige rechtliche Bewertung der damit vorgenommenen (umlizensierten) Datenverarbeitung bzw. der daraus gewonnenen Aufnahmen resultiert.

Speziell bei der Nachahmung bestimmter (prominenter) Stimmen wird dieser Prozess als voice cloning beschrieben. Grundsätzlich lässt sich für diesen Prozess auf im Schwerpunkt zwei verschiedene Methoden zurückgreifen. Zunächst ist hier das Stimmcloning im engeren Sinne zu nennen, bei welchem durch Aufnahmen einer Person auf Grundlage eines Skripts stark an den Usecase angepasst, in zumeist tagelanger Kleinstarbeit alle Phoneme der sprechenden Person gesammelt werden, um schließlich eine authentische Replik einer individuellen Stimme kreieren zu können. So, in etwas reduzierter Form, dürfte beispielsweise auch das neue IOS 17 vorgehen.
Wesentlich einfacher gestaltet sich dieser Prozess beim Voicetransfer, Sprachklonen im weiteren Sinne, wobei lediglich die aus einer bis wenigen Aufnahmen gewonnene Stimmfarbe einer Person über ein existierendes Sprachmodell gelegt wird.
Notwendigerweise greifen Benutzer zur Generierung eingangs angesprochener Imitationen auf sprachtransferierende Tools zurück.
Der vom Europaparlament im Juni 2023 verabschiedete AI Act definiert KI wie folgt:
(AI system) means a system that is designed to operate with a certain level of autonomy and that, based on machine and/or human-provided data and inputs, infers how to achieve a given set of human-defined objectives using machine learning and/or logic- and knowledge based approaches, and produces system-generated outputs such as content (generative AI systems), predictions, recommendations or decisions , influencing the environments with which the AI system interacts.
Insofern dürften Sprachsysteme auch zukünftig unabhängig vom genutzten prozessualen Vorgehen als KI angesehen werden.

Relevant wird die KI-Eigenschaft einer Anwendung bereits für die Frage, ob Sprechende die Verwertung ihrer Aufnahmen für das KI-Training dulden müssen bzw. negativ formuliert bereits das Training der KI mit bestimmten Daten rechtliche Probleme aufwirft.
Insbesondere könnte zunächst das Urheberrecht die Nutzung entsprechender Daten einschränken.
Data Mining/KI-Training

Grundsätzlich ist für die Verwendung urheberrechtlich geschützter Werke die Zustimmung des Urhebers erforderlich.
Das KI-Training stellt eine eigenständige Nutzungsart dar, welche speziell lizensiert werden muss. Im Einzelfall kann sich aus dem Vertragszweck ergeben, dass die eingeräumte Nutzung das Training einer KI mit umfasst. Sollte sich ein Verwerter auch die Rechte an im Zeitpunkt des Vertragsschluss noch nicht bekannten Nutzungsarten zugesichert haben lassen, kann auch die Nutzung von Daten zu KI Trainingszwecken lizensiert sein.
Da ein solches Zustimmungserfordernis bei den umfangreichen Datenmengen, welche KIs nutzen, kaum umzusetzen wäre, normiert das UrHG, §44b II UrHG, für das Text und Data Mining jedoch auch folgende Einschränkung:
Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.
Rechtmäßig zugänglich sind danach Werke, für deren Nutzung eine entsprechende Lizenz vorliegt. Die Gesetzesbegründung führt hierzu speziell Werke an, die unter Open Access Bedingungen veröffentlicht wurden.
Gem. §44b III UrHG haben Rechteinhaber die Möglichkeit, einen Nutzungsvorbehalt zu erklären. Ein solcher ist jedoch nur wirksam, wenn er in maschinenlesbarer Form erklärt wurde, §44b III 2 UrHG. Wie ein solcher Nutzungsvorbehalt praktisch erklärt werden sollte, scheint noch klärungsbedürftig. So könnte eine Möglichkeit darin bestehen, einer jeden Datei, hier Aufnahme, entsprechende Meta-Informationen beizufügen.
Im Rahmen der Verarbeitung von Aufnahmen, im Gegensatz zur Verarbeitung personenbezogener Daten, dürfte eine Verletzung des allgemeinen Persönlichkeitsrechts, Art. 2I GG i.V.m. Art. 1 I GG, eine noch eher untergeordnete Rolle spielen.
Rekurriert das Data Mining ausschließlich auf Interviews oder auch gesprochenen bspw. Social-Media-Beiträgen, welche zumeist keinem urheberrechtlichem Schutz unterliegen, ist das KI-Training (!) rechtmäßig.

Die Rechtmäßigkeit von Sprachimitationen

Anders kann sich dies bei der Beurteilung der daraus gewonnen neuen Aufnahmen darstellen.
Diese neuen Imitationen an sich verletzen zumeist keine Urheberrechte. KI-Systeme, welche ein Voicecloning im engeren Sinne durchführen, kopieren die genutzten Daten nicht, sondern legen sie ausschließlich der Gewinnung neuer Inhalte zu Grunde.
Ebenso verletzen selbst Voiceswapping-Applikationen durch Zusammenstellung neuer Inhalte potentielle Urheberrechte bzw. daran geknüpfte Leistungsschutzrechte nicht.
Begründet wird das durch den zumeist fehlenden urheberrechtlichen Schutz von SprecherInnenleistungen und die Werkbezogenheit von Leistungsschutzrechten. Das UrHG schützt ein Werk, welches es selbst in §2 II UrHG als persönliche geistige Schöpfung näher ausführt. Ein reiner Sprechakt bzw. eine Synchronisation hat jedoch für sich in der Regel keinen Werkcharakter. Lediglich wenn ein Sprecher in einem schöpferischen Akt z.B einer Figur seinen Stempel aufdrückt und dadurch ein Widererkennungswert geschaffen wird, der auf einer eigenen künstlerischen Leistung beruht, kann von einem urheberrechtlich relevanten Schaffen ausgegangen werden. Dies ist jedoch nur in äußersten Ausnahmen anzuerkennen, wie etwa bereits das Kammergericht Berlin 2011 in einem Rechtsstreit zwischen dem Synchronsprecher Marcus Off und Walt Disney feststellte (KG Berlin mit Urteil v. 29.06.2011, Az. 24 U2/10). Doch sind Sprecher weiterhin nicht per se schutzlos. Denn SprecherInnen, deren Darbietung eine „eigentümliche, durch die Persönlichkeit geprägte, geistig-gestaltende, sinnlich wahrnehmbare Leistung“ darstellt, durch welche „der oder die Wahrnehmende(n) einen die Stimmung, das Empfinden, das Gefühl und/oder die Phantasie anregenden Sinneseindruck empfangen“ (Kruse, Die rechtlichen Differenzierungen zwischen Urhebern und ausübenden Künstlern, Hamburg 2013, S. 86), sind als ausübende Künstler gem. §73 UrhG leistungsschutzberechtigt. Ob eine solche Leistung entsprechend vorliegt, richtet sich entsprechend des Urheberschutzes nach dem Kriterium der „kleinen Münze“, wobei keine allzu hohen Anforderungen zu stellen sind (näher dazu auch „Quizmaster“ Entscheidung des BGH, 14.11.1980 – I ZR 73/78). Insbesondere Synchronsprecher sind demzufolge regelmäßig leistungsschutzberechtigt, §73 UrhG. Jedoch sind Leistungsschutzrechte und eben auch deren Verletzungen streng werkakzessorisch.

Ein etwaige Urheberrechtsverletzung durch die neuentstandenen Aufnahmen könnte sich schließlich nur aus einer Verletzung des vorgetragenen literarischen Werkes ergeben. Ein literarisches Werk ist jedoch nur die Komposition von Wörtern in einem Text, nicht etwa die darin enthaltene Information. Selbst wenn diese Informationen mit hohem Aufwand beschafft wurden, sind reine Fakten urheberrechtlich nicht geschützt. Sprach-Kis entnehmen den eingespeisten Dateien jedoch gerade nicht vollständige Satzzusammenhänge und verletzten mithin nicht die Urheberrechte der zugrundeliegenden literarischen Werke. Insofern verletzen sie akzessorisch hierzu auch nicht etwaige Leistungsschutzrechte ausübender Künstler.
Das heisst im Umkehrschluss wiederum nicht, dass derartige Aufnahmen rechtmäßig sind. Insbesondere können deren Nutzung bzw. Veröffentlichung gegen das allgemeine Persönlichkeitsrecht, Art. 2 I GG i.V.m. Art. 1 I GG der imitierten Personen verstoßen. Das allgemeine Persönlichkeitsrecht schützt sachlich sowohl die Selbstbestimmung, als auch die Achtung des sozialen Geltungsanspruchs. So müsse ein Mensch als selbstbestimmtes „individuelles Wesen über sich selbst verfügen und sein Schicksal eigenverantwortlich gestalten können“ (BVerfG vom 11.10.1978, BVerfGE 49, 286, 298). Das Selbstbestimmungsrecht statuiert hingegen kein Recht an der eigenen Stimme, so bereits das OLG Hamburg am 08.05.1989 (Heinz Erhardt, NJW 1990, 1995f.). Nachahmungen einer individuellen Stimmfarbe/Ausdrucksweise können jedoch dazu führen, dass kommerzielle Persönlichkeitsinteressen einer Person verletzt werden, aber auch deren sozialer Geltungsanspruch nicht geachtet wird. So muss etwa eine prominente Person ihre Popularität bzw. ihr Image wirtschaftlich exklusiv verwerten dürfen. Auch abhängig vom Inhalt der entstandenen fiktiven Aufnahme, darf darin der imitierten Person auch nicht ihre Stellung als gleichberechtigtes Glied, als selbstverantwortliche Persönlichkeit aberkannt werden, indem die Zuschreibung zum „gesellschaftlichen Tod“ führt (BVerfG vom 21.6.1977, BVerfGE 45, 187, 228). Imitiert nun eine Sprach-KI die Stimme eines prominenten Sprechers, stellt dies eine Verletzung des allgemeinen Persönlichkeitsrechts, Art. 2 I GG i.V.m. Art. 1 I GG, des Sprechenden dar, als die Imitation in die kommerzielle Selbstbestimmung der Person eingreift.
Die kommerzielle Nutzung nichtlizensierter Nachahmungen prominenter Personen bzw. deren Veröffentlichung unter Missachtung des sozialen Geltungsanspruchs sind mithin rechtswidrig.
Schließlich stellt sich die Frage, welche Ansprüche man als Betroffener gegen Rechtsverletzungen in diesem Zusammenhang geltend machen kann.

Zunächst ist hier wiederum zwischen den beiden Sachverhalten der Verletzung von durch das KI-Training indizierten Urheberrechten einerseits, und Verletzungen des allgemeinen Persönlichkeitsrechts durch die kommerzielle Nutzung nichtlizensierter Nachahmungen bzw. deren Veröffentlichung unter Missachtung deren sozialen Geltungsanspruchs andererseits, zu unterscheiden. Weiterhin könnten sowohl Ansprüche gegen die Nutzer des Tools, als auch gegen die Entwickler bestehen.
Ansprüche wegen Verletzungen des Urheberrechts infolge umlizensierter Nutzung urheberrechtlich geschützter Werke
Sind die Fälle unlizensierter Nutzung von Werken zum Data Mining praktisch wohl eher von geringerer Relevanz, als sich das KI-Training auch sehr gut auf nicht urheberrechtlich geschützte Daten stützen lässt, bzw. es in der Praxis wohl schwer nachweisbar sein dürfte, welche Daten für das Training benutzt wurden, bestehen in diesem Fall theoretisch sehr wohl Ansprüche auch der sprechenden Person.

Gem. § 97 UrhG könnte ein Betroffener aufgrund einer aufgezeigten Urheberrechtsverletzung am entsprechenden Werk einen Anspruch auf Unterlassung der Nutzung des Werkes für das KI-Training, bzw, auch auf Schadensersatz, gem. § 97 II UrhG haben. Auch SprecherInnen als ausschließlich Leistungsschutzberechtigte, § 73 ff. UrhG, stehen diese Ansprüche zu. Insbesondere kann ein etwaiger Schadensersatzanspruch in seinem Umfang auch anhand eines fiktiven Lizenzschadens berechnet werden. Insofern verfängt das Argument vieler Täter, als sie keinen durch die umlizensierte Nutzung entstanden Schaden anerkennen wollen, für die Verwendung urheberrechtlich geschützter Werke nicht. (siehe: https://www.heise.de/news/Skyrim-Mods-Aerger-um-KI-Kopien-von-Stimmen-9211360.html).

Ansprüche wegen Verletzungen des allgemeinen Persönlichkeitsrechts infolge der Generierung von Sprachimitationen
Zentral dürften Betroffenen zivilrechtliche Ansprüche wegen der Verletzung ihres allgemeinen Persönlichkeitsrechts zustehen. Verletzte Sprecherinnen und Sprecher können Unterlassungsansprüche, § 1004 I 2 BGB analog, bzw. Schadensersatzansprüche, § 823 BGB, gegen die Ersteller des Inhalts haben. Gerade das Erstellen derartiger Inhalte kann bei Prominenten einen Eingriff in ihre kommerzielle Persönlichkeitsinteressen und mithin einen Vermögensschaden darstellen, §249 ff BGB. Auch ein entgangener Gewinn kann gem. § 252 BGB zu ersetzen sein.
Falls bei Missachtung des sozialen Geltungsanspruchs imitierter Personen Unterlassungen, typischerweise die Persönlichkeitsverletzung nicht hinreichend abgelten können, können Verletzten in diesem Fall auch Ansprüche auf Geldentschädigung zustehen, welche auch den Ersatz immaterieller Schäden umfassen. Ein solcher Anspruch besteht jedoch nur bei nach Ausmaß, Intensität, Nachhaltigkeit und Fortdauer der Interessen- oder Rufschädigung, schwerwiegenden Verletzungen des Persönlichkeitsrechts (BGH, Urteil vom 15.11.1994 – VI ZR 56/94, BGHZ 128, 1, 12, NJW 1995, 861). Gerade aber bei inhaltlich derart gerichteten Aufnahmen, welche schließlich zum „gesellschaftlichen Tod“ des Imitierten führen, beispielsweise durch die Wiedergabe pornographischer Inhalte, dürfte ein Unterlassungsanspruch nicht der Genugtuung der Opfer genüge tun. In solchen extrem gelagerten Fällen könnten insofern auch Ansprüche auf Geldentschädigung bestehen.