Künstliche Intelligenzen können aus Trainingsdaten nahezu wortgetreue Kopien von Romanen erstellen.
Die Künstliche Intelligenz steht erneut im Zentrum einer juristischen und ethischen Debatte, die weitreichende Konsequenzen für die gesamte Technologiebranche haben könnte. Neue Forschungsergebnisse zeigen, dass die führenden Sprachmodelle der Welt deutlich mehr Trainingsdaten gespeichert haben, als bislang angenommen wurde. Und das betrifft nicht irgendwelche Daten, sondern urheberrechtlich geschützte Werke wie Bestseller-Romane, die ohne Erlaubnis der Autoren oder Verlage in den Trainingsdatensätzen landeten.
Forscher der Universitäten Stanford und Yale haben in einer kürzlich veröffentlichten Studie nachgewiesen, dass sich große Sprachmodelle von OpenAI, Google, Anthropic und xAI durch gezielte Eingabeaufforderungen dazu bringen lassen, tausende Wörter aus bekannten Romanen nahezu wortwörtlich zu reproduzieren. Zu den betroffenen Werken zählen unter anderem „A Game of Thrones“, „The Hunger Games“ und „The Hobbit“. Besonders aufsehenerregend sind die konkreten Zahlen: Googles Gemini 2.5 reproduzierte 76,8 Prozent von „Harry Potter und der Stein der Weisen“ mit hoher Genauigkeit, während Groks Modell Grok 3 immerhin 70,3 Prozent des Textes ausgab. Durch das sogenannte Jailbreaking, also das gezielte Umgehen der eingebauten Sicherheitsmechanismen, gelang es den Forschern sogar, nahezu den gesamten Roman aus Anthropics Claude 3.7 Sonnet herauszuholen.
Diese Ergebnisse sind deshalb so bedeutsam, weil sie eine der zentralen Behauptungen der KI-Industrie direkt in Frage stellen. Google schrieb noch 2023 in einem Brief an das US Copyright Office, dass im Modell selbst keine Kopie der Trainingsdaten vorhanden sei, weder Texte noch Bilder noch andere Formate. Diese Aussage wirkt angesichts der neuen Studienlage zumindest fragwürdig.
Das Argument der „fairen Nutzung“ gerät unter Druck
Die KI-Unternehmen haben sich in zahlreichen Rechtsstreitigkeiten auf das Konzept des „Fair Use“ berufen, ein im US-amerikanischen Urheberrecht verankertes Prinzip, das die Nutzung geschützter Werke unter bestimmten Umständen erlaubt. Das zentrale Argument lautet dabei, dass die Modelle aus urheberrechtlich geschützten Werken lernen, ohne diese tatsächlich zu speichern. Das Training sei ein transformativer Prozess, bei dem das Modell Muster und Beziehungen zwischen Wörtern erkennt, aber keine Kopien anlegt.
Genau dieses Argument wird durch die neuen Forschungsergebnisse erschüttert. Wenn ein Modell in der Lage ist, drei Viertel eines Romans nahezu wortgenau wiederzugeben, stellt sich die berechtigte Frage, ob hier wirklich nur „gelernt“ oder doch gespeichert wurde. Die Forschungsergebnisse könnten eine ernsthafte Herausforderung für jene darstellen, die argumentieren, das KI-Modell speichere oder reproduziere keine urheberrechtlich geschützten Werke.
Rechtliche Konsequenzen zeichnen sich ab
Die juristische Dimension dieser Entwicklung ist erheblich. In den USA entschied ein Gericht im vergangenen Jahr, dass Anthropics Training auf urheberrechtlich geschützten Inhalten als transformativ und damit als „Fair Use“ gelten könne. Gleichzeitig stellte dasselbe Gericht jedoch fest, dass das Speichern von raubkopierten Werken als grundlegend und unwiderruflich urheberrechtsverletzend einzustufen sei. Dieses Urteil führte letztlich zu einem Vergleich, bei dem Anthropic 1,5 Milliarden Dollar zahlte.
In Deutschland erging im November des vergangenen Jahres ein wegweisendes Urteil gegen OpenAI. Die GEMA, die Verwertungsgesellschaft für Komponisten, Texter und Verleger, klagte erfolgreich, weil das Modell Songtexte auswendig gelernt hatte und reproduzieren konnte. Dieses Urteil gilt als Meilenstein im europäischen Urheberrecht in Bezug auf künstliche Intelligenz.
Die vollständige Reproduktion eines Buches ohne Jailbreaking sei eindeutig eine Urheberrechtsverletzung. Die entscheidende Frage sei jedoch, ob dies in ausreichendem Maße geschehe, um die KI-Unternehmen für diese Verstöße mitverantwortlich zu machen.
Die ethischen Aspekte jenseits des Rechts
Neben den juristischen Fragen gibt es eine tiefere ethische Debatte, die oft im Schatten der Gerichtsverfahren bleibt. Selbst wenn es technisch möglich ist, urheberrechtlich geschützte Inhalte für das Training zu verwenden, bedeutet das noch lange nicht, dass man es auch sollte. Die rechtliche Seite solle letztlich als Schiedsrichter in diesem Prozess fungieren.
Hinzu kommt, dass die Speicherung von Trainingsdaten nicht nur ein urheberrechtliches Problem darstellt. Im Gesundheitswesen oder im Bildungsbereich könnte das unbeabsichtigte Wiedergeben von Trainingsdaten zu ernsthaften Datenschutz- und Vertraulichkeitsproblemen führen. Wenn ein Modell sensible Patientendaten oder vertrauliche Bildungsinformationen in seinen Trainingsdaten hatte und diese unter bestimmten Umständen reproduzieren kann, ist das ein gravierendes Sicherheitsrisiko.
Was die Reaktionen der Unternehmen verraten
Anthropic reagierte auf die Studienergebnisse mit dem Hinweis, dass die verwendete Jailbreaking-Technik für normale Nutzer unpraktikabel sei und mehr Aufwand erfordere, als das Buch einfach zu kaufen. Außerdem betonte das Unternehmen erneut, dass das Modell keine Kopien spezifischer Datensätze speichere, sondern aus Mustern und Beziehungen zwischen Wörtern lerne. OpenAI, Google und xAI äußerten sich nicht zu den Vorwürfen. Die Tatsache, dass die KI-Unternehmen überhaupt Sicherheitsmechanismen eingebaut haben, um das Extrahieren von Trainingsdaten zu verhindern, zeigt, dass sie sich des Problems bewusst sind. Das ist ein stilles Eingeständnis, das lauter spricht als jede offizielle Stellungnahme.
Die KI-Industrie steht an einem Scheideweg. Die rechtlichen, ethischen und technischen Fragen rund um das Speichern von Trainingsdaten werden die Branche noch lange beschäftigen. Ob und wie die Gerichte weltweit auf diese neuen Erkenntnisse reagieren werden, bleibt abzuwarten. Eines ist jedoch klar: Die bisherige Verteidigungslinie der KI-Unternehmen, ihre Modelle lernten lediglich aus Daten, ohne diese zu speichern, ist durch die aktuelle Forschung erheblich geschwächt worden. Die Debatte darüber, was Lernen und was Speichern bedeutet, hat gerade erst begonnen.