KI und Urheberrecht - Portal Digitale Lehre

Trainingsdaten von Large Language Models und Urheberrechte von Dritten

Jeglicher Output, den beispielsweise ChatGPT liefert, basiert auf seinem vorherigen Training, das nach Angaben der Herstellerfirma OpenAI ausschließlich mithilfe öffentlich zugänglicher Texte aus dem Internet stattgefunden hat. OpenAI hat nicht spezifiziert, welche Dokumente in den Trainingsdaten enthalten sein sollten. Die automatisierten Prozesse von ChatGPT haben “alles gelesen, auf das sie zugreifen konnte”. Dies beinhaltet eine große Bandbreite an Texttypen aus verschiedensten Bereichen, darunter Bücher, Journale, Blogs, Foren, beliebige Webseiten und andere schriftliche Materialien. ChatGPT war dabei nicht in der Lage, auf geschützte Datenbanken, Abonnementdienste oder vertrauliche Informationen zuzugreifen.

OpenAI hat nach eigenen Angaben keine Informationen über die spezifischen Texte gespeichert, die ChatGPT während des Trainings gesehen hat. Stattdessen hat das Modell gelernt, Muster in den Daten zu erkennen und auf Grundlage dieser Muster neue Texte zu generieren. ChatGPT hat deshalb keinen Zugang zu oder Wissen über spezifische Dokumente, Bücher, akademische Arbeiten oder andere konkrete Quellen, die es während des Trainings verarbeitet hat.

Aufgrund des von OpenAI gewählten Vorgehens kann also nicht mit Sicherheit nachvollzogen werden, ob für das Training von ChatGPT vereinzelt urheberrechtlich geschütztes Material genutzt worden ist. Die Herstellerfirma OpenAI hält Aussagen über Urheberrechtsklärungen bei den Trainingsdaten entsprechend vage, sichert aber zu, dass sie nach Möglichkeit Texte verwendet hat, die entweder gemeinfrei sind oder für die eine Rechtsklärung stattgefunden hat oder deren Verwendung unter das US-amerikanische “fair use” Prinzip fällt.

Das deutsche Recht kennt solche “fair use” Prinzipien nicht, sondern legt Vorschriften des Gesetzes über Urheberrecht und verwandte Schutzrechte (UrhG) an. Hier ist der Zugriff auf urheberrechtlich geschützte Inhalte für Zwecke des Text und Data Mining gem. § 44b Abs. 1 UrhG zulässig, solange die verwendeten Werke rechtskonform zugänglich sind. Die Trainingsdaten müssen aber gelöscht werden, sobald sie nicht mehr erforderlich sind. Nicht mehr erforderlich sind Trainingsdaten, wenn die Datenanalyse innerhalb eines Projekts beendet ist und die Verwendung der Ergebnisse der Datenanalyse begonnen hat. Insofern entspricht das Vorgehen von OpenAI allem Anschein nach den Vorschriften des UrhG.

Konkrete Rechtsklärungen hinsichtlich der rechtmäßigen Verwendung von Trainingsdaten für Generative KI-Systeme wie ChatGPT stehen allerdings noch aus. Bis einschlägige Gerichtsurteile oder Rahmenvorschriften vorliegen, kann aber davon ausgegangen werden, dass die Nutzung vieler generativer KI-Systeme nicht grundsätzlich gegen Vorschriften des deutschen Urheberrechtsgesetzes verstößt.

Urheberrechte und Verwertungsrechte an KI-generierten Medien

Grundsätzlich ist diese Frage nur im Einzelfall und unter Berücksichtigung der Nutzungsbedingungen des jeweiligen KI-Systems zu klären. Zur Orientierung wird die Frage am Beispiel des KI-Systems „ChatGPT“ des anbietenden Unternehmens OpenAI LP diskutiert, im Folgenden „OpenAI“ genannt.

OpenAI räumt den Nutzenden das zeitlich, örtlich und inhaltlich nicht beschränkte Verwertungsrecht an den generierten Texten ein. Im Original heißt es in den Nutzungsbestimmungen: “[…] OpenAI hereby assigns to you all its right, title and interest in and to Output” (https://openai.com/policies/terms-of-use). Zwar können bei Anbietern anderer KI-Systeme abweichende Nutzungsbestimmungen existieren, allerdings ist generell festzustellen, dass alle prominenten Anbieter von KI-Systemen einen ähnlich pragmatischen Weg verfolgen wie die Firma OpenAI. Sie lassen konkrete Fragen des Urheberrechts in ihren Nutzungsbedingungen eher außer Acht und fokussieren auf den Aspekt der Verwertungsrechte, die i.d.R. in vollem Umfang an die Nutzenden des KI-Systems übertragen werden.

In Deutschland werden Fragen der Urheberschaft für KI-generierte Medien durch das Gesetz über Urheberrecht (UrhG) geregelt, das hier eine eindeutige Position einnimmt. Damit der Output eines KI-Systems überhaupt urheberrechtlich geschützt sein kann, muss es sich um ein Werk handeln. Als Werke sind im Sinne des § 2 Abs. 2 UrhG persönliche geistige Schöpfungen definiert, die eine hinreichende Schöpfungshöhe aufweisen. Dies impliziert nach geltender Rechtsauffassung, dass eine Werkschöpfung nur durch menschliches Schaffen entstehen kann. KI-Systeme sind keine Menschen und deshalb kann ihr generierter Inhalt keine persönliche geistliche Schöpfung sein. Damit ist das Vorliegen eines Werks im Sinne des UrhG ausgeschlossen und das deutsche Urheberrecht greift für durch KI-Systeme generierte Outputs zunächst nicht.

Dennoch gibt es wesentliche Konstellationen, in denen sehr wohl Urheberrechte am Output eines KI-Systems vorliegen können. Mehr Informationen liefert die Antwort zum folgenden Aspekt 3.

Urheberrechtlich geschütztes Material als Teil eines Prompts für ein KI-System

Wird ein urheberrechtlich geschütztes Werk oder Teile daraus als Prompt in ein KI-System eingegeben, handelt es sich um eine Vervielfältigung im Sinne des § 16 UrhG. Haben Nutzende kein entsprechendes Nutzungsrecht für das Werk erworben, stellt diese Vervielfältigung eine Rechtsverletzung dar. Es existieren gewisse Schranken, die eine gesetzlich erlaubte Vervielfältigung auch bei urheberrechtlich geschütztem Material ermöglichen, z.B. für Menschen mit Behinderungen oder zum Zwecke des Text und Data Mining. Diese dürften aber bei vielen Nutzungszwecken im Hochschulkontext nicht greifen, so dass eine originalgetreue Verwendung eines geschützten Werks als Input das Urheberrecht verletzt, sofern nicht das Recht zur Vervielfältigung des Werks oder Werkteils vorliegt.

Erzeugung von Texten, Bildern oder anderen Medien „im Stil von XY“ durch ein KI-System

Derzeit existiert noch keine geltende Rechtsprechung zu dieser Frage. Gleichwohl lässt sich aus dem deutschen Urheberrecht eine Rechtsmeinung ableiten: Ein Stil ist nicht schutzfähig. Es spricht sehr viel dafür, dass es grundsätzlich zulässig ist, mit einem KI-System ein Werk zu erzeugen und zu veröffentlichen, das dem Stil existierender Künstler/innen oder Autoren/innen folgt. Das hat zur Folge, dass Urheber/innen vorbestehender Werke nach deutschem Urheberrecht keine Schutzrechte genießen, wenn ein KI-System auf Grundlage eines Prompts Arbeiten in ihrem Stil erzeugt und diese weiterverwendet werden.

Zulässige Nutzungen können auch auf die im Jahr 2021 in das deutsche Urheberrecht aufgenommenen Regelung des § 51a UrhG zur Karikatur, Parodie und Pastiche gestützt sein. Dort wird eine Vervielfältigung zum Zwecke der Nachahmung eines Stils oder einer Idee erlaubt, auch wenn das vorbestehende Werk selbst durch ein Urheberrecht oder ein verwandtes Schutzrecht geschützt ist. Ähnlich wie im Zitatrecht muss dabei aber eine inhaltliche oder künstlerische Auseinandersetzung mit dem vorbestehenden Werk stattfinden.

Hier sind aber die Grenzen zur Reproduktion eines urheberrechtlich geschützten Werks fließend. Durch entsprechende Prompts kann ein KI-System einen Output erzeugen, der beliebig nahe an bekannten und urheberrechtlich geschützten Werken ist. Entsprechend fiele die Bewertung anders aus, wenn der Output eine perfekte Kopie oder allenfalls eine geringfügige Abwandlung eines Originals ergeben und diese verwendet würde.

Autor der vorliegenden Inhalte: PD Dr. Malte Persike, RWTH Aachen.
Die Zusammenstellung erfolgte durch Prompt-Labor, Hochschulforum Digitalisierung und KI-Campus, von Stefan Göllner, Lavinia Ionica und Malte Persike; Lizenz: CC-BY-SA 4.0.