KI-Modelle beanstandet

Verletzt Microsoft Rechte von Open-Source-Entwicklern?

28.11.2022
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Ein US-Anwalt wirft Microsoft vor, dass dessen KI-Tool Copilot unrechtmäßig mit Open-Source-Inhalten trainiert wird und so die Urheberechte von Millionen Entwicklern auf der ganzen Welt verletzt.
Verletzt die Verwendung von Open-Source-Code für das KI-Training die Rechte der Urheber? Diese Frage könnte demnächst die Gerichte beschäftigen.
Verletzt die Verwendung von Open-Source-Code für das KI-Training die Rechte der Urheber? Diese Frage könnte demnächst die Gerichte beschäftigen.
Foto: ra2studio / shutterstock.com

Der Fall könnte Geschichte schreiben und die weitere Entwicklung von KI-Technologien maßgeblich beeinflussen. Matthew Butterick, ein Programmierer und Rechtsanwalt in Los Angeles, hat laut einem Bericht der New York Times (NYT) eine Sammelklage gegen Microsoft, GitHub und OpenAI auf den Weg gebracht. Der Vorwurf: KI-Tools dieser Unternehmen sollen die Urheberrechte von Entwicklern verletzen.

Stein des Anstoßes ist das Microsoft-Tool Copilot. Der Softwarekonzern hatte das Entwicklungswerkzeug erst vor wenigen Monaten vorgestellt. Copilot kann mit Hilfe von KI-Technologien selbständig Softwarecode erstellen. Entwickler können das Tool in ihre Programmierarbeit einbinden. Copilot verfolgt und analysiert das Coding und schlägt an passenden Stellen alternative Codeblöcke vor, die die Entwickler dann direkt übernehmen können. Das soll Microsoft zufolge das Programmieren deutlich beschleunigen.

Butterick moniert jedoch die Art und Weise wie Copilot funktioniert und lernt. Das Tool entwickelt seine Fähigkeiten selbstlernend, indem es Milliarden Zeilen von Softwarecode im Internet, beispielsweise auf GitHub, analysiert. Damit würden jedoch die Urheberrechte der Programmierer verletzt, die den übernommenen Code entwickelt haben.

In der Vergangenheit hatten Künstler, Autoren und andere Urheber verschiedenster Werke wiederholt darauf hingewiesen, dass KI-Hersteller ihre Werkzeuge mit Daten trainieren, die ihnen nicht gehören. Es gäbe keine Einwilligung der Urheber, geschweige denn irgendeine Art der Kompensation. Schließlich verdienten die KI-Hersteller mit ihren Tools gutes Geld. Mit der von Butterick angestoßenen Sammelklage steht diese Praxis nun erstmals vor einer gerichtlichen Prüfung.

Microsoft sitzt an der Code-Quelle

Im Fokus der Klage steht Microsoft. Der weltgrößte Softwarehersteller hatte Mitte 2018 die Code-Sharing-Site GitHub für 7,5 Milliarden Dollar übernommen. Die Plattform bildet das weltgrößte Reservoir an Softwarecode. Über 83 Millionen Entwickler legen Code auf GitHub ab. Mehr als 200 Millionen Repositores sollen Schätzungen zufolge derzeit auf GitHub liegen. Mit GitHub besitze Microsoft einen gewaltigen Fundus an Informationen über Entwickler und deren Projekte, gaben Analysten schon zum Zeitpunkt der Übernahme zu Bedenken.

Microsoft hat Copilot auf Basis von Technologien entwickelt, die aus den KI-Labs von OpenAI stammen. Der Softwarekonzern unterstützt das in San Francisco beheimatete KI-Labor seit Jahren mit viel Geld. Vor einigen Jahren sicherten sich die Redmonder für rund eine Milliarde Dollar die Rechte am KI-Sprachmodell GPT-3. Gerüchten zufolge wird derzeit über eine weitere Finanzierungsrunde für OpenAI verhandelt. Experten taxieren die KI-Schmiede auf einen Marktwert von rund 20 Milliarden Dollar.

Woher kommen die Trainingsdaten?

Im Fokus von OpenAI steht dabei das Training von Machine-Learning- (ML-)Modellen. Gerade erst hat Open AI eine API für seinen KI-gestützten Bildgenerator DALL-E vorgestellt. Kunden sollen in der Lage sein, Bilder auf der Grundlage von Textanweisungen zu generieren. Auch Google hat mit Imagen einen Text-zu-Bild-Generator im Programm.

Die Agentur Shutterstock hat bereits angekündigt, über eine Partnerschaft mit OpenAI künftig auch von DALL-E erstellte Bilder anbieten zu wollen. Dass dabei auch Urheberfragen aufkommen, scheint den Beteiligten bewusst zu sein. Shutterstock kündigte Ende Oktober an, dass es die Künstler, "deren Werke zur Entwicklung der KI-Modelle beigetragen haben", entschädigen wolle. Geplant seien außerdem Tantiemen, wenn das geistige Eigentum Dritter genutzt werde.

Mit DALL-E sollen sich per Spracheingabe Bilder erzeugen lassen.
Mit DALL-E sollen sich per Spracheingabe Bilder erzeugen lassen.
Foto: OpenAI

Ein anderes Beispiel ist das Sprachmodell GPT-3, das ebenfalls auf Entwicklungen und Training durch OpenAI basiert. Das Tool schlägt Autoren beim Schreiben eines Textes kontextbezogen Wörter oder Phrasen vor. Trainiert wurde das Modell anhand riesiger Mengen digitaler Textdaten im Netz - Bücher, Wikipedia-Artikel, Chats etc. Mit wachsender Reife könnten auf GPT-3 basierende Textsysteme eigene Twitter-Posts, Kurznachrichten, News-Artikel und vielleicht sogar Reden oder Gedichte schreiben.

Fair-use oder nicht Fair-use

Derartige Systeme werden allerdings seit geraumer Zeit misstrauisch beäugt. Auch Microsofts Copilot stand von Anfang an in der Kritik. Bereits Monate vor der Veröffentlichung des Tools hatte die Free Software Foundation (FSF) im Juli 2021 in einem Blog Post massive Kritik geäußert: "Wir sehen, dass die Verwendung von freilizenzierter Software durch Copilot viele Auswirkungen auf einen großen Teil der freien Software Community hat", so die Foundation. Aus Sicht der FSF sei das Tool in seiner jetzigen Form inakzeptabel und ungerecht. So stelle sich die Frage, ob das Training des Modells auf öffentlichen Quellcode-Respositories eine Urheberrechtsverletzung darstellt und ob es gegen GPL-lizenzierte Werke verstößt.

Microsoft verneint das und spricht von "fair use" des auf GitHub bereitgestellten Softwarecodes. "Das Trainieren von ML-Systemen auf öffentlichen Daten ist eine faire Nutzung", behauptete GitHub-Chef Nat Friedman Ende Juni 2021 in einem Tweet. Der Output gehöre dem Betreiber, genau wie bei einem Compiler. Friedman räumte allerdings Klärungsbedarf ein. "Wir gehen davon aus, dass geistiges Eigentum und KI in den kommenden Jahren eine interessante politische Diskussion auf der ganzen Welt auslösen werden."

GitHub-CEO Nat Friedman (rechts), hier mit seinem Vorgänger Chris Wanstrath (links) und Microsoft-CEO Satya Nadella (Mitte), betrachtet die Nutzung von Open-Source-Code für das ML-Training als legitim.
GitHub-CEO Nat Friedman (rechts), hier mit seinem Vorgänger Chris Wanstrath (links) und Microsoft-CEO Satya Nadella (Mitte), betrachtet die Nutzung von Open-Source-Code für das ML-Training als legitim.

Der Auffassung von fair use widerspricht Butterick entschieden. Der Entwickler und Anwalt kritisiert den unkontrollierten Zugriff auf öffentlich verfügbare Daten und will die Softwarekonzerne in ihre Schranken weisen. "Die Ambitionen von Microsoft und OpenAI gehen weit über GitHub und Copilot hinaus", zitiert die NYT ein Interview mit Butterick. "Sie wollen mit allen Daten trainieren, überall, kostenlos, ohne Zustimmung, für immer.

Verfahren könnte die gesamte Branche betreffen

Das Verfahren dürfte von der gesamten Branche mit Spannung beobachtet werden. Noch sind wenige Details bekannt. Auch die Frage, ob eine Sammelklage überhaupt zulässig ist, hat das Gericht laut dem NYT-Bericht noch nicht beantwortet. Butterick und die mit ihm klagenden Anwälte werfen den Beklagten zunächst nicht direkt Urheberechtsverletzungen vor, sondern eine Verletzung der GitHub-Policies, wonach die Verwendung von Material aus der Plattform klar gekennzeichnet werden müsse. Allerdings ließen die Kläger durchblicken, dass durchaus auch Copyright-Verletzungen Teil der Klage werden könnten - zum Beispiel wenn sich herausstellt, dass von Copilot erstellte Codeschnipsel zu sehr dem verwendeten Trainings-Code ähneln.

Auch andere Anbieter wie Google dürften das Verfahren genau im Blick haben. Der Konzern treibt unter dem Codenamen Pitchfork ein ähnliches Projekt voran wie Microsoft mit Copilot. In den Forschungslaboren von Google arbeiten die Entwickler an sogenannten Generative AI-Tools, die mehr oder weniger selbständig Inhalte wie Bilder, Texte oder Softwarecode erstellen können.

Pitchfork sei entwickelt worden, um "Code beizubringen, sich selbst zu schreiben und umzuschreiben", berichten Insider unter Berufung auf interne Google-Unterlagen. Das Tool sei so konzipiert, dass es Programmierstile erlernt und auf der Grundlage dieser Erkenntnisse neuen Code schreibt. Knackpunkt dürfte auch hier die Frage sein, auf Basis welcher Daten Pitchfork lernt.