Vor Jahren schrieb Drupal-Schöpfer Dries Buytaert in einem Gastbeitrag für unsere US-Schwesterpublikation Infoworld, dass in der Technologie-Branche alle mehr "Taker" denn "Maker" sind. Dabei bezog er sich auf die gängige Praxis in Open-Source-Communities, bei der diejenigen, die von quelloffenen Projekten profitieren, nichts Sinnvolles zurückgeben und damit der Gemeinschaft schaden.
Derselbe parasitäre Trend hat sich bei Google, Facebook und Twitter manifestiert - auch sie sind wesentlich von den Inhalten und Daten anderer abhängig. Mit dem Aufkommen von Generative AI verstärkt sich dieser Trend nun noch weiter. Denn Large Language Models (LLMs) sind nicht minder parasitärer Natur und leben davon, die Repositories Dritter abzugrasen, egal, ob es dabei um Code (GitHub), technisches Knowhow (Stack Overflow) oder andere Dinge geht.
Ähnlich wie im Fall von Open Source beginnen Kreative und Datenaggregatoren nun, ihre Inhalte abzuschotten. So hat sich Stack Overflow beispielsweise im Zuge sinkender Besucherzahlen der Forderung von Reddit angeschlossen, dass LLM-Betreiber für die Nutzung von Daten zum Modelltraining bezahlen sollen.
Quelle trockenlegen?
Großunternehmen wie JP Morgan Chase investieren bereits Unsummen und beschäftigen ausufernde Data-Science- und Machine-Learning-Teams, um in Bereichen wie Personalisierung und Analytics milliardenschwere Vorteile zu erzielen. Und auch wenn viele Unternehmen noch zögerlich sind, ChatGPT und Co. zu adaptieren: In vielen Unternehmen dürften LLMs längst zum Einsatz kommen, um Produktivitätsgewinne zu erzielen. Die Kosten dafür treten für Unternehmen wie Stack Overflow, das in der Vergangenheit die Quelle für Technik-Knowhow darstellte, inzwischen deutlich zutage.
Seit Januar 2022 ist der Traffic der Plattform im Schnitt um monatlich sechs Prozent geschrumpft - im März 2023 laut Similarweb sogar um knapp 14 Prozent. Allein ChatGPT und andere Generative-AI-Tools für diese Entwicklung verantwortlich zu machen, greift sicher zu kurz - es wäre aber auch naiv zu glauben, dass die Technologie dabei keine Rolle spielt. Das zeigt beispielweise das längliche Twitter-Statement von Peter Nixey - seines Zeichens einer der Top-Kontributoren von Stack Overflow (zumindest bislang):
I'm in the top 2% of users on StackOverflow. My content there has been viewed by over 1.7M people. And it's unlikely I'll ever write anything there again.
— Peter Nixey (@peternixey) March 26, 2023
Which may be a much bigger problem than it seems. Because it may be the canary in the mine of our collective knowledge.
A… pic.twitter.com/YNZvFtwyfu
Informationseinbahnstraßen
Das Problem, das Nixey hier skizziert ist nicht trivial - er befürchtet, dass KI-Instanzen alleine durch ihr Wachstum zum dominierenden Wissensquelle werden, womit das menschliche Knowhow auf eine bloße Gewichtung innerhalb des Modells reduziert werde. Dabei stehen nicht nur Unsummen an Geld auf dem Spiel: Wir müssen auch den relativen Wert der Informationen berücksichtigen, die durch ChatGPT und andere Tools erzeugt werden.
Stack Overflow zum Beispiel verbot im Dezember 2022 ChatGPT-basierte Beiträge, weil sie zu textlastig und informationsarm waren. Schließlich sind diese Tools auch nicht darauf ausgelegt, korrekte Informationen zu liefern. Vielmehr geht es darum, probabilistische Informationen, die zu Datenmustern passen, auszugeben. Mit anderen Worten: Ohne einen steten Strom qualitativ hochwertiger Trainingsdaten könnten LLMs nur mit minderwertigen Daten trainieren und so weniger nützlich werden.
Open Source hatte seine Lizenzierungskriege - und es sieht so aus, als ob wir in der Generative-AI-Welt etwas Ähnliches erleben werden, allerdings mit größeren Konsequenzen. (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.