Wikipedia, die weltweit beliebteste Enzyklopädie, bemüht sich mit großem Aufwand um Korrektheit, kann diesem Anspruch aber schon aufgrund der schieren Größe nicht immer genügen. Da die Seite ein Gemeinschaftsprojekt freiwilliger, unbezahlter Autoren ist, die seit der Gründung Anfang 2001 knapp 60 Millionen Beiträge verfasst und kooperativ bearbeitet haben, ist das Modell anfällig für Vandalismus und Manipulation. Obwohl sich die Genauigkeit der Seite ständig verbessert, bezeichnet sich Wikipedia selbst nicht als hundertprozentig zuverlässige Quelle.
Hinter Wikipedia steht die gemeinnützige Organisation Wikimedia Foundation, eine Stiftung, die ständig nach neuen Lösungen sucht, um inhaltliche Unzulänglichkeiten und Fehler zu beseitigen. Wie The Next Web berichtet, ist ihr neuestes Projekt der Einsatz von KI. Dabei arbeitet Wikimedia mit Meta Platforms zusammen, um die Quellenverweise am Ende der lexikalischen Einträge zu verbessern. Die Stiftung sieht die Quellen als Schwachpunkt, da sie oft unvollständig und nicht genau sind oder manchmal sogar ganz fehlen.
Wikipedia arbeitet an automatisiertem Faktencheck
Zwar prüfen freiwillige Wikipedia-Mitarbeiter immer wieder die Fußnoten, aber bei mehr als 17.000 neuen Artikeln, die jeden Monat hinzugefügt werden, gestaltet sich das aufwendig und schwierig. Die Lösung soll nun in einem Machine-Learning-(ML-)Modell liegen: Meta-AI-Technologie soll die Referenzen am Ende eines Wikipedia-Beitrags im Rahmen eines automatisierten Fakten-Checks schnell und vollständig prüfen. Das zuständige Team sagt, es sei das erste Modell, das automatisch Hunderttausende von Zitaten auf einmal scannen, und deren Korrektheit überprüfen könne.
Als Wissensquelle nutzt das Modell einen neuer Datensatz mit 134 Millionen öffentlichen Webseiten. Die verwendete Open-Source-Bibliothek mit dem Namen Sphere ist laut Meta größer und komplexer als jeder andere Web-Korpus, der jemals für eine solche Art von Forschung verwendet worden sei. Er werde als "universelle, nicht kuratierte und unstrukturierte Wissensquelle für multiple KI-NLP-Aufgaben genutzt", heißt es auf GitHub.
Das System identifiziert irrelevante Quellen und empfiehlt bessere
Um die richtigen Quellen in dem gigantischen Datensatz aufzuspüren, trainierten die Forscher ihre Algorithmen anhand von vier Millionen Wikipedia-Referenzen. Das System lernte, einzelne Quellen zu finden, anhand derer die jeweiligen Aussagen bestätigt werden konnten. Ein Algorithmus stuft die vorgefundenen Belege ein: Erscheint eine Quelle irrelevant, empfiehlt das System eine bessere Quelle sowie eine spezifische Passage daraus, die die Behauptung im Wikipedia-Eintrag absichert. Menschliche Bearbeiter können die Vorschläge dann überprüfen und genehmigen.
The Next Web nennt das Beispiel einer Wikipedia-Seite über den ehemaligen Boxer Joe Hipp, laut Wikipedia ein Abkömmling der indianischen Stammesgruppe der Blackfeet und damit der erste amerikanische Ureinwohner, der um den WBA-Weltmeistertitel im Schwergewicht kämpfte. Das Modell stellte jedoch fest, dass sich Wikipedia auf eine Website berief, auf der weder Joe Hipp noch der Boxsport erwähnt wurden. Das System durchsuchte daraufhin den Sphere-Korpus nach einer besseren Referenz und fand eine Passage aus einem Artikel in der Great Falls Tribune aus dem Jahr 2015: "Im Jahr 1989, am Ende seiner Karriere, kämpfte [Marvin] Camel gegen Joe Hipp von der Blackfeet Nation. Hipp, der als erster amerikanischer Ureinwohner um die Weltmeisterschaft im Schwergewicht rang, sagte, der Kampf sei einer der merkwürdigsten seiner Karriere gewesen."
Obwohl in dem Text nicht ausdrücklich vom Boxen die Rede ist, konnte das Modell den Kontext aus Hinweisen - insbesondere dem Ausdruck Schwergewicht - ableiten.
Freigabe als Open-Source-Projekt
Das Team möchte nun eine Plattform schaffen, über die Wikipedia-Autoren systematisch falsche oder irreführende Quellenangaben erkennen und beheben können. Meta hat das Ganze als Open-Source-Projekt freigegeben, was Forschern in aller Welt neue Werkzeuge für die Entwicklung ihrer eigenen KI-Systeme an die Hand geben könnte. (hv)