Nachdem allmählich durchschimmerte, woher Generative-KI-Anwendungen wie ChatGPT ihre Trainingsdaten nehmen, haben viele Websites, darunter die New York Times, CNN, Reuters und Medium, bereits den Webcrawler für ChatGPT von OpenAI blockiert. OpenAI stellt selbst dafür eine Anleitung bereit, wie man den Zugriff von GPTBot in robots.txt sperrt.
Mit Google verhält sich die Sachlage etwas anders, da viele Unternehmen von der Indexierung ihrer Websites profitieren. Den Google-Bot komplett auszusperren, würde bedeuten, dass die Inhalte nicht mehr in die Ergebnisse von Websuchen aufgenommen werden.
Das war zumindest bislang so. In einer Ankündigung hat Google nun eine Möglichkeit vorgestellt, mit der Website-Betreiber die Verwendung ihrer Daten zum Trainieren der GenAI-Modelle Bard und Vertex AI ablehnen und trotzdem über die Google-Suche erreichbar bleiben können.
Durch die Verwendung von Google-Extended zur Kontrolle des Zugriffs auf die Inhalte einer Website kann ein Website-Administrator entscheiden, ob er diesen KI-Modellen dabei helfen will, mit der Zeit immer genauer und leistungsfähiger zu werden, erklärt Google in einem Statement.
Google-Extended ist über die robots.txt verfügbar. Auf der deutschsprachigen Überblicksseite ist das Product Token aber (noch) nicht aufgeführt, in der englischsprachigen Version wird es in der Rubrik Common Crawlers neben den verschiedenen Google-Bots aufgelistet.