Toolformer
Metas KI-Sprachbot nutzt externe Software-Tools
Datum:17.02.2023
Autor(en):Manfred Bremmer
Forscher von Meta AI Research zeigen, dass ein KI-Sprachmodell mit Hilfe externer
Programme bessere Ergebnisse liefern kann.Ähnlich wie Schimpansen profitieren auch KI-Sprachmodelle vom Einsatz geeigneter Werkzeuge.
Foto: Norma Cornes - shutterstock.com
Während Sprachmodelle wie ChatGPT1 oder Bard2 überraschende Ergebnisse im Bereich der Verarbeitung natürlicher Sprache liefern, tun sie sich mit einigen grundlegenden Aufgaben wie dem Rechnen und dem Recherchieren von Fakten3 schwer. Forscher von Facebook-Mutter Meta haben nun mit Toolformer ein KI-Sprachmodell vorgestellt, das sich selbst beibringen kann, externe Tools wie Suchmaschinen, Taschenrechner und Kalender zu verwenden, ohne seine Kernfähigkeiten bei der Sprachmodellierung zu opfern.
Selbständige Wahl des Werkzeugs
Dem Research Paper zufolge4 ist das Modell darauf trainiert, zu entscheiden, welche APIs aufgerufen werden sollen, wann sie aufgerufen werden sollen, welche Argumente übergeben werden sollen und wie die Ergebnisse am besten in die zukünftige Token-Vorhersage einbezogen werden können. Das Ganze erfolgt auf selbstüberwachende Weise und erfordert nicht mehr als eine Handvoll Demonstrationen für jede API.
Wie Toolformer automatisch auf einen Taschenrechner, ein Q&A-System, ein Übersetzungssystem und einen Kalender zugreift, um den Output zu verbessern, zeigt NLP-Researcher Timo Schick in einer auf Twitter geposteten Demo:
"Schlaueren" Sprachmodellen überlegen
In einem Vergleichstest stellten die Forscher von Meta AI Research fest, dass Toolformer auf diese Weise eine erheblich verbesserte Zero-Shot-Leistung5 bei einer Vielzahl von nachgelagerten Aufgaben erreicht. Obwohl es auf einem vortrainierten GPT-J-Modell mit "nur" 6,7 Milliarden Parametern basiert (GPT-36 hat 175 Milliarden Parameter), könne es bei verschiedenen Aufgaben mit viel größeren Modellen konkurrieren, ohne seine Kernfähigkeiten bei der Sprachmodellierung zu beeinträchtigen.
Ein paar Einschränkungen gibt es allerdings (noch), wie die Forscher konstatieren: So ist Toolformer etwa nicht in der Lage, mehrere Tools in einer Reihe zu verwenden, also das Ergebnis einer Suche direkt zu übersetzen. Der aktuelle Ansatz ermöglicht es auch nicht, bei Tools wie Suchmaschinen die Ergebnisse zu durchsuchen oder die Anfrage zu verfeinern.
Dennoch sind die Forscher davon überzeugt, dass Sprachmodelle mit der Fähigkeit, externe Anwendungen zu nutzen, zu weitaus vielseitigeren und zuverlässigeren Assistenten werden können.
Links im Artikel:
1 https://www.computerwoche.de/a/so-setzen-sie-chatgpt-effektiv-ein,36137192 https://www.computerwoche.de/a/google-kann-microsofts-ki-vorstoss-nicht-kontern,3613810
3 https://www.computerwoche.de/a/10-gruende-generative-ai-zu-fuerchten,3613845
4 https://arxiv.org/abs/2302.04761
5 https://www.computerwoche.de/a/few-shot-learning-erklaert,3613855
6 https://www.computerwoche.de/a/wenn-kuenstliche-intelligenz-von-der-muse-gekuesst-wird,3613361
Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium in Teilen oder als Ganzes bedarf der schriftlichen Zustimmung der IDG Tech Media GmbH. dpa-Texte und Bilder sind urheberrechtlich geschützt und dürfen weder reproduziert noch wiederverwendet oder für gewerbliche Zwecke verwendet werden. Für den Fall, dass auf dieser Webseite unzutreffende Informationen veröffentlicht oder in Programmen oder Datenbanken Fehler enthalten sein sollten, kommt eine Haftung nur bei grober Fahrlässigkeit des Verlages oder seiner Mitarbeiter in Betracht. Die Redaktion übernimmt keine Haftung für unverlangt eingesandte Manuskripte, Fotos und Illustrationen. Für Inhalte externer Seiten, auf die von dieser Webseite aus gelinkt wird, übernimmt die IDG Tech Media GmbH keine Verantwortung.