Computer Vision

Facebook treibt Bilderkennung mit SEER voran

10.03.2021
Von Redaktion Computerwoche
Facebook hat mit SEER ein selbstüberwachtes Computer-Vision-Modell entwickelt, das anhand von im Internet verfügbaren Bildern trainiert werden kann, ohne dass aufwendige Klassifizierungsarbeiten nötig sind.
In Zukunft wird es technisch viel einfacher sein, Menschen und Objekte auf Bildern automatisiert zu erkennen und zuzuordnen.
In Zukunft wird es technisch viel einfacher sein, Menschen und Objekte auf Bildern automatisiert zu erkennen und zuzuordnen.
Foto: HQuality - shutterstock.com

Normalerweise müssen Datensätze kuratiert und beschrieben werden, um mit ihnen KI-Modelle zu trainieren und ihnen beispielsweise beizubringen, Objekte auf einem Bild zu erkennen oder Textpassagen zu interpretieren. Für Facebooks Chief Scientist Yann LeCun ist aber dieses immer noch aufwendige Vorbereiten der Daten das Nadelöhr, das eine Skalierung unmöglich macht. "Der Fortschritt wird von Programmen ausgehen, die jeden Tag Videos schauen und lernen wie ein Baby", sagte LeCun im Gespräch mit Wired.com. Nun habe Facebook die Weichen dafür gestellt und große Fortschritte beim sogenannten selbstüberwachten Lernen erzielt.

Im Bereich Natural Language Processing (NLP) gelingt das schon seit einiger Zeit: Große Modelle könnten selbstüberwacht mithilfe gigantischer Datenmengen vortrainiert werden, damit sie dann automatisiert Fragen beantworten, maschinell übersetzen oder Textinhalte selbständig analysieren. Facebook hat das selbstüberwachte Lernen nun auf die Bilderkennung übertragen und mit SEER (SElf-supERvised) ein "Milliarden von Parametern umfassendes Self-supervised Computer-Vision-Modell" erschaffen.

SEER: Hohe Treffergenauigkeit bei Bildern

Nach dem Vortraining mit einer Milliarde zufällig (!) ausgewählten und nicht gelabelten öffentlichen Instagram-Bildernhabe SEER auch die modernsten Supervised Systems übertroffen und in der Bilddatenbank ImageNet eine Erkennungsgenauigkeit von 84,2 Prozent erreicht. Auch für nachgelagerte Aufgaben wie Objekterkennung, Segmentierung und Bildklassifizierung sei SEER anderen Ansätzen überlegen. Mit kleineren Trainingsdaten-Sätzen lassen sich den Forschern zufolge ebenfalls brauchbare Ergebnisse erzeugen.

Laut Facebook ist selbstüberwachtes Lernen der Schlüssel, um eine KI zu schaffen, die die visuelle Welt verstehen und interpretieren kann. Das werde enorme Auswirkungen auf viele Forschungsbereiche haben, da künftig ohne viel Aufwand mit großen und vielfältigen Datensätzen gearbeitet werden könne. Systeme könnten mit öffentlich zugänglichen Bildern trainiert werden, bestimmte Verzerrungen (Bias), die bei der manuellen Datenkuratierung ins Spiel kämen, ließen sich vermeiden.

Es werde viele nützliche Anwendungen auf der Basis von selbstüberwachtem Lernen geben, heißt es bei Facebook. Beispielsweise könnten medizinische Röntgen- und CT-Bilder künftig ohne aufwändiges Labeling ausgelesen werden. Derzeit versucht Facebook auch, Hashtags für Instagram-Bilder automatisch zu erstellen. Außerdem will man automatisiert unerwünschte Bilder sperren sowie Werbung kontextsensitiv zuspielen.

Bilderkennung: Rechenressourcen könnten explodieren

Aude Oliva, verantwortlich für das Computational Perception and Cognition Lab am MIT, bestätigt gegenüber "Wired" den Fortschritt in der Bilderkennung, doch sie sieht auch die Probleme: Die Größe und Komplexität von KI-Ansätzen, wie Facebook sie mit SEER verfolge, können Milliarden oder sogar Billionen neuronale Verbindungen erfordern, viel mehr als jeder andere Bilderkennungsalgorithmus. Damit explodiere die erforderliche Rechenpower, was zu wirtschaftlichen Problemen führen könne.

Facebook gibt seine Arbeiten an SEER genauso wie die zugehörige VISSL-Bibliothek (Dokumentation) für die Open-Source-Community frei, um das selbstüberwachte Lernen durch Spezialisten in aller Welt vorantreiben zu lassen. (hv)