Datenmanagement

Was ist das Problem mit KI?

13.10.2017
Von 
Nach seiner Promotion in Theoretischer Physik begann Stefan Grotehans seine Karriere in der IT-Industrie als Pre-Sales Manager bei SiliconGraphics. Später übte er dann weitere Manager Positionen in Enterprise Software Umfeld für IBM, Microsoft, Brainloop, Box und MarkLogic aus. Seit August 2020 ist er Solutions Architect Central EMEA bei Elastic.
Künstliche Intelligenz (KI) ist der neue Renner. Die KI-Investitionen steigen, KI-Unternehmen werden gegründet - einige davon mit der Unterstützung von mächtigen Playern wie Toyota oder Google, die mit neuem Risikokapital für künstliche Intelligenz locken.

Angesichts der atemberaubenden Möglichkeiten der künstlichen Intelligenz ist die Aufregung verständlich: Mit KI sollen wir bessere Einblicke aus Daten gewinnen, um bessere Entscheidungen treffen zu können. Genau das, was das menschliche Gehirn ja permanent tut. Andrew Ng, Mitbegründer von Coursera und Gastdozent in Stanford, bezeichnet KI nicht ohne Grund als „neue Elektrizität“. Ein wichtiger Aspekt jedoch – nämlich die Datenqualität - wird bei diesen Diskussionen stets sorgfältig vermieden.

Datenqualität wird zum entscheidenden Faktor für den Erfolg von KI.
Datenqualität wird zum entscheidenden Faktor für den Erfolg von KI.
Foto: Timofeev Vladimir - shutterstock.com

Künstliche Intelligenz kann – wie jede Form von Intelligenz– nur so gut sein wie die Daten, aus denen sie ihre Schlüsse zieht. Bei Unternehmen, Behörden und Institutionen herrscht in puncto Daten aber oft Chaos: Datenbestände lagern in isolierten Systemen– Datensilos, die Unternehmen und Abteilungen über Jahrzehnte aufgebaut haben. Fusionen und Revierkämpfe zwischen der IT und kaufmännischen Abteilungen haben weitere Silos beigesteuert. Selbst bei öffentlich zugänglichen Daten herrscht oft ein Durcheinander verschiedener Begriffe, die ein und dieselbe Sache beschreiben. Dieses ganze Daten nun in eine einzige KI-Engine zu integrieren, ist eine Mammutaufgabe– aber notwendig, damit die KI ihr Potenzial entfalten kann.

IBM Watson: Alles dreht sich um die Daten

Das jüngste, hochkarätige Beispiel für die Herausforderungen, die KI und Daten meistern sollen, ist der Versuch von MD Anderson, mit schlappen 62 Millionen US-Dollar und IBM Watson die Behandlung von Krebs zu verbessern. Das Unterfangen wurde auf Eis gelegt, nachdem die Ergebnisse hinter den Erwartungen zurückblieben. Eine Prüfung durch die University of Texas ergab einige Probleme: Nicht nur hatte sich die Forschungsausrichtung geändert. Auch die Protokolldaten der klinischen Versuchs- und Medikamentenstudien waren veraltet. Außerdem funktionierte das Pilotprogramm mit den elektronischen Patientenakten im Krankenhaus nicht, wie das Wall Street Journal berichtete.

Während IBM dem Wall Street Journal gegenüber das Pilotprojekt als „Erfolg“ bezeichnete, zitierte die Publikation Peter Szolovits, den Leiter der Clinical Decision-Making Group am MIT Computer Science and Artificial Intelligence Laboratory: Szolovits bemerkte, dass medizinische Einrichtungen „oft damit zu kämpfen haben, alle Daten auf eine gemeinsame Plattform zu bringen“ und dass die Art und Weise, wie „medizinische Informationen gespeichert und kennzeichnet werden, sich stark unterscheiden können– auch zwischen einzelnen Abteilungen in der gleichen Einrichtung“. Weiter erklärte er gegenüber dem Wall Street Journal, dass bei Änderung der Datenspeicherung oder Datenkennzeichnung „häufig die künstliche Intelligenz alles neu lernen muss“.

Dass IBMs Watson zunehmend Beachtung findet, ist kein Zufall: Es sei „eine der ausgereifteren kognitiven Computerplattformen“, heißt es in einer Marktstudie der Investment-Bank Jefferies. Folglich wird Watson nun als Gradmesser für die Entwicklung der KI-Branche genau beobachtet.

Daten und Talent: die wichtigsten Faktoren

Die Annahme, dass einige der Probleme von MD Anderson auf die Daten zurückgehen, überrascht kaum. Schließlich werden Daten und Talent– und nicht Algorithmen– die beiden entscheidenden Faktoren sein, die einen Wettbewerbsvorteil im KI-Kampf bringen, so der Jefferies-Report. Wenig überraschend ist, dass talentierte Mitarbeiter knapp sein dürften. Schon jetzt bezeichnen 86 % der Manager und Personalchefs es als Herausforderung, Technologie-Experten zu finden und einzustellen. Angesichts steigender KI-Investitionen dürfte sich die Lage weiter verschlechtern. Auch Jefferies sieht im Mangel an geeigneten Mitarbeitern ein großes Problem für den KI-Markt.

Aber auch die Daten spielen eine entscheidende Rolle. „Wenn nicht genügend Daten vorhanden oder die Daten inhaltlich oder strukturell von schlechter Qualität sind, können intelligente Maschinen keine verlässlichen Entscheidungen treffen“, schreibt Kasey Panetta von Gartner.

Um KI-Projekte besser zu unterstützen, investieren führende Unternehmen derzeit in die Datenqualität. So kaufte eBay letztes Jahr das schwedische Unternehmen Expertmaker. Der Neuzugang aus dem Bereich KI und maschinelles Lernen soll für eBay die Organisation und Analyse großer Datenbestände übernehmen. Joaquin Candela, der bei Facebook den Bereich Applied Machine Learning leitet, erklärte jüngst gegenüber dem Harvard Business Review, dass er sich ganz darauf konzentriere, mehr und bessere Daten zu erhalten– und auf die schnelle Umsetzung von Experimenten statt auf bessere Algorithmen. „Ich will nicht sagen, dass man vollkommen auf Algorithmen verzichten sollte. Ich sage nur, dass der Fokus darauf, mehr und bessere Daten zu gewinnen und dann schneller damit experimentieren zu können, sinnvoller ist“, so Candela.

Daten-Silos sind ein weit verbreitetes Problem in Unternehmen. Sie dürften sich als echtes Ärgernis für alle Arten von KI-Vorhaben herausstellen. „Das größte Hindernis beim Einsatz einer intelligenten Datenanalyse ist weder das Know-how noch die Technologie, sondern wie immer der Zugriff auf die Daten“, schrieb Ed Wilder-James, Vice President of Technology Strategy bei Silicon Valley Data Science, letztes Jahr im Harvard Business Review in einem Artikel mit dem Titel „Breaking Down Data Silos“.

Verlässliche Entscheidungen

Nicht nur sind Unternehmensdaten häufig in Silos gefangen, was die Integration schwierig und teuer gestaltet, sondern Data Scientists berichten auch, dass sie 80 % ihrer Zeit mit der Datenhandhabung verbringen.

Dieses Problem wird auch durch künstliche Intelligenz nicht aus der Welt geschafft werden. Natürlich braucht die KI saubere, aktuelle und regelkonforme Daten, damit jeder weiß, woher die Daten stammen, unter welchen Bedingungen sie erfasst und wie sie umgewandelt wurden, bevor sie zur KI-Engine kamen. Aber die KI benötigt auch Daten, die einfach zugänglich sind und sich leicht teilen lassen. Will man allerdings Daten teilen, muss man auch genau festlegen können, wer auf Daten oder Teildaten zugreifen darf. Die Bedenken beim Schutz der Daten von Bürgern werden nur noch zunehmen, wenn sich Daten intelligenter nutzen lassen. Auch dürften dabei Verbindungen zutage treten, die gegen den Datenschutz verstoßen. Wenn Wirtschaft und Gesellschaft von mehr Effizienz mit künstlicher Intelligenz profitieren sollen, sind Daten von guter Qualität unverzichtbar.