KI und Analytics Fails

Wenn datengetrieben im Debakel endet

Datum:20.11.2020
Autor(en):Thor Olavsrud

Insights aus Daten können von unschätzbarem Wert sein - oder Reputation, Umsatz und sogar Leben kosten, wie diese fünf Beispiele zeigen.

Daten sind das neue Öl - können aber ebenso gut ins Unglück führen, wie diese Beispiele belegen.
Foto: alphaspirit - shutterstock.com

Im Jahr 2017 verkündete "The Economist¹", dass nicht mehr Öl, sondern Daten den weltweit wertvollsten Rohstoff darstellen. Diese Proklamation wird seither beständig wiederholt - Unternehmen aus allen Wirtschaftszweigen investieren Unsummen in Data und Analytics. Laut der IDG-Studie "State of the CIO 2020²" sind 37 Prozent der befragten IT-Entscheider davon überzeugt, dass der Großteil ihres Budgets in diesem Jahr in Data Analytics fließt.

Allerdings haben die neuen Technologien - genauso wie das Öl - ihre Schattenseiten. Zwar können aus Daten generierte Insights Unternehmen zu Wettbewerbsvorteilen verhelfen - Fehler können allerdings auch schwerwiegende Konsequenzen nach sich ziehen. Wir haben fünf prominente KI- und Analytics-Debakel³ aus den vergangenen Jahren für Sie zusammengestellt.

COVID-19 vs. Excel

Im Oktober 2020 musste Public Health England (PHE) - die Behörde, die in Großbritannien für die Erfassung neuer Coronavirus-Infektionen zuständig ist - eingestehen, dass knapp 16.000 Infektionsfälle unter den Tisch gefallen sind⁴. Der Grund: die Datenlimitierungen von Excel.

Um positive COVID-19-Testergebnisse zu erfassen, verlässt sich PHE auf ein automatisiertes Verfahren, bei dem .csv-Dateien in Excel-Templates übertragen werden. Allerdings kann ein solches Excel Spreadsheet maximal 1.048.576 Zeilen und 16.384 Spalten aufnehmen. Als dieses Limit erreicht war, ließ die Software 15.841 positive Fälle unter den Tisch fallen.

Zwar erhielten die betroffenen Personen wie gewohnt ihre Testergebnisse, allerdings wurde die Nachverfolgung von Kontakten⁵ dadurch wesentlich erschwert. Der Fehler wurde laut PHE schnell behoben und alle ausstehenden Fälle nachgereicht. Inzwischen hat die Behörde nach eigener Aussage auch Maßnahmen getroffen, um ähnliche Vorfälle in der Zukunft zu verhindern.

Healthcare Bias

Im Jahr 2019 deckte eine wissenschaftliche Studie⁶ auf, dass ein von Krankenhäusern und Versicherungen in den USA eingesetzter Algorithmus hellhäutige Patienten begünstigte. Der prädiktive Algorithmus wurde verwendet, um Patienten zu identifizieren, die ein "high-risk care management" benötigen.

Anhand dieser Identifikation können Klinikangestellte oder Ersthelfer chronisch kranke Patienten erkennen, um ernsthafte Komplikationen bei der Behandlung möglichst auszuschließen. Schwarze Patienten wurden von diesem Algorithmus allerdings nur sehr selten in diese Kategorie eingestuft.

Wie die Studie zeigte, nutzte der Algorithmus Aufwendungen im Healthcare-Bereich als Anhaltspunkt, um den Bedarf einzelner Personen zu ermitteln. Dabei wurden laut Scientific American⁷ selbst die dunkelhäutigen Patienten, deren Ausgaben auf einem hohen Level lagen mit geringeren Risiko-Scores versehen, obwohl ihr Bedarf im Vergleich zu weißen, gesünderen Patienten deutlich höher war.

Weder der Algorithmus⁸ noch seine Entwickler wurden in der Studie namentlich genannt - die Wissenschaftler arbeiten aber mit den Verantwortlichen zusammen, um die Situation zu bereinigen.

Chatbot-Fiasko

Im Frühjahr 2016 taumelte Microsoft einem ausgewachsenen PR-Desaster entgegen. Schuld war der kurz zuvor veröffentlichte Twitter-Chatbot namens Tay⁹. Die KI-Persönlichkeit schmiss nämlich plötzlich mit Ergüssen wie "Hitler was right" oder "9/11 was an inside job" um sich, weil böswillige Internet-Trolle ihn mit Parolen und Verschwörungstheorien gefüttert hatten.

Eigentlich sollte Tay junge Menschen zwischen 18 und 24 Jahren ansprechen und von diesen Nutzern in Sachen Sprache lernen. Anschließend sollte er auf mehreren Social-Media-Plattformen ausgerollt werden. Durch Machine Learning¹⁰, adaptive Algorithmen und die Analyse von Daten sollte Tay Gesprächsinhalte vorhersehen und entsprechende Antworten geben. Stattdessen erging es dem Chatbot¹¹ wie einigen Usern aus seiner Zielgruppe: Er hing mit den falschen Leuten rum.

Microsoft bewarb Tay vor dem Release mit den Worten: "The more you chat with Tay, the smarter she gets". Oder nicht. Ganze 16 Stunden war das KI-Experiment online.

Recruiting mit Vorlieben

Wie viele andere Großunternehmen auch ist Amazon stets auf der Suche nach Tools, die dabei helfen, die besten Job-Kandidaten zu ermitteln. Im Jahr 2014 versuchte der Bezos-Konzern sich deshalb an einer KI-getriebenen Recruiting Software¹². Dabei gab es nur ein Problem: Das System hatte eine Vorliebe für männliche Bewerber.

Das lag vor allem daran, dass die Machine-Learning-Modelle mit historischen Daten gefüttert wurden, die vor allem aus Lebensläufen männlicher Bewerber bestanden. Als Resultat strafte das System Wörter wie "women's" in Lebensläufen ab - und erachtete auch Kandidatinnen von rein weiblichen Universitäten als ungeeignet. Laut Amazon kam die Software nicht in der Praxis zum Einsatz.

Der Konzern versuchte zwar, das Recruiting Tool in die richtigen Bahnen zu lenken, beschloss allerdings 2018 das Projekt zu beenden¹³, da nicht gewährleistet werden könne, dass das System weiterhin diskriminierende Entscheidungen trifft.

Entlarvende Analytics

Im Jahr 2012 bewies der US-Einzelhandels-Gigant Target, wie tiefgehend die Insights sind, die man aus Kundendaten gewinnen kann: Laut einem Artikel der New York Times¹⁴ setzt das Unternehmen seit 2002 alles daran, in Erfahrung zu bringen, welche ihrer Kunden gerade schwanger sind. Dieses Vorhaben war auch von Erfolg gekrönt, wie sich im Jahr 2012 herausstellte, als der Konzern per Werbe-Mailing versehentlich die Schwangerschaft einer Minderjährigen offenlegte¹⁵. Als das bekannt wurde, folgten zahlreiche Medienberichte, die den "creepy factor" dieser Art der Datenanalyse in den Fokus stellten.

Glaubt man der New York Times, hat der Konzern dennoch nicht Abstand von seinen Analytics-Praktiken genommen. Allerdings werden den Werbeanzeigen für die schwangere Zielgruppe seither Zielgruppen-fremde Anzeigen "beigemischt", um ein weniger gruseliges Gesamtbild zu erzeugen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com¹⁶.

Links im Artikel:

¹ https://www.economist.com/leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data
² https://www.cio.com/article/3518901/state-of-the-cio-2020.html
³ https://www.computerwoche.de/a/wieso-analytics-projekte-immer-noch-scheitern,3549332
⁴ https://www.bbc.com/news/technology-54423988
⁵ https://www.computerwoche.de/a/so-hilft-it-bei-der-corona-eindaemmung,3548854
⁶ https://science.sciencemag.org/content/366/6464/447
⁷ https://www.scientificamerican.com/article/racial-bias-found-in-a-major-health-care-risk-algorithm/
⁸ https://www.computerwoche.de/a/faq-algorithmen-und-algorithm-engineering,3563654
⁹ https://www.sueddeutsche.de/digital/microsoft-programm-tay-rassistischer-chat-roboter-mit-falschen-werten-bombardiert-1.2928421
¹⁰ https://www.computerwoche.de/a/wenn-maschinelles-lernen-zur-pflicht-wird,3549547
¹¹ https://www.computerwoche.de/a/was-unternehmen-ueber-chatbots-wissen-muessen,3329735
¹² https://www.computerwoche.de/a/das-sind-die-fuenf-wichtigsten-trends,3548209
¹³ https://www.cio.com/article/3314737/amazons-biased-ai-recruiting-tool-gets-scrapped.html
¹⁴ https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html
¹⁵ https://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/?sh=595da3f06668
¹⁶ http://www.cio.com/article/3586802/5-famous-analytics-and-ai-disasters.html

IDG Tech Media GmbH
Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium in Teilen oder als Ganzes bedarf der schriftlichen Zustimmung der IDG Tech Media GmbH. dpa-Texte und Bilder sind urheberrechtlich geschützt und dürfen weder reproduziert noch wiederverwendet oder für gewerbliche Zwecke verwendet werden. Für den Fall, dass auf dieser Webseite unzutreffende Informationen veröffentlicht oder in Programmen oder Datenbanken Fehler enthalten sein sollten, kommt eine Haftung nur bei grober Fahrlässigkeit des Verlages oder seiner Mitarbeiter in Betracht. Die Redaktion übernimmt keine Haftung für unverlangt eingesandte Manuskripte, Fotos und Illustrationen. Für Inhalte externer Seiten, auf die von dieser Webseite aus gelinkt wird, übernimmt die IDG Tech Media GmbH keine Verantwortung.