Vor allem die drei großen Cloud-Anbieter Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP) sind daran interessiert, dass Entwickler und Data Scientists Modelle für Machine Learning in ihren Cloud-Umgebungen entwickeln, testen und einsetzen. Das ist lukrativ, denn Testmodelle benötigen oft jede Menge kostenpflichtige Infrastrukturressourcen wie Computerpower und Storage. Außerdem sind diese Modelle auf eine hohe Verfügbarkeit angewiesen.
Die Cloud-Anbieter unternehmen derzeit eine Menge, um ihren Kunden die Nutzung der Machine-Learning-Funktionen zu erleichtern. Jede der drei Public Clouds bietet eine Reihe von Optionen für die Datenspeicherung, darunter Serverless-Datenbanken, Data Warehouses, Data Lakes und NoSQL-Datenspeicher. So können Anwender ihre Modelle in unmittelbarer Nähe zu den Speicherorten der Daten entwerfen.
Was AWS, Microsoft und Google zu bieten haben
Zudem bieten die Cloud-Provider inzwischen weit verbreitete Frameworks für maschinelles Lernen an, insbesondere TensorFlow und PyTorch. Damit werden ihre Cloud-Umgebungen für Data-Science-Teams zu One-Stop-Shops. Alle drei bieten zudem ModelOps, MLOps und eine wachsende Anzahl von Funktionen zur Unterstützung des gesamten Lifecycles von maschinellem Lernen.
Eine aktuelle, von Red Hat beauftragte Studie zeigt, dass derzeit 78 Prozent aller KI- und ML-Projekte in Hybrid-Cloud-Umgebungen umgesetzt werden. Für die Public Cloud bietet sich demnach noch viel Raum für Wachstum. Wollen die Anbieter hier Erfolg haben, werden sie weiterhin mit neuen und differenzierenden Funktionen innovieren müssen.
Diese Innovationen umfassen verschiedene Bereiche. Meistens geht es darum, Unternehmen dabei zu unterstützen, Machine Learning zu skalieren und in großen Dimensionen mit vielen Services und benutzerfreundlichen Plattformen umzusetzen. Hier sind einige Einzelheiten.
Auf die KI-Chips kommt es an
Je mehr Unternehmen experimentieren und je größer und komplexer die ML-Modelle werden, desto wichtiger wird es, dass die Modelle auf sehr großen Datenmengen trainiert werden können. Microsoft und der Chipproduzent Nvidia kündigten kürzlich Megatron (MT-NLG) an, einen Prozessor für die Verarbeitung natürlicher Sprache mit 530 Milliarden Parametern, während Google nach eigenen Angaben Anfang des Jahres mit Switch Transformer ein Modell mit 1,6 Billionen Parametern trainiert hat.
Das Trainieren von Modellen dieser Größe und Komplexität kann lange dauern und teuer werden, weshalb die Public-Cloud-Betreiber alles daran setzen, den Aufwand mit neuen KI-Chips und Infrastrukturinnovationen zu reduzieren. AWS hat erst vor wenigen Tagen den Inferentia-Prozessor angekündigt und vor ungefähr einem Jahr den ML-Training-Chip Trainium. Zudem hat AWS vor kurzem neue EC2-DL1-Instanzen angekündigt, die für das Trainieren von ML-Modellen optimiert sind und von den "Gaud"-Beschleunigern der Intel-Tochter Habana Labs angetrieben werden. Im Vergleich zu den neuesten GPU-getriebenen EC2-Instanzen sollen sie ein um 40 Prozent besseres Preis-Leistungs-Verhältnis bieten.
Auch Google war nicht untätig und kündigte Anfang 2021 auf der Google I/O die vierte Generation der Tensor Processor Units an (TPU v4). Für typische Workloads wie Objekterkennung, Bildklassifizierung, Natural Language Processing, maschinelle Übersetzung oder Empfehlungs-Benchmarks liege die durchschnittliche Verbesserung der Leistung beim 2,7-Fachen gegenüber TPU v3. Weitere Hardware-Innovationen mit KI-Chips und Beschleunigern sind auch von anderen Spezialisten zu erwarten, etwa von Cerebras, Graphcore, SambaNova und natürlich Nvidia.
Doch bei KI-fähigen Infrastrukturen geht es nicht nur um leistungsstarke Chips: Alle drei Public Clouds verfügen auch über Edge-Computing-Plattformen, die das Bereitstellen von ML-Modellen für das Internet of Things (IoT) und für andere Streaming-Anwendungen erleichtern.
Kampf der KI-Dienste
Die meisten Data-Science-Teams interessieren sich derzeit weniger für massiv-skalierende KI-Systeme als für das Entwickeln und Konfigurieren von Advanced-ML-Modellen. Alle drei Cloud-Anbieter entwickeln dafür ML-Services und in den kommenden Jahren werden diese Aktivitäten wohl erheblichzunehmen. Hier ein kurzer Überblick über die ML-Dienste, die auf Azure, GCP und AWS angeboten werden:
Microsofts Cognitive Services bieten Sprachdienste, Möglichkeiten für Sentiment-Analysen sowie Frage- und Antwortservices, wie sie häufig in Chatbots genutzt werden. Hinzu kommen Dienste rund um die Bildverarbeitung, allen voran Gesichtserkennung. Außerdem bietet Microsoft Dienste für die Entscheidungsunterstützung. Sie lassen sich beispielsweise für Projekte im Bereich der Personalisierung oder der automatisierten Erkennung von Anomalien verwenden.
Microsoft hat vor kurzem zudem einen Dienst für OpenAI angekündigt, dem Unternehmen, das 2020 mit seinem GPT-3-Modell für die Erkennung natürlicher Sprache einen großen Durchbruch gefeiert hatte. Mit Microsofts Azure OpenAI Service sollen Kunden in die Lage versetzt werden, Enterprise-fähige Sprachlösungen zu erstellen. Die Palette reicht vom automatisierten Zusammenfassen langer Texte über das Konvertieren natürlicher Sprache in Softwarecode bis hin zu automatisierter Konversation und Textvervollständigung.
Google Cloud bietet mehrere KI-Dienste für die Dokumentenverarbeitung an, darunter DocAI für die allgemeine Dokumentenverarbeitung und Lösungen etwa für das Beschaffungswesen, Kontaktzentren, das Vertragsmanagement oder Kreditwürdigkeits-Prüfungen.
Zu den zahlreichen AWS-Services für maschinelles Lernen gehören etwa Angebote für automatisierte Bild- und Videoanalyse (Rekognition), Dokumentenverarbeitung (Textract), das Einrichten von Chatbots (Lex), automatisierte Codeüberprüfungen (CodeGuru) und die Anpassung von Webanwendungen (Personalize).
AWS bietet auch branchenspezifische KI-Lösungen wie HealthLake, um unnormales Geräteverhalten mittels Sensordaten zu erkennen oder Amazon Fraud Detector für Finanzdienstleistungen und andere Branchen.
Mehr ML-Modelle as a Service (MLaaS) dürften auf den Markt kommen, glaubt Kirk Borne, Chief Science Officer bei DataPrime: "Die künftigen Modelle werden immer ausgefeilter sein, und die Kosten für ihr Trainings werden stark steigen. Unternehmen werden kaum die Zeit und das Talent investieren können, um ihre eigenen Instanzen an vortrainierten Modellen zu erstellen."
Aus Sicht von Borne werden sich gerade kleinere und mittlere Betriebe verstärkt mit ML und KI beschäftigen und MLaaS-Angebote perfekt finden, weil sie Zeit und Geld sparen und dabei Projekte umsetzen können, die für sie vorher nicht denkbar waren. "MLaaS hilft auch dabei, die allgegenwärtige Talentlücke zu schließen, weil sich die Vorteile vortrainierter MLaaS nutzen lassen, die auch noch besonders ausgefeilte und leistungsstarke Algorithmen verwenden."
Herausforderung: KI zugänglich machen
Eine Herausforderung für Public-Cloud-Anbieter besteht derzeit allerdings doch noch darin, ihre ML- und KI-Funktionen auch solchen Betrieben zugänglich zu machen, die keine fortschrittlichen Softwareentwicklungs- und Data-Science-Teams beschäftigen. Hier können Low-Code-Technologien helfen, die schon integrierte ML-Funktionen mitbringen oder Entwicklern zumindest Schnittstellen zu den vorhandenen KI-Services bieten.
Beispielsweise vereinfacht AWS SageMaker das Entwickeln, Testen und Bereitstellen von Modellen für maschinelles Lernen erheblich. Die integrierte Entwicklungsumgebung bietet eine Reihe von Funktionen, etwa einen Data Wrangler, mit dem Data Scientists bei der Datenvorbereitung unterstützt werden, oder einen Feature Store als gemeinsames Repository für ML-Features. Hier erhalten Entwickler und Datenwissenschaftler Hilfsmittel für die Zusammenarbeit und Wiederverwendung, außerdem DevOps-Funktionen für die schnelle Bereitstellung. AWS Sagemaker konkurriert mit Data Science-Plattformen wie Alteryx, Dataiku, KNIME und SAS.
Microsoft bietet mit dem Azure Machine Learning Studio ein Portal, das No-Code- und Code-First-Erfahrungen für Datenwissenschaftler kombiniert. Das fortgeschrittenste Low-Code-KI-Angebot von Microsoft ist der AI Builder für die Power Apps-Plattform, mit dem Low-Code-Entwickler Textklassifizierung, Objekterkennung und Formularverarbeitung durchführen können.
Google verfolgt mit AutoML für das Training von Modellen einen ähnlichen Ansatz. Die in Googles No-Code-Plattform AppSheet integrierte Intelligenz umfasst Funktionen wie Trendvorhersagen, Content-Klassifizierungen, Sentiment-Analysen und andere Funktionen. Die öffentlichen Clouds konkurrieren im Low-Code-Umfeld mit Plattformen von beispielsweise Creatio, Outsystems, Thinkwise oder Vantiq, die jeweils auch ML-Funktionen bieten.
Es wird interessant sein zu sehen, wie Public Clouds mit Startups, Anbietern von Unternehmenssoftware, Chipherstellern, Infrastrukturspezialisten und Open-Source-Plattformen im Bereich innovativer KI- und ML-Lösungen konkurrieren beziehungsweise kooperieren werden. Sie alle arbeiten daran, größere Modelle, mehr Dienste und einfachere On-Ramps für die Integration von Anwendungen zu unterstützen. (hv)