So funktioniert Apple Intelligence

30.07.2024
Von Klaus Rodewig und  
Mark Zimmermann leitet hauptberuflich das Center of Excellence (CoE mobile) zur mobilen Lösungsentwicklung bei der EnBW Energie Baden-Württemberg AG in Karlsruhe. Er weist mehrere Jahre Erfahrung in den Bereichen Mobile Sicherheit, Mobile Lösungserstellung, Digitalisierung und Wearables auf. Der Autor versteht es, seine Themen aus unterschiedlichsten Blickwinkeln für unternehmensspezifische Herausforderungen darzustellen. Neben seiner hauptberuflichen Tätigkeiten ist er Autor zahlreicher Artikel in Fachmagazinen.
Neben der Apple-typischen Verarbeitung auf dem Endgerät steht für Apple Intelligence die Cloud-basierte Erweiterung "Private Cloud Compute" (PCC) bereit. Ein Überblick.
Apple Intelligence: Hinter dem schicken Logo verbirgt sich ein komplexes Konstrukt
Apple Intelligence: Hinter dem schicken Logo verbirgt sich ein komplexes Konstrukt
Foto: Muhammad Alimaki - shutterstock.com

Der Konzern aus Cupertino hat es sich bei Apple Intelligence zum Ziel gesetzt, den höchsten Anforderungen an Verlässlichkeit und Sicherheit zu genügen. So werden etwa Daten auf dem jeweiligen Endgerät lokal als Kontextwissen (semantischer Index) hinterlegt und von AI verwendet. Auf diese Weise lernt das KI-System den Anwender kennen, ohne mit dessen Daten zu trainieren. Die Daten verlassen dabei also nie das Gerät, wodurch die Antworten auf einem iPhone andere sein können als auf einem iPad desselben Users.

Die maschinellen Lernmodelle wurden dabei auf Apples AXLearn (Apples eXperimental Learn) Framework trainiert, einem Open-Source-Projekt (OSP), das von Apple 2023 veröffentlicht wurde. AXLearn baut auf JAX (Just After eXecution) und XLA (Accelerated Linear Algebra) auf und ermöglicht es Apple, Modelle mit hoher Effizienz und Skalierbarkeit auf verschiedenen Hardware- und Cloud-Plattformen zu trainieren.

Dazu zählen auch TPUs (Tensor Processing Units) und GPUs (Graphics Processing Units) und das sowohl in der Cloud als auch vor Ort. Dank der modularen und objektorientierten Architektur von AXLearn können Entwickler Modelle aus wiederverwendbaren Bausteinen zusammensetzen, was nicht nur die Modellentwicklung vereinfacht, sondern auch die Integration mit anderen beliebten Bibliotheken wie Flax und Hugging Face Transformers ermöglicht.

Flax ist eine auf JAX basierende Bibliothek für die Implementierung von neuronalen Netzen, die durch ihre Flexibilität und Einfachheit besticht. Hugging Face Transformers ist eine weitverbreitete Bibliothek, die auf natürliche Sprachverarbeitung spezialisiert ist und eine Vielzahl vortrainierter Modelle bereitstellt, die leicht in AXLearn integriert werden können. Diese Flexibilität eröffnet eine breite Palette von Anwendungen, einschließlich der Verarbeitung natürlicher Sprache, Computer Vision und Spracherkennung.

Die Skalierbarkeit von AXLearn unterstützt das Training von Modellen auf verschiedenen Hardware-Plattformen und nutzt zur Skalierung des Trainings in verschiedenen Dimensionen Techniken wie

  • Datenparallelismus: Große Datensätze werden in kleinere Batches aufgeteilt und parallel auf mehreren GPUs oder TPUs verarbeitet, um die Rechenleistung effizient zu nutzen.

  • Tensor-Parallelismus: Teile eines einzelnen Tensors werden über mehrere Geräte verteilt, wodurch die Berechnung für enorme Modelle möglich wird, die nicht auf einen einzelnen Beschleuniger passen.

  • Sequenzieller Parallelismus: Verschiedene Sequenzen oder Schritte werden parallel verarbeitet, um die Trainingszeit zu verkürzen.

AXLearn ist so konzipiert, dass es sowohl auf öffentlichen Clouds als auch auf privaten Infrastrukturen betrieben werden kann. Es enthält Werkzeuge für die Verwaltung und Bereitstellung von Jobs und Daten, und die Bibliothek integriert ein globales Berechnungsparadigma, das es den Anwendern ermöglicht, Berechnungen auf einem virtuellen globalen Computer zu beschreiben, anstatt sich auf einzelne Beschleuniger zu konzentrieren. Dies erleichtert die Entwicklung und Verwaltung komplexer Modelle erheblich.

Hybride Datenstrategie beim Modelltraining

Apple trainiert seine Modelle für Apple Intelligence auf lizenzierten Daten, sowie auf öffentlich verfügbaren Inhalten, die von ihrem Web-Crawler "Applebot-extended" eingesammelt werden. Hierbei wird auch von sogenannte Foundation Models gesprochen. Dabei haben Web-Publisher auch die Möglichkeit, die Verwendung ihrer Web-Inhalte für das Training von "Apple Intelligence" abzulehnen. Getreu dem Motto "Shit in - Shit out" ist die Datenqualität entscheidend für den Erfolg der trainierten Modelle. Deswegen verwendet Apple in seiner Modelltrainings-Pipeline eine hybride Datenstrategie, die sowohl von Menschen annotierte als auch synthetisch generierte Daten umfasst. Ferner wendet Apple nach eigenen Angaben gründliche Verfahren zur Kuratierung und Filterung der Daten an.

Modellierungsübersicht für die Apple Foundation-Modelle.
Modellierungsübersicht für die Apple Foundation-Modelle.
Foto: Mark Zimmermann

Personenbezogene Daten werden in diesem Training aktiv ausgeschlossen. Informationen wie Sozialversicherungs- und Kreditkartennummern werden aktiv gefiltert und aus öffentlich zugänglichen Quellen im Internet entfernt. Ebenso werden Schimpfwörter, jugendgefährdende Schriften und andere ungeeignete Inhalte aus dem Trainingsmaterial ausgeschlossen. Weiterhin führt Apple nach eigenen Angaben eine Deduplizierung der Daten durch, um qualitativ hochwertige Dokumente zu identifizieren. Die gerätespezifischen AI-Modelle verwenden eine Vokabelgröße von 49K, während das PCC-Servermodell eine Vokabelgröße von 100K verwendet, die zusätzliche sprachliche und technische Token enthält.

Zusätzlich wendet Apple verschiedene Optimierungstechniken an, um die erforderlichen Speicher-, Energie- und Leistungsanforderungen zu optimieren. Dies sorgt auf allen Seiten für eine rasante Performance: Apples serverseitige Modelle sollen dabei eine extrem niedrige Latenz (0,6 Millisekunden zum ersten Token) aufweisen und übertreffen damit ähnliche Phi- und Gemini-Modelle von Microsoft und Google und sogar OpenAIs ChatGPT 3.5 bei weitem und nähern sich bereits jetzt ChatGPT 4o an.

Apple Intelligence bietet viele spezialisierte Adapter, die als Gewichtungen für ein dahinterliegendes Basismodell wirken. Diese können schnell geladen beziehungsweise getauscht werden, um das Basismodell für verschiedene Aufgaben zu spezialisieren.
Apple Intelligence bietet viele spezialisierte Adapter, die als Gewichtungen für ein dahinterliegendes Basismodell wirken. Diese können schnell geladen beziehungsweise getauscht werden, um das Basismodell für verschiedene Aufgaben zu spezialisieren.
Foto: Mark Zimmermann

Um die verwendeten Modelle an die geforderten Aufgaben anzupassen, verwendet Apple sogenannte Adapter, kleine neuronale Module, die in verschiedenen Schichten des vortrainierten Modells eingesetzt werden können. Diese bilden die Grundlage für Apple Intelligence, das neue persönliche Intelligenzsystem, das tief in iPhone, iPad und Mac integriert ist und leistungsstarke Funktionen für Sprache, Bilder, Aktionen und den persönlichen Kontext bietet.

Beim Training der Adapterschichten bleiben die ursprünglichen Parameter des vortrainierten Basismodells unverändert, sodass das allgemeine Wissen des Modells erhalten bleibt, während die Adapterschichten zur Unterstützung spezifischer Aufgaben angepasst wird.

Apple Intelligence basiert auf einem großen Sprachmodell, das ausschließlich auf den Geräten der Anwender arbeitet. Diese On-Device-Verarbeitung garantiert einen hohen Datenschutz. Anders als andere KI-Modelle greift Apple Intelligence nicht automatisch auf externe Server zu, wodurch die Integrität der Anwenderdaten gewahrt bleibt.

Da es (zukünftig) Modelle geben wird, die auf den Geräten selbst nicht arbeiten können, stellt die neue Cloud-Architektur sicher, dass private Informationen sicher behandelt werden. Dabei kommen Maßnahmen wie die Maskierung von IP-Adressen und die nicht permanente Speicherung auf den KI-Servern von Apple zum Einsatz, um das Vertrauen und die Sicherheit zu erhöhen, falls doch Daten an KI-Systeme von Dritten gehen.

Apple AI Architektur mit Unterscheidung zwischen Kontext- und Weltwissen. Perspektivisch können auch andere GenAI-Anbieter eingebunden werden.
Apple AI Architektur mit Unterscheidung zwischen Kontext- und Weltwissen. Perspektivisch können auch andere GenAI-Anbieter eingebunden werden.
Foto: Mark Zimmermann

Sollte etwa das Weltwissen von ChatGPT benötigt werden, um eine historische Zusammenfassung zum Geburtstag des Anwenders herzustellen, wird ChatGPT nach dem expliziten Datum gefragt. Die Information, dass es sich dabei um den Geburtstag des Anwenders handelt, wird aus Datenschutzgründen vorher entfernt. Das ist der Vorteil, dass die Prompt-Generierung von Apple AI übernommen wird und nicht durch den Anwender direkt bei OpenAI und Co. hinterlegt wird. Damit kann ChatGPT in Situationen eingesetzt werden, in denen Kontextwissen allein oder die Apple-Modelle nicht ausreichen.

Es geht nicht ohne Cloud

Wenn die Verarbeitung auf dem Gerät mit Apple-Geräten wie dem iPhone und dem Mac möglich ist, liegen die Sicherheits- und Datenschutzvorteile auf der Hand: Benutzer kontrollieren ihre eigenen Geräte, Experten können sowohl die Hardware als auch die Software mithilfe des Security-Research-Geräts überprüfen, Transparenz zur Laufzeit wird durch Secure Boot kryptografisch gewährleistet, und Apple hat keinen privilegierten Zugriff.

Mit maßgeschneiderten Apple-Prozessoren und einem gehärteten Betriebssystem auf den Erkenntnissen von iOS, das für Privatsphäre entwickelt wurde, möchte Apple neue Maßstäbe setzen. Sichere und private AI-Verarbeitung in der Cloud stellt eine neue, formidable Herausforderung dar. Leistungsstarke AI-Hardware im Rechenzentrum muss zum einen die Anfrage eines Benutzers mit großen, komplexen maschinellen Lernmodellen erfüllen und zum anderen die Sicherheit der Daten auf vielen Ebenen sicherstellen.

Dazu gehören Sicherheits- und Datenschutzgarantien, bei denen ein Cloud-AI-Dienst erklärt, bestimmte Anwenderdaten nicht zu protokollieren. Außerdem ist Transparenz zur Laufzeit ein wichtiges Thema, denn häufig sind Cloud-AI-Dienste intransparent: Anbieter geben in der Regel keine Details über den Software-Stack bekannt, den sie zur Ausführung ihrer Dienste verwenden, und diese Details werden oft als proprietär betrachtet.

Ein weiterer Punkt ist das Unterbinden privilegierter Admin-Zugriffe. Cloud-AI-Dienste sind komplex und teuer im Betrieb und ihre Leistungskennzahlen werden daher ständig von Site Reliability Engineers und anderem Administrationspersonal überwacht und untersucht.

Kernanforderungen an Sicherheit und Datenschutz

Für alle diese Punkte gibt es ferner (bisher) keine Möglichkeit für Sicherheitsforscher, diese Zusicherungen und Zusagen (sofern sie getroffen werden) zu überprüfen - und oft auch keine Möglichkeit für den Dienstanbieter, dies dauerhaft durchzusetzen. Apple will das ändern. So hat der Konzern für Private Cloud Compute eine Reihe von Kernanforderungen konzipiert, die sich elementar von den Datenschutz- und Sicherheitskonzepten anderer Anbieter unterscheiden. Dazu gehören unter anderem die folgenden Auflagen:

  • Lose Kopplung und flüchtige Verarbeitung von persönlichen Anwenderdaten: PCC darf die persönlichen Anwenderdaten, die das System erhält, ausschließlich zur Erfüllung der Benutzeranfrage verwenden. Diese Daten dürfen für niemanden außer dem Benutzer selbst verfügbar sein, auch nicht für Apple-Mitarbeiter, selbst während der aktiven Verarbeitung. Nach der Rückmeldung der Antwort dürfen die Daten nicht in der Cloud aufbewahrt werden, weder durch Protokollierung noch zu Debugging-Zwecken. Ziel ist also eine status- und spurenlose Datenverarbeitung ohne Spuren im PCC zu hinterlassen.

  • Automatisierte Datenschutzgarantien und keine privilegierten Laufzeitzugriffe: Die Komponenten in PCC dürfen keine privilegierten Schnittstellen enthalten, die es ermöglichen würden, die PCC-Datenschutzgarantien zu umgehen.

  • Überprüfbare Sicherheit durch Dritte: Ein potenzieller Angreifer darf nicht in der Lage sein, persönliche Daten spezifischer, gezielter PCC-Benutzer zu kompromittieren, ohne einen umfassenden Angriff auf das gesamte PCC-System zu versuchen. Dies muss selbst für außergewöhnlich versierte Angreifer gelten, die physische Angriffe auf PCC-Knoten in der Lieferkette versuchen oder sich unbefugten Zugriff auf PCC-Rechenzentren verschaffen. Sicherheitsforscher und -experten müssen in der Lage sein, die Architektur und Umsetzung auf die geforderten Datenschutz- und Sicherheitsgarantien einzusehen.

Ein PCC-Knoten umfasst dabei die erwähnte maßgeschneiderte Serverhardware, die die Leistungsfähigkeit und Sicherheit von Apple-Silizium ins Rechenzentrum bringt, mit denselben Hardware-Sicherheitstechnologien wie im iPhone, einschließlich

  • Secure Enclave,

  • Secure Boot und

  • Sicherheitsmechanismen (etwa Pointer Authentication Codes, Code Signing und Sandboxing).

Die Chips von Nvidia kommen hier offenbar nicht zum Einsatz.

Bei der Umsetzung plant Apple alle IT-Komponenten auszuschließen, die traditionell für die Verwaltung von Rechenzentren entscheidend sind, wie Remote-Shells und System-Inspektions- sowie Überwachungs-Tools. Die Apple zur Verfügung stehenden deterministischen Betriebsmetriken sind somit nur in homöopathischen Dosen vorhanden.

Privacy ohne End-to-End-Verschlüsselung

Bei Diensten, die Ende-zu-Ende-verschlüsselt sind wie iMessage, kann ein Dienstbetreiber wie Apple nicht auf die Daten zugreifen, die durch ihr System fließen. Da Private Cloud Compute jedoch auf die Daten in der Anfrage des Benutzers zugreifen muss, um ein AI-Modell zu befüllen, ist eine vollständige Ende-zu-Ende-Verschlüsselung eigentlich eine nicht umsetzbare Option. Deshalb muss Apple für PPC einen anderen Weg gehen:

  • Die Daten eines Benutzers werden an genau einen PCC-Knoten gesendet, um ausschließlich die Anforderung des Benutzers zu erfüllen.

  • Die Benutzerdaten verbleiben auf dem einen PCC-Knoten, der die Anfrage bearbeitet, bis er die Antwort an das anfragende Endgerät zurückgibt.

Dabei sind die Benutzerdaten für niemanden zugänglich: Apple hat Private Cloud Compute so gestaltet, dass keinerlei privilegierter Zugriff erlaubt ist; weder Remote-Shell- noch interaktive Debugging-Mechanismen. Der von iOS bekannte Code-Signing-Mechanismus verhindert das Laden zusätzlicher Codes zur Laufzeit. Jeder PCC-Knoten ist eine eigene virtuelle Maschine. Die Laufzeitumgebung stellt über signierte Boot-Prozesse sicher, dass lediglich freigegebene Images gestartet werden können.

Gehärtete Lieferkette

Damit dies sichergestellt ist, integriert Apple eine gehärtete Lieferkette für die physikalische Hardware, um einen Angriff auch hier schwerer zu machen. Das Konzept kennt man sonst nur von Devices wie dem iPhone, dem Mac oder sicheren Embedded-Geräten.

So inventarisiert Apple bereits bei der Herstellung der Hardware alle Komponenten und dokumentiert diese mit hochauflösenden Bildern, bevor sie physikalisch versiegelt werden. Jegliche Veränderung am System sorgt dafür, dass die PCC-Hardware nicht mehr arbeitsfähig ist. Auch der Einbau im Rechenzentrum erfolgt unter strengen Auflagen. Dieser Prozess umfasst mehrere unterschiedliche beteiligte Apple-Teams, die das System auf Manipulation prüfen.

Damit überdies ein iOS-Gerät darauf vertrauen kann, dass es mit einem validen PCC-Knoten kommuniziert, greift die PCC-Attestierung. Diese Attestierung ist als "verwaltete Gerätebeglaubigung" - bei Apple bereits seit iOS 16, iPadOS 16.1, macOS 14 und tvOS 16 bekannt. Sie stellt verlässliche Beweise zu den Geräteeigenschaften bereit, die zur Überprüfung der Vertrauenswürdigkeit verwendet werden können.

Die Beglaubigung ist eine kryptografische Deklaration von Geräteeigenschaften, die auf der Sicherheit der Secure Enclave und den Beglaubigungsservern von Apple basiert. Erst wenn die Beglaubigung gelingt, transferiert das iOS-Gerät seine Anfrage an den PCC-Knoten. Ebenso durchlaufen alle PCC-Anfragen ein OHTTP-Relay (Oblivious HTTP Relay), das die IP-Adresse des Geräts verschleiert, bevor die Anfrage die PCC-Infrastruktur erreicht.

Um die Sicherheit transparent zu machen und um eventuell vorhandene Schwachstellen zu finden, stellt Apple diese Images Sicherheitsexperten zur freien Überprüfung im Rahmen des Apple Bug-Bounty-Programms zur Verfügung. Details hierzu sind noch unbekannt.

Parallelen zur elektronischen Patientenakte

Für PCC hat sich Apple ganz offensichtlich beim Konzept der Trusted Computing Base bedient. Der Grundgedanke dabei ist, möglichst wenigen Prozessen und Komponenten Zugriff auf sensible Daten zu geben und die Laufzeit aller Prozesse so kurz wie möglich zu halten, um die Angriffsfläche zu verringern. Beschränkt man die Lebenszeit eines (virtuellen) Systems darüber hinaus auf die Abarbeitung einer konkreten Anfrage eines konkreten Users, kann ein Angreifer mit Systemzugriff zwar die Daten dieser einen Session kompromittieren. Er kann sich aber nicht im System einnisten, denn nach Beendigung der Session wird dieses gelöscht.

Dieses Prinzip kommt übrigens in abgewandelter Form schon länger bei der elektronischen Patientenakte zum Einsatz. Für jede Transaktion mit einer elektronischen Patientenakte startet in der Gematik-Umgebung eine eigene virtuelle Maschine, eine sogenannte "vertrauenswürdige Ausführungsumgebung" (VAU). Die Gematik-Spezifikation ist aber derart kompliziert und sperrig, dass sich daraus für "normale" Anwendung wenig Nutzen ziehen lässt. Der von Apple eingeschlagene Weg scheint wesentlich pragmatischer und effizienter zu sein.

Datenschutz als Kernbestandteil

Erst wenn alle anderen Optionen ausgeschöpft sind und die KI keine zufriedenstellende Antwort mehr liefert, kann der Benutzer entscheiden, seine Anfrage beispielsweise an ChatGPT weiterzuleiten. Auch hierbei legt Apple großen Wert auf den Datenschutz. Eine Anfrage wie "Was passierte in der deutschen Politik in dem Jahr, in dem meine Tochter geboren wurde?" zeigt diese Zusammenarbeit sehr deutlich. Laut den Autoren erkennt Apple Intelligence bereits auf dem Gerät, wer "meine Tochter" ist, und ermittelt anhand der Kontaktdaten im iPhone deren Geburtsdatum. Die Frage nach der Weltpolitik wird dann vom Wissen über den Kontext des Anwenders getrennt und zum allgemeinen Weltwissen.

Dieses Weltwissen könnte von der Apple Cloud bereitgestellt werden. Sollte dies nicht möglich sein, kann die Anfrage an ChatGPT weitergeleitet werden. In diesem Fall anonymisiert das System jedoch die Anfrage an ChatGPT. Dies betrifft sowohl den Inhalt der Anfrage als auch die IP-Adresse des anfragenden Geräts (OHTTP-Relay). OpenAI erfährt somit weder den Geburtstag noch die Verbindung zur Tochter, sondern nur das Jahr. Die Antwort von ChatGPT wird dann von Apple Intelligence wieder ergänzt, um dem Benutzer die vollständige Antwort zu liefern.

ChatGPT soll für bestimmte Aufgaben wie das Schreiben von Geschichten oder die Beantwortung komplexer Anfragen genutzt werden. Die Benutzer müssen jedoch jedes Mal zustimmen, wenn Apple Daten an ChatGPT sendet. Die Interaktionen mit ChatGPT werden mit Logos oder Namen gekennzeichnet, um Transparenz zu gewährleisten. Apple anonymisiert außerdem die IP-Adressen, die für die Kommunikation mit OpenAI verwendet werden. OpenAI verpflichtet sich, die Anfragen nicht zu speichern, es sei denn, ein Benutzer verknüpft sein ChatGPT-Konto mit Apple Intelligence. Es ist wichtig zu beachten, dass ChatGPT standardmäßig deaktiviert ist. Nur wenn der Benutzer es explizit aktiviert, kann er anschließend die notwendigen Anfragen (mit erneuter Freigabe) an OpenAI senden.

Vertrauensbildende Maßnahmen

Apple Intelligence wird viele von uns zwingen, zum ersten Mal über die Rolle von KI-Modellen bei der Interaktion mit unseren Daten nachzudenken. Es bleibt abzuwarten, ob wir genügend Vertrauen in die Sicherheit dieser Systeme haben und ob wir die Kontrolle über unsere Daten behalten können. Ein Signal, dass hier teilweise Zweifel bestehen, kommt aus verschiedenen Bereichen. So hat Jamf als führender MDM-Hersteller bereits angekündigt, dass die Nutzung von AI auf einem Endgerät über ein MDM-System unterbunden werden kann. Apple selbst plant wiederum, sowohl für den Accessment-Modus bei der Verwendung von Apps, als auch für die Geräteverwaltung entsprechende Einstellungen zur Einschränkung der Funktionen für Administratoren von Unternehmen oder Schulen anzubieten.

ohnehin wird die Einführung neuer Funktionen stufenweise erfolgen. Einige Features werden erst später im Jahr oder sogar erst im nächsten Jahr verfügbar sein, und zunächst nur in den USA. Zusätzlich plant Apple offenbar, die neuen Funktionen über Wartelisten verfügbar zu machen. Apple hat ferner die Einführung von "Apple Intelligence" in der EU aufgrund von Bedenken über den Digital Markets Act (DMA) auf unbestimmte Zeit verschoben. In China sucht Apple nach einem lokalen KI-Partner, da ChatGPT dort verboten ist und nur einheimische KI-Modelle zugelassen sind. Kurz gesagt, Apple wird immer noch die meisten KI-Funktionen selbst herausbringen und ChatGPT auf Bedarfsbasis "einbringen". (mb)