Mitte Juli 2023 hat Meta AI (die KI-Abteilung des ehemaligen Facebook-Konzerns) Llama 2 veröffentlicht und sowohl für wissenschaftliche als auch kommerzielle Zwecke freigegeben:
We believe an open approach is the right one for the development of today's Al models.
— Meta AI (@MetaAI) July 18, 2023
Today, we’re releasing Llama 2, the next generation of Meta’s open source Large Language Model, available for free for research & commercial use.
Details ?? https://t.co/vz3yw6cujk pic.twitter.com/j2bDHqiuHL
Die generativen Llama-2-Textmodelle sind für assistentenähnliche Chat-Anwendungen optimiert und lassen sich für eine Vielzahl von Tasks im Bereich Natural-Language-Generierung anpassen. Mit Code Llama stehen zusätzlich auch Modelle für Softwareentwicklungsaufgaben zur Verfügung.
Llama 2 definiert
Llama 2 bezeichnet eine Familie vortrainierter und feinabgestimmter großer Sprachmodelle (Large Language Models; LLMs) mit einer Skala von bis zu 70 Billionen Parametern. Folgende Modellgrößen beinhaltet die Llama-2-Familie:
7B
13B
70B
Auch die Llama-2-LLMs basieren auf Googles Transformer-Architektur, weisen allerdings im Vergleich zum ursprünglichen Llama-Modell einige Optimierungen auf. Dazu gehören etwa:
eine von GPT-3 inspirierte Pre-Normalization mit RMSNorm,
eine von Google PaLM inspirierte SwiGLU-Aktivierungsfunktion,
Multi-Query-Attention anstelle von Multi-Head-Attention sowie
von GPT Neo inspirierte Rotary Positional Embeddings (RoPE).
Die wesentlichen Unterschiede zwischen Llama 2 und Llama sind:
die größere Kontextlänge (4.096 statt 2.048 Token) und
der Einsatz von Grouped Query Attention (GQA) anstelle von Multi Query Attention (MQA) in den beiden größeren Llama-2-Modellen.
Die Daten, die für den zwei Billionen Token umfassenden Trainingskorpus von Llama 2 verwendet wurden, stammen laut Meta nicht aus den hauseigenen Produkten oder Services, sondern aus öffentlich zugänglichen Quellen. Für das Training der Modelle wurde der AdamW-Optimizer eingesetzt. Für das Pre-Training verwendete der Zuckerberg-Konzern seine eigenen Research Super Cluster und einige interne Produktionscluster mit A100-GPUs von Nvidia. Die Llama-2-Chat-Modelle feinabzustimmen, dauerte nach Angaben von Meta mehrere Monate und umfasste sowohl Supervised Fine-Tuning als auch Reinforcement Learning mit menschlichem Feedback (RHLF).
Ist Llama 2 sicher?
Generative AI ist bekanntermaßen problembehaftet. Es gibt diverse Situationen, in denen falsche Antworten gefährliche Auswirkungen haben können. Deswegen weisen auch so gut wie alle großen Sprachmodelle ähnliche Standardwarnungen auf. Kurzum: Egal, als wie sicher eine KI-Instanz angepriesen wird - stellen Sie ihre Antworten auf den Prüfstand, denn am Ende ist generative KI nicht mehr als ein "stochastischer Papagei".
Apropos anpreisen: Meta behauptet, die Llama-2-Chatmodelle sind ebenso sicher - oder sicherer - als andere, vergleichbare Modelle. Dabei beruft sich das Unternehmen auf die eigenen Research-Erkenntnisse:
To better enable the community to build on our work — and contribute to the responsible development of LLMs — we've published further details about the architecture, training compute, approach to fine-tuning & more for Llama 2 in a new paper.
— Meta AI (@MetaAI) July 28, 2023
Full paper?? https://t.co/GlY2a1wKMk pic.twitter.com/tIO6oiqD1h
Beachten Sie dabei jedoch den "Haken": Laut Meta können die LLM-Bewertungen aufgrund limitierter Prompt-Sets, subjektiver Bewertungsrichtlinien und der Subjektivität einzelner Bewerter einen Bias aufweisen.
Zusätzlich zu den üblichen ethischen und sicherheitstechnischen Fragen für LLMs gibt es sowohl bei Llama als auch bei Llama 2 rechtliche Probleme mit dem Trainingsdatenkorpus. Dieser beinhaltet auch den "Books3"-Datensatz, der urheberrechtlich geschützte Bücher enthält. Betroffene Autoren haben eine Klage gegen Meta angestrengt und fordern in diesem Rahmen Schadensersatz wegen entgangener Gewinne. Eine Entscheidung (oder außergerichtliche Einigung) steht zum Zeitpunkt der Erstellung dieses Artikels noch aus.
Allerdings hat bereits mindestens ein Repositorium, the Eye, auf eine Anfrage der dänischen Anti-Piracy-Organisation Rights Alliance reagiert und "Books3" entfernt. Ironischerweise war der Datensatz mit dem Ziel entstanden, das Generative-AI-Training zu demokratisieren.
Ist Llama 2 Open Source?
Um die Antwort auf die Frage vorweg zu nehmen: Fast. Denn die Llama-2-Lizenz weist - gemessen an der Open-Source-Definition - einige Einschränkungen auf, wie Stefano Mafulli, Executive Director der Open Source Initiative (OSI), erklärt: "Um Open Source zu sein, darf eine Lizenz keine Personen, Gruppen oder Interessensbereiche diskriminieren. Metas Lizenz für die Llama-Modelle und Llama Code erfüllt diese Anforderungen nicht. Insbesondere die kommerzielle Nutzung wird für einige Nutzer eingeschränkt - genauso wie die Nutzung des Modells und der Software für bestimmte Zwecke."
In der Tat besagt Absatz 2 des Community License Agreements von Llama 2, dass Produkte oder Services mit einer aktiven monatlichen Nutzerzahl von mehr als 700 Millionen eine Lizenz beantragen müssen. Diese kann Meta nach eigenem Ermessen erteilen - oder eben nicht. Das könnte man so intepretieren, als sollten AWS, Google Cloud und Microsoft außen vor bleiben - ein Konzept, das dem Geist der Business Software License folgt. Den meisten Softwareentwicklern dürfte diese Art von Einschränkung herzlich egal sein - Open-Source-Verfechtern ist sie allerdings sehr wichtig.
Was die Acceptable Use Policy von Llama angeht: Diese verbietet den rechtswidrigen oder böswilligen Einsatz der LLMs - etwa, um Waffen zu entwickeln, illegale Drogen zu produzieren oder Fake News zu verbreiten. Metas Haltung ist nachvollziehbar - aber auch in diesem Punkt hat Mafulli Recht: Es steht nicht im Einklang mit der Open-Source-Definition.
Das wirft allerdings auch weitere Fragen auf: Nehmen wir zum Beispiel an, Sie entwickeln mit Llama 2 ein Schmerzmedikament. Nach der Markteinführung stellt sich schließlich heraus, dass der neuartige Wirkstoff stark abhängig macht. Dieser wird daraufhin als illegales Betäubungsmittel eingestuft. Wie sollen Sie in einem solchen Fall während des Entwicklungsprozesses wissen, dass Sie gegen die Acceptable-Use-Richtlinie verstoßen?
Gut, dass die OSI inzwischen daran arbeitet, eine neue Definition von Open Source AI zu finden.
Was ist Code Llama?
Code Llama ist ein Llama-2-LLM, das speziell für Programmieraufgaben entwickelt wurde. Laut Meta kann Code Llama:
Code und Natural Language (über Code) generieren - und zwar sowohl auf Code- als auch auf natürlichsprachlicher Prompt-Basis,
Code vervollständigen, und
Fehler aufspüren.
Dabei unterstützt das LLM viele populäre Programmiersprachen, darunter:
Auch Code Llama ist in drei verschiedenen Modellgrößen verfügbar:
7B,
13B und
34B.
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.