ChatGPT ist für viele zum Synonym für generative künstliche Intelligenz (KI) geworden. Doch OpenAIs Vorzeigeprojekt ist nicht das einzige hochwertige Tool, das auf Large Language Models (LLMs) fußt - und für manche Softwareprojekte auch nicht die beste Wahl.
So gut wie alle LLMs haben Schwächen, die sich allerdings erst im weiteren Verlauf ihres Einsatzes zeigen. Quelloffene Large Language Models können in diesem Zusammenhang ein echtes Geschenk für Ihr Unternehmen sein - vorausgesetzt, Sie sind in der Lage, diese auch auszurollen und zu betreiben.
13 Large Language Models, die nicht GPT sind
Im Folgenden werfen wir einen Blick auf 13 Alternativen zu GPT - dem LLM hinter ChatGPT. Die folgenden großen Sprachmodelle können Ihr Generative-AI-Projekt möglicherweise entscheidend voranbringen. Der einzige Weg, sicherzugehen: Füttern Sie sie mit Ihren Prompts und werten Sie die Ergebnisse sorgfältig aus.
Facebook - beziehunsgweise Meta - hat dieses Foundational Large Language Model erstellt und dann im Rahmen seines erklärten "Engagements für offene Wissenschaft" veröffentlicht. Llama steht kostenlos zum Download zur Verfügung und eignet sich als Grundlage, um feiner abgestimmter Modelle für spezifische Use Cases zu entwickeln.
Das LLM steht zudem in vier verschiedenen Größen zur Verfügung (7B, 13B, 33B, 65B). Die kleinste Version mit "nur" 7 Milliarden Parametern wird bereits für diverse, auch eher ungewöhnliche Zwecke eingesetzt. Ein Entwickler betreibt Llama gar auf einem Raspberry Pi mit lediglich 4GB RAM.
Wissenschaftler der Univserität Stanford haben Llama (7B) auf eine Reihe spezifischer Prompts trainiert, die anweisungsgebundene Modelle wie ChatGPT imitieren. Das Ergebnis dieses Feintunings heißt Alpaca 7B - ein Large Language Model, das das in Llama kodierte Wissen für den Ottonormal-User über NLP-Anweisungen zugreifbar macht. Schätzungen zufolge lässt sich dieses leichtgewichtige LLM mit Hardware im Wert von weniger als 600 Dollar betreiben.
Der Trainingsdatensatz und der Quellcode von Alpaca 7B steht zur freien Verfügung. Sie können das Modell nach Belieben duplizieren - oder ein neues Modell auf seiner Grundlage erstellen.
Ein weiterer Abkömmling von Llama ist Vicuna. Das Team hinter dem LLM-Projekt sammelte Trainingsdaten in Form von 70.000 ShareGPT-Konversationen. Dabei legte das Team besonderes Augenmerk auf mehrstufige Interaktionen und Funktionen, um Anweisungen zu befolgen.
Erhältlich in zwei verschiedenen Größen (Vicuna-13b oder Vicuna-7b), gehört dieses Large Language Model zu den kostengünstigsten, offenen GPT-Alternativen.
Die Art und Weise, wie große Sprachmodelle "sprachlich korrekten" Text erzeugen, ist nicht jedermanns Sache. Die Schöpfer von NodePad sind etwa der Meinung, dass LLMs mit glänzenden Benutzeroberflächen dazu verleiten, den Output für bare Münze zu nehmen.
Deswegen ist das LLM NodePad darauf konzipiert, Experimente und Ideation zu fördern. Dazu stellt es die Ergebnisse nicht als ausformulierten Text, sondern in Form von Knoten und Verbindungen dar - ähnlich wie ein Mind-Mapping-Tool.
Orca (PDF)
Große Sprachmodelle der ersten Generation wurden im Laufe der Zeit immer größer. Diesen Trend kehrt ein Research-Team von Microsoft mit Orca um: Dieses Large Language Model verwendet "nur" 13 Milliarden Parameter und läuft so auch auf durchschnittlichen Rechnern. Das erreichten die Entwickler des Sprachmodells, indem sie seinen Trainingsalgorithmus optimiert haben.
Statt die KI einfach nur mit Rohdaten zu füttern, wurde Orca mit einem Datensatz trainiert, der speziell darauf ausgelegt war, zu lehren. Und es sieht ganz danach aus, als würden KI-Instanzen - ähnlich wie Menschen - schneller lernen, wenn sie nicht einfach ins kalte Wasser geworfen werden. Zumindest haben die Microsoft-Forscher Benchmarks vorgelegt, die darauf hindeuten, dass Orca ebenso gut performt, wie wesentlich größere Sprachmodelle.
Das Ziel der Schöpfer von Jasper war es nicht, einen weisen LLM-Generalisten zu bauen. Vielmehr wollten sie eine Maschine erschaffen, um zielgerichtet ganz spezifische Inhalte zu generieren.
Deswegen bietet Jasper auch kein Interface im ChatGPT-Stil, sondern stellt mehr als 50 verschiedene Templates für diverse Tasks zur Verfügung - etwa Immobilienangebote oder Produktbeschreibungen. Die kostenpflichtigen Versionen dieses LLM adressieren speziell solche Unternehmen, die Wert auf konsistente Marketing-Texte legen.
Mit Claude hat Anthropic einen hilfreichen KI-Assistenten geschaffen, der diverse textbasierte Aufgaben im Unternehmensumfeld übernehmen kann - von der Recherche bis hin zum Kundendienst. Dabei lässt Anthropic bewusst lange Prompts zu, um komplexere Anweisungen zu fördern und den Benutzern mehr Kontrolle über die Outputs zu ermöglichen. Zwei Versionen von Claude (PDF) stehen derzeit zur Verfügung:
das vollständige Modell Claude-v1 und
eine abgespeckte, kostengünstigere Version namens Claude Instant.
Erstere eignet sich für Tasks, die eine komplexere, strukturierte Argumentation erfordern. Die Instant-Variante ist hingegen schneller und eignet sich simplere Aufgaben wie Klassifizierung und Moderation.
Introducing 100K Context Windows! We’ve expanded Claude’s context window to 100,000 tokens of text, corresponding to around 75K words. Submit hundreds of pages of materials for Claude to digest and analyze. Conversations with Claude can go on for hours or days. pic.twitter.com/4WLEp7ou7U
— Anthropic (@AnthropicAI) May 11, 2023
Wenn spezialisierte Hardware und General LLM gemeinsam entwickelt werden, kann eine schnelle und effiziente Lösung entstehen - wie Cerebras.
Dieses Large Language Model steht auf Hugging Face in einer Vielzahl von Größen zur Verfügung, von klein (111 Millionen Parameter) bis groß (13 Milliarden Parameter) - für diejenigen, die das Modell lokal betreiben möchten. Die meisten User dürften sich allerdings für die Cloud Services interessieren, die auf den integrierten Wafer-Scale-Prozessoren von Cerebras laufen. Sie sind darauf optimiert, große Mengen von Trainingsdaten zu durchforsten.
Cerebras has made it possible to train and run inference on semantic segmentation models on images larger than can be done on GPUs today. pic.twitter.com/K938yfuFlF
— Cerebras (@CerebrasSystems) February 3, 2023
Das Falcon LLM wurde am Technology Innovation Institute in den Vereinigten Arabischen Emiraten erstellt und steht in zwei Größen zur Verfügung (Falcon-40b und Falcon-7b). Trainiert wurde das große Sprachmodell mit einem riesigen Satz allgemeiner Beispiele aus dem RefinedWeb - wobei der Schwerpunkt darauf lag, die Inferenz zu optimieren.
Anschließend wurde das Modell mit Apache 2.0 veröffentlicht. Seither gilt es dank seiner Quelloffenheit und geringen Restriktionen als eines der besten Large Language Models, um zu experimentieren.
#Falcon LLM #UAE #LLM pic.twitter.com/45GuC7N4Ud
— Dr. Ebtesam Almazrouei (@Dr_Almazrouei) March 17, 2023
Meta ist nicht nur ein Social-Media-Gigant, sondern auch eine Macht im Bereich der Open-Source-Softwareentwicklung. Im Zuge des anhaltenden KI-Booms überrascht es daher nicht, dass das Unternehmen viele seiner hauseigenen Innovationen nun mit der Öffentlichkeit teilt. ImageBind ist ein solches Projekt. Das Large Language Model soll beweisen, dass KI auch viele verschiedene Datentypen auf einmal erstellen kann - in diesem Fall Text, Audio und Video.
Today we’re introducing ImageBind: a new AI model that can understand how images, audio, video, depth and motion all relate to one another to create a scene.
— Meta Newsroom (@MetaNewsroom) May 9, 2023
This creates new opportunities for creators in the future, like being able to take a video of a sunset and have the AI… pic.twitter.com/l1EfVMnsxs
Wahrscheinlich haben Sie schon den ein oder anderen Artikel zum Thema Programmieren mit Generative AI gelesen. Die Ergebnisse sind oberflächlich betrachtet oft beeindruckend - erst bei näherer Betrachtung zeigt sich, wie fehlerbehaftet sie sind: Die Syntax mag zwar korrekt sein, aber die API-Calls sind es nicht oder beziehen sich auf eine Funktion, die gar nicht existiert. Gorilla ist ein Large Language Model, das darauf ausgelegt ist, Programmierschnittstellen besser zu händeln.
Das Sprachmodell basiert ebenfalls auf Metas Llama - wurde allerdings nachträglich mit einem Fokus auf tiefgehendere Programmierarbeit optimiert. Darüber hinaus bietet das Team hinter dem Gorilla-LLM auch eine Reihe eigener API-zentrierter Benchmarks zu Testzwecken an.
?? Excited to release Gorilla?? Gorilla picks from 1000s of APIs to complete user tasks, surpassing even GPT-4! LLMs need to interact with the world through APIs, and Gorilla teaches LLMs APIs. Presenting Gorilla-Spotlight demo??
— Shishir Patil (@shishirpatil_) May 25, 2023
Webpage: https://t.co/QZrtMaYKfa pic.twitter.com/h6aSeofcXu
Ein weiteres LLM-Tool, das Entwickler bei ihrem Schaffen unterstützt, ist AgentGPT. Es wurde entwickelt, um Agenten aufzusetzen, die wiederum für Aufgaben wie Urlaubsplanung oder Coding eingesetzt werden können.
Der Quellcode des Large Language Models ist (in weiten Teilen) unter der GPL-3.0-Lizenz verfügbar. Daneben steht AgentGPT auch als Service zur Verfügung.
Das Forscher-Team hinter FrugalGPT hat erkannt, dass nicht immer die größten und teuersten Sprachmodelle nötig sind, um bestimmte Fragen zu beantworten. Deshalb arbeitet sich der Algorithmus des Tools kaskadenartig durch eine ganze Liste von LLMs, bis er einen zufriedenstellenden Output gefunden hat.
Die Experimente der Forscher deuten darauf hin, dass dieser vorsichtige Ansatz nahezu 98 Prozent der Kosten für Large Language Models einsparen kann. (fm)
It's expensive to run many #LLM queries. We propose #FrugalGPT to optimize how we use LLMs. It can reduce your API bill by 50X while getting better results than #GPT4 ??
— James Zou (@james_y_zou) May 10, 2023
??key idea: learn LLM *cascade* to send certain queries to smaller LLMs (eg GPT-J) https://t.co/v9ojzUGpae ?? pic.twitter.com/jkcMTehqIg
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.