Large Language Models

13 GPT-Alternativen

16.07.2024
Von 
Peter Wayner schreibt unter anderem für unsere US-Schwesterpublikation InfoWorld.com und ist Autor verschiedener Bücher - unter anderem zu den Themen Open Source Software, autonomes Fahren und digitale Transaktionen.
Diese Large Language Models zeigen: Generative AI ist mehr als nur (Chat)GPT.
Large Language Models bilden die Grundlage für Generative-AI-Systeme. Diese 13 Sprachmodelle sollten Sie abseits von OpenAIs GPT kennen.
Large Language Models bilden die Grundlage für Generative-AI-Systeme. Diese 13 Sprachmodelle sollten Sie abseits von OpenAIs GPT kennen.
Foto: atdigit - shutterstock.com

ChatGPT ist für viele zum Synonym für generative künstliche Intelligenz (KI) geworden. Doch OpenAIs Vorzeigeprojekt ist nicht das einzige hochwertige Tool, das auf Large Language Models (LLMs) fußt - und für manche Softwareprojekte auch nicht die beste Wahl.

So gut wie alle LLMs haben Schwächen, die sich allerdings erst im weiteren Verlauf ihres Einsatzes zeigen. Quelloffene Large Language Models können in diesem Zusammenhang ein echtes Geschenk für Ihr Unternehmen sein - vorausgesetzt, Sie sind in der Lage, diese auch auszurollen und zu betreiben.

13 Large Language Models, die nicht GPT sind

Im Folgenden werfen wir einen Blick auf 13 Alternativen zu GPT - dem LLM hinter ChatGPT. Die folgenden großen Sprachmodelle können Ihr Generative-AI-Projekt möglicherweise entscheidend voranbringen. Der einzige Weg, sicherzugehen: Füttern Sie sie mit Ihren Prompts und werten Sie die Ergebnisse sorgfältig aus.

Llama

Facebook - beziehunsgweise Meta - hat dieses Foundational Large Language Model erstellt und dann im Rahmen seines erklärten "Engagements für offene Wissenschaft" veröffentlicht. Llama steht kostenlos zum Download zur Verfügung und eignet sich als Grundlage, um feiner abgestimmter Modelle für spezifische Use Cases zu entwickeln.

Das LLM steht zudem in vier verschiedenen Größen zur Verfügung (7B, 13B, 33B, 65B). Die kleinste Version mit "nur" 7 Milliarden Parametern wird bereits für diverse, auch eher ungewöhnliche Zwecke eingesetzt. Ein Entwickler betreibt Llama gar auf einem Raspberry Pi mit lediglich 4GB RAM.

Alpaca

Wissenschaftler der Univserität Stanford haben Llama (7B) auf eine Reihe spezifischer Prompts trainiert, die anweisungsgebundene Modelle wie ChatGPT imitieren. Das Ergebnis dieses Feintunings heißt Alpaca 7B - ein Large Language Model, das das in Llama kodierte Wissen für den Ottonormal-User über NLP-Anweisungen zugreifbar macht. Schätzungen zufolge lässt sich dieses leichtgewichtige LLM mit Hardware im Wert von weniger als 600 Dollar betreiben.

Der Trainingsdatensatz und der Quellcode von Alpaca 7B steht zur freien Verfügung. Sie können das Modell nach Belieben duplizieren - oder ein neues Modell auf seiner Grundlage erstellen.

Vicuna

Ein weiterer Abkömmling von Llama ist Vicuna. Das Team hinter dem LLM-Projekt sammelte Trainingsdaten in Form von 70.000 ShareGPT-Konversationen. Dabei legte das Team besonderes Augenmerk auf mehrstufige Interaktionen und Funktionen, um Anweisungen zu befolgen.

Erhältlich in zwei verschiedenen Größen (Vicuna-13b oder Vicuna-7b), gehört dieses Large Language Model zu den kostengünstigsten, offenen GPT-Alternativen.

NodePad

Die Art und Weise, wie große Sprachmodelle "sprachlich korrekten" Text erzeugen, ist nicht jedermanns Sache. Die Schöpfer von NodePad sind etwa der Meinung, dass LLMs mit glänzenden Benutzeroberflächen dazu verleiten, den Output für bare Münze zu nehmen.

Deswegen ist das LLM NodePad darauf konzipiert, Experimente und Ideation zu fördern. Dazu stellt es die Ergebnisse nicht als ausformulierten Text, sondern in Form von Knoten und Verbindungen dar - ähnlich wie ein Mind-Mapping-Tool.

Orca (PDF)

Große Sprachmodelle der ersten Generation wurden im Laufe der Zeit immer größer. Diesen Trend kehrt ein Research-Team von Microsoft mit Orca um: Dieses Large Language Model verwendet "nur" 13 Milliarden Parameter und läuft so auch auf durchschnittlichen Rechnern. Das erreichten die Entwickler des Sprachmodells, indem sie seinen Trainingsalgorithmus optimiert haben.

Statt die KI einfach nur mit Rohdaten zu füttern, wurde Orca mit einem Datensatz trainiert, der speziell darauf ausgelegt war, zu lehren. Und es sieht ganz danach aus, als würden KI-Instanzen - ähnlich wie Menschen - schneller lernen, wenn sie nicht einfach ins kalte Wasser geworfen werden. Zumindest haben die Microsoft-Forscher Benchmarks vorgelegt, die darauf hindeuten, dass Orca ebenso gut performt, wie wesentlich größere Sprachmodelle.

Jasper

Das Ziel der Schöpfer von Jasper war es nicht, einen weisen LLM-Generalisten zu bauen. Vielmehr wollten sie eine Maschine erschaffen, um zielgerichtet ganz spezifische Inhalte zu generieren.

Deswegen bietet Jasper auch kein Interface im ChatGPT-Stil, sondern stellt mehr als 50 verschiedene Templates für diverse Tasks zur Verfügung - etwa Immobilienangebote oder Produktbeschreibungen. Die kostenpflichtigen Versionen dieses LLM adressieren speziell solche Unternehmen, die Wert auf konsistente Marketing-Texte legen.

Claude

Mit Claude hat Anthropic einen hilfreichen KI-Assistenten geschaffen, der diverse textbasierte Aufgaben im Unternehmensumfeld übernehmen kann - von der Recherche bis hin zum Kundendienst. Dabei lässt Anthropic bewusst lange Prompts zu, um komplexere Anweisungen zu fördern und den Benutzern mehr Kontrolle über die Outputs zu ermöglichen. Zwei Versionen von Claude (PDF) stehen derzeit zur Verfügung:

  • das vollständige Modell Claude-v1 und

  • eine abgespeckte, kostengünstigere Version namens Claude Instant.

Erstere eignet sich für Tasks, die eine komplexere, strukturierte Argumentation erfordern. Die Instant-Variante ist hingegen schneller und eignet sich simplere Aufgaben wie Klassifizierung und Moderation.

Cerebras

Wenn spezialisierte Hardware und General LLM gemeinsam entwickelt werden, kann eine schnelle und effiziente Lösung entstehen - wie Cerebras.

Dieses Large Language Model steht auf Hugging Face in einer Vielzahl von Größen zur Verfügung, von klein (111 Millionen Parameter) bis groß (13 Milliarden Parameter) - für diejenigen, die das Modell lokal betreiben möchten. Die meisten User dürften sich allerdings für die Cloud Services interessieren, die auf den integrierten Wafer-Scale-Prozessoren von Cerebras laufen. Sie sind darauf optimiert, große Mengen von Trainingsdaten zu durchforsten.

Falcon

Das Falcon LLM wurde am Technology Innovation Institute in den Vereinigten Arabischen Emiraten erstellt und steht in zwei Größen zur Verfügung (Falcon-40b und Falcon-7b). Trainiert wurde das große Sprachmodell mit einem riesigen Satz allgemeiner Beispiele aus dem RefinedWeb - wobei der Schwerpunkt darauf lag, die Inferenz zu optimieren.

Anschließend wurde das Modell mit Apache 2.0 veröffentlicht. Seither gilt es dank seiner Quelloffenheit und geringen Restriktionen als eines der besten Large Language Models, um zu experimentieren.

ImageBind

Meta ist nicht nur ein Social-Media-Gigant, sondern auch eine Macht im Bereich der Open-Source-Softwareentwicklung. Im Zuge des anhaltenden KI-Booms überrascht es daher nicht, dass das Unternehmen viele seiner hauseigenen Innovationen nun mit der Öffentlichkeit teilt. ImageBind ist ein solches Projekt. Das Large Language Model soll beweisen, dass KI auch viele verschiedene Datentypen auf einmal erstellen kann - in diesem Fall Text, Audio und Video.

Gorilla

Wahrscheinlich haben Sie schon den ein oder anderen Artikel zum Thema Programmieren mit Generative AI gelesen. Die Ergebnisse sind oberflächlich betrachtet oft beeindruckend - erst bei näherer Betrachtung zeigt sich, wie fehlerbehaftet sie sind: Die Syntax mag zwar korrekt sein, aber die API-Calls sind es nicht oder beziehen sich auf eine Funktion, die gar nicht existiert. Gorilla ist ein Large Language Model, das darauf ausgelegt ist, Programmierschnittstellen besser zu händeln.

Das Sprachmodell basiert ebenfalls auf Metas Llama - wurde allerdings nachträglich mit einem Fokus auf tiefgehendere Programmierarbeit optimiert. Darüber hinaus bietet das Team hinter dem Gorilla-LLM auch eine Reihe eigener API-zentrierter Benchmarks zu Testzwecken an.

AgentGPT

Ein weiteres LLM-Tool, das Entwickler bei ihrem Schaffen unterstützt, ist AgentGPT. Es wurde entwickelt, um Agenten aufzusetzen, die wiederum für Aufgaben wie Urlaubsplanung oder Coding eingesetzt werden können.

Der Quellcode des Large Language Models ist (in weiten Teilen) unter der GPL-3.0-Lizenz verfügbar. Daneben steht AgentGPT auch als Service zur Verfügung.

FrugalGPT

Das Forscher-Team hinter FrugalGPT hat erkannt, dass nicht immer die größten und teuersten Sprachmodelle nötig sind, um bestimmte Fragen zu beantworten. Deshalb arbeitet sich der Algorithmus des Tools kaskadenartig durch eine ganze Liste von LLMs, bis er einen zufriedenstellenden Output gefunden hat.

Die Experimente der Forscher deuten darauf hin, dass dieser vorsichtige Ansatz nahezu 98 Prozent der Kosten für Large Language Models einsparen kann. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.