Large Language Models Tutorial

5 Wege, LLMs lokal auszuführen

13.05.2024
Von 
Sharon Machlis ist Director of Editorial Data & Analytics bei Foundry. Sie ist darüber hinaus Autorin von "Practical R for Mass Communication and Journalism".

Weitere Wege zum lokalen LLM

Es gibt weitere Möglichkeiten, Large Language Models auf lokaler Ebene auszuführen - von der fertigen Desktop-App bis hin zum DIY-Skript. Eine kleine Auswahl:

Jan

Dieses relativ junge Open-Source-Projekt zielt darauf ab, den Zugang zu künstlicher Intelligenz mit "offenen, lokal ausgerichteten Produkten" zu demokratisieren. Die App ist einfach herunterzuladen und zu installieren, das Interface bietet eine gute Balance zwischen Anpassbarkeit und Benutzerfreundlichkeit. Auch Modelle auszuwählen geht mit Jan intuitiv vonstatten. Über den im untenstehenden Screenshot abgebildeten Hub des Projekts stehen mehr als 30 KI-Modelle zum Download zur Verfügung - weitere lassen sich (im GGUF-Format) importieren. Sollte Ihr Rechner für bestimmte LLMs zu schwach auf der Brust sein, sehen Sie das bereits bei der Modellauswahl im Hub. Auch wenn nicht genug Arbeitsspeicher zur Verfügung steht (oder knapp wird), erhalten Sie eine entsprechende Meldung.

Ein Blick auf den Modell-Hub des Jan-Projekts.
Ein Blick auf den Modell-Hub des Jan-Projekts.
Foto: Sharon Machlis | IDG

Die Chat-Oberfläche von Jan enthält auf der rechten Seite einen Bereich, in dem Sie Systemanweisungen für das LLM festlegen und Parameter anpassen können. Ausreichend RAM vorausgesetzt, werden die Outputs relativ flott gestreamt. Mit Jan dürfen Sie übrigens nicht nur lokal arbeiten, sondern auch OpenAI-Modelle aus der Cloud nutzen. Darüber hinaus lässt sich das Tool für die Arbeit mit Remote- oder lokalen API-Servern konfigurieren.

Die Chat-Oberfläche von Jan ist detailliert und einfach zu benutzen.
Die Chat-Oberfläche von Jan ist detailliert und einfach zu benutzen.
Foto: Sharon Machlis | IDG

Die Projektdokumentation von Jan ist noch etwas spärlich (Stand April 2024). Nur gut, dass das Gros der Anwendung intuitiv zu bedienen ist. Ein entscheidender Vorteil von Jan gegenüber LMStudio ist, dass Jan unter der AGPLv3-Lizenz als Open Source Software verfügbar ist. Somit ist eine uneingeschränkte kommerzielle Nutzung erlaubt, solange alle abgeleiteten Werke ebenfalls quelloffen sind. Jan ist für Windows, macOS und Linux verfügbar.

Nvidia ChatRTX

Die Nvidia-Demoanwendung ChatRTX wurde entwickelt, um Fragen zu Dokumentenverzeichnissen zu beantworten. Seit dem Start im Februar 2024 nutzt das Tool wahlweise das Mistral- oder das Llama-2-LLM auf lokaler Basis. Die Hardware-Voraussetzungen: Ein Windows-PC mit GPU (Nvidia-Geforce-RTX-30-Serie oder höher) und mindestens 8 GB Video-RAM. Bei einer Download-Größe von 35 GB ist außerdem eine robuste Internetanbindung zu empfehlen. Sind die Voraussetzungen erfüllt und die Applikation entpackt, bietet ChatRTX ein simples Interface, das einfach und intuitiv zu bedienen ist.

Das Interface von Nvidias ChatRTX.
Das Interface von Nvidias ChatRTX.
Foto: Sharon Machlis | IDG

Wählen Sie ein LLM und den Pfad zu Ihren Dateien aus, warten Sie darauf, dass die Anwendung Einbettungen für Ihre Dateien erstellt - Sie können diesen Vorgang im Terminalfenster verfolgen - und stellen Sie dann Ihre Frage. Die Antwort enthält Links zu den Dokumenten, die das Modell verwendet hat, um seinen Output zu generieren. Die Nvidia-App unterstützt derzeit .txt-, .pdf- und .doc-Dateien sowie YouTube-Videos (über eine URL).

Eine ChatRTX-Sitzung mit Links zu Quelldokumenten.
Eine ChatRTX-Sitzung mit Links zu Quelldokumenten.
Foto: Sharon Machlis | IDG

Beachten sollten Sie dabei, dass die Anwendung keine Unterverzeichnisse durchsucht - Sie müssen also alle relevanten Dateien in einem Ornder ablegen. Wenn Sie dem Verzeichnis weitere Dokumente hinzufügen möchten, klicken Sie auf die Aktualisierungs-Schaltfläche oben rechts neben dem Datensatz, um die Einbettungen neu zu generieren

llamafile

Mozillas llamafile ermöglicht es Entwicklern, kritische Teile großer Sprachmodelle in ausführbare Dateien zu verwandeln. Dazu gehört auch eine Software, mit der LLM-Dateien im GGUF-Format heruntergeladen, importiert und in einem lokalen Chat-Interface im Browser ausgeführt werden können.

Um llamafile auszuführen, laden Sie die aktuelle Serverversion herunter mit (siehe README):

curl -L https://github.com/Mozilla-Ocho/llamafile/releases/download/0.1/llamafile-server-0.1 > llamafile

chmod +x llamafile

Anschließend laden Sie ein Modell Ihrer Wahl herunter. Für diesen Artikel haben wir uns für Zephyr entschieden und eine Version von Hugging Face heruntergeladen (Link führt direkt zum GGUF-Download). Nachdem das erledigt ist, führen Sie das Modell aus mit:

./llamafile --model ./zephyr-7b-alpha.Q4_0.gguf

Öffnen Sie es nun in Ihrem Browser unter http://127.0.0.1:8080. Sie sehen einen Eröffnungsbildschirm mit verschiedenen Chat-Optionen:

Sobald Sie eine Abfrage eingeben...
Sobald Sie eine Abfrage eingeben...
Foto: Sharon Machlis / IDG
...verwandelt sich der Startbildschirm in ein simples Chatbot-Interface.
...verwandelt sich der Startbildschirm in ein simples Chatbot-Interface.
Foto: Sharon Machlis / IDG

Während llamafile auf meinem Mac extrem einfach zum Laufen zu bringen war, stießen wir unter Windows auf einige Probleme. Wie ollama ist auch llamafile nicht die erste Wahl, wenn es um Plug-and-Play-Software für Windows geht.

LocalGPT

Dieser Ableger von PrivateGPT bietet mehr Modelloptionen und stellt darüber hinaus detaillierte Anleitungen zur Verfügung. Auf Youtube ist außerdem ein 17-minütiger Video-Walkthrough abrufbar.

LM Studio

Eine weitere Desktop-Anwendung, die wir angetestet haben, ist LM Studio. Sie zeichnet sich durch eine benutzerfreundliche, simple Chat-Oberfläche aus. Geht es um die Modellauswahl, sind Sie allerdings auf sich gestellt. Dass der Hugging Face Hub als Hauptquelle für Modell-Downloads innerhalb von LM Studio dient, macht die Sache nicht besser, denn die Auswahl ist überwältigend.

LangChain

Eine weitere Option: Large Language Models für die lokale Verwendung über das Open-Source-Framework LangChain herunterzuladen. Das erfordert jedoch Programmierkenntnisse in Zusammenhang mit dem LangChain-Ökosystem.

Wenn Sie damit vertraut sind, sollten Sie sich folgende Ressourcen für den lokalen LLM-Betrieb genauer ansehen:

Bei OpenLLM handelt es sich um eine eigenständige Plattform, die entwickelt wurde, um LLM-basierten Applikationen in der Produktion bereitzustellen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.