LLM – Eine Übersicht
Eine Übersicht über den aktuellen Stand von LLM (Large Language Model) und Unterschieden zwischen Modellen
Dieser Beitrag ist ein Teil unserer Einführungsserie zum Thema „Künstliche Intelligenz und LLMs“.
Wie funktioniert ein LLM (Large Language Model)?
Ein Large Language Model (LLM) ist ein komplexes neuronales Netzwerk, das für die Verarbeitung und Generierung menschlicher Sprache konzipiert ist. Der Trainingsprozess basiert auf dem Durcharbeiten enormer Textmengen, wobei das Modell Sprachmuster, Zusammenhänge und Wahrscheinlichkeiten lernt. Dadurch kann es Texte generieren und kontextuelle Zusammenhänge erkennen.
In der Regel basiert ein LLM auf einem Transformer-Modell, das verschiedene Sprachschichten analysiert, um lokale und globale Kontexte zu erfassen. Diese Funktionalität ermöglicht LLMs, Wörter und Sätze zu verstehen und zu erstellen, sodass sie eine Bandbreite von Aufgaben und Fragen beantworten können.
Einfach ausgedrückt: Ein LLM versucht, die Antwort mit der höchsten Wahrscheinlichkeit zu geben, die dem menschlichen Erwartungsbild entspricht. Wenn jemand ein Rezept für einen Apfelkuchen sucht, generiert das Modell kein Gedicht oder ein Sahnetortenrezept, sondern eine passende Anleitung. Da LLMs auf Wahrscheinlichkeiten beruhen, fehlt ihnen die Fähigkeit, selbstständig Emotionen zu empfinden oder originelle Ideen zu entwickeln – das bleibt außerhalb ihres programmatischen Rahmens.
Die erstaunliche Fähigkeit der LLMs, auf unterschiedliche Anfragen zu reagieren, erscheint wie „Magie“. Doch auch sie haben Grenzen: Wenn ein Thema zu spezialisiert ist oder die Wissensdatenbank eingeschränkt ist, kann das LLM eine Antwort erfinden, um der Anfrage gerecht zu werden – ein Risiko für die Zuverlässigkeit. Präzisere Anfragen und eine größere Datenbasis verbessern die Genauigkeit der Antworten.
Dieser technologische Stand entwickelt sich stetig weiter. Während LLMs wie ChatGPT anfangs nur auf gespeicherte Wissensinhalte zugreifen konnten, können sie inzwischen auch im Internet recherchieren, Quellen angeben, Bilder aus Textanfragen generieren oder hochgeladene Dokumente wie PDFs und Excel-Dateien analysieren.
Was sind die Anwendungsmöglichkeiten?
LLMs bieten vielfältige Einsatzmöglichkeiten: Sie erleichtern Routineaufgaben wie das Verfassen von E-Mails, das Zusammenfassen von Dokumenten oder die Berichterstellung. Auch bei Übersetzungen, Transkriptionen oder der Analyse von Stimmungen in Texten sind sie hilfreich.
Ein wachsendes Feld ist der Kundenservice: Durch Integration in Chatbots können LLMs Kundenfragen in natürlicher Sprache beantworten. In Forschung und Wissensmanagement unterstützen sie durch die Analyse umfangreicher Datenmengen und bieten schnellen Zugriff auf relevante Informationen. Ihre Flexibilität ermöglicht den Einsatz in vielen Bereichen, um Effizienz und Produktivität im Arbeitsalltag zu steigern.
LLMs können zudem als „Lehrer“ fungieren, indem sie auf Anfrage Wissen vermitteln und auf Fragen eingehen. Lässt man ein LLM auf ein Dokument zugreifen, kann es auf spezifische Seiten verweisen und Informationen gezielt herausgeben, was eine neue Art der Wissensvermittlung darstellt.
Auch beim Schreiben von Artikeln können LLMs unterstützen. Sie vereinfachen die Erstellung von Texten in verschiedenen Sprachen und die Extraktion von Inhalten aus Dokumenten. Der Einsatz im Büroalltag lässt sich daher in Routine- und Spezialaufgaben unterteilen: Die Routine umfasst Aufgaben wie das Schreiben und Zusammenfassen, während Spezialaufgaben die Analyse von Excel-Tabellen oder die Erstellung von Code umfassen.
Die verschiedenen Modelle in der Übersicht
Zunächst sollte einmal zwischen dem grundsätzlichen LLM und den darauf aufbauenden Tools getrennt werden. Die spezialisierten KI-Tools werden in einem seperaten Beitrag besprochen. Genauso ist es schwer, zu urteilen, was nun „das beste Modell“ ist, da diese teils für unterschiedliche Zwecke entwickelt wurden und die Bewertung der Qualität ein ganz eigenes Thema ist.
GPT
Das wohl bekannteste LLM ist GPT von OpenAI, das mit seiner Multimodalität erst das Interesse der breiten Öffentlichkeit geweckt hat. Da dieser Begriff noch öfter auftauchen wird: Multimodale LLMs sind dazu in der Lage, mit unterschiedlichsten Inputs umzugehen und damit menschliche Gespräche zu imitieren.
Das virale Modell zu Beginn des Hypes war GPT-3.0, das mit GPT-3.5 eine leistungsstärkere Premium-Version bereithielt. Heute ist das LLM dazu in der Lage, Erweiterungen zu nutzen, Dateien zu lesen und sich mit anderen KI-Tools von OpenAI wie dem Bildgenerator DALL-E zu verknüpfen. Derweil steht aktuell Version GPT-4o in den Startlöchern und Gratis-Nutzer können begrenzt auf die besseren Modellversionen zugreifen.
Durch die immer weiter verbesserte Multimodalität kann GPT inzwischen auch mit Audio und Video hantieren. OpenAI ist damit also am oberen Ende der Entwicklung. Die enge Partnerschaft mit Microsoft ist dafür sicherlich ein Faktor gewesen.
In LLM-Kreisen sind die internen Probleme von OpenAI seit dem KI-Hype längst zu einem größeren Thema geworden. Auch die New York Times hat jüngst darüber berichtet: „Microsoft and OpenAI’s Close Partnership Shows Signs of Fraying„. Hintergründe sind u.a. OpenAIs Wandel vom gemeinnützigem Ziel als Non-Profit (deswegen auch „Open“ AI) zum profitorientierten Unternehmen, interne Machtveränderungen und dem Abbau von Stellen, die sich um die ethischen Bedenken der KI-Weiterentwicklung kümmern sollten.
Nichtsdestotrotz ist GPT immer noch ein mächtiger Vertreter auf dem Markt, der gerade in Drittanbieter-Programmen zu einem mächtigen Werkzeug werden kann. Ganz so eindeutig wie zu Beginn des KI-Hypes ist die Führung von OpenAI jedoch lange nicht mehr.
Gemini
Die von Google entwickelte Konkurrenz Gemini ist eine Antwort auf GPT und wird mal als besser, mal als schlechter als GPT eingeschätzt. Dieser Vergleich hängt immer vom aktuellen Status Quo der Modellversionen ab. Gemini kann generell mit größeren Kontexten als GPT umgehen und liegt bei großen Datenmengen häufig vorne.
Google setzt vor allem auf die Integration von Gemini in vorhandene Programme. Nach dem Motto „Implement first, optimise later“ hat es Google geschafft, KI deutlich schneller anwendbar in Gmail, Google Docs oder in der Entwicklung zu machen.
Vielleicht wird einigen schon aufgefallen sein, dass Google auch in der bekannten Suche versucht, KI effektiv zu nutzen, um die passende Antwort auf Fragen zu finden, ohne dass Nutzer auf externe Links klicken müssen. Dies funktioniert bisher jedoch nur lückenhaft bis schlecht.
Trotzdem arbeitet Google weiter an der Integration. Vor einer Woche wurde Gemini in Google Maps vorgestellt, das einem nicht nur intelligent Vorschläge machen kann, sondern Spurdaten analysiert und Bilder von Sehenswürdigkeiten an Tageszeiten und Wetterbedingungen anpasst.
Gemma
Gemma ist die offene Variante, auf der Gemini basiert. Das bedeutet stark vereinfacht, dass Entwickler nicht nur die ausentwickelte Version nutzen können, sondern offenen Zugang zum Code und damit die Möglichkeit zur individuellen Anpassung besitzen.
Für Unternehmen kann dies besonders interessant sein, da solche offenen Modelle auch ohne Internetzugang (und damit ohne Datenfreigabe) sicher und datenschutzkonform genutzt werden können.
Dafür ist Gemma an sich natürlich nicht mehr multimodal. Gemma wird jedoch als Grundlage für zahlreiche KI-Tools genutzt. Gemma gibt es ebenfalls in verschiedenen Ausführungen und wird parallel zu Gemini weiterentwickelt.
LLaMA
Das offene Modell von Meta (ehem. Facebook) ist ebenfalls ein Open-Source-Modell, das sich individuell anpassen lässt. LLaMA ist dabei gerade bei Hobbyentwicklern sehr beliebt, da es anders als Gemini dennoch funktional als Chatbot ausgelegt ist.
Daher eignet sich LLaMA gerade als Einstieg in die eigene Entwicklung. Es gibt außerdem diverse modifizierte LLaMA-Versionen, die von Drittunternehmen für Wünsche von Unternehmen angepasst werden können.
Als relevantestes Open Source-Modell kann LLaMA für unterschiedlichste Zwecke genutzt werden. Es gibt Nutzungsbedingungen, die gewisse Arten der Nutzung untersagen, aber der Code ist grundsätzlich öffentlich verfügbar.
Claude
Das von der Firma Anthropic entwickelte Claude ist die letzte relevante Konkurrenz zu den multimodalen Modellen GPT und Gemini. Anthropic hat sich aus Ex-OpenAI-Entwicklern gebildet und setzt auf eine Weiterentwicklung des Modells nach ethischen Maßstäben.
Das hält Claude nicht davon ab, ganz nah an den großen Vertretern dran zu sein. Mit Amazon haben sie auch einen starken Interessenspartner, der jedoch anders als Microsoft bei OpenAI nicht in das Unternehmen selbst eingreift. Dazu sei auch gesagt, dass Anthropic ebenfalls ein For-profit-Modell verfolgt.
Claude ist erst seit einem halben Jahr auf dem europäischen Markt aktiv, ist aber genau wie GPT DSGVO-konform und damit eine Alternative für diejenigen, die zwar kein eigenes, lokales Tool benötigen, jedoch OpenAI oder Google nicht unterstützen wollen und das je nach Anwendungsgebiet etwas schlechter, gleich gut oder sogar besser ist. Claude besitzt auch Modelle, die spezifisch auf Unternehmenslösungen zugeschnitten sind.
Command
Command, das LLM der kanadischen Firma Cohere, ist ein spezifisch auf Unternehmen mit Customer Service ausgelegtes LLM, das sich vor allem auf kluge Chatbots konzentriert. Mit Firmen wie Oracle oder Salesforce haben sie bereits einige Kunden, die ihr LLM effektiv nutzen.
Damit ist dieses LLM vor allem dafür gedacht, Kundenfragen zu beantworten und eine gute Customer Experience bereitzustellen. Für Unternehmen, die genau so etwas suchen, ist Command aber definitiv einen Blick wert.
Falcon
Dieses LLM hat vor allem durch gutes Abschneiden in diversen LLM-Vergleichen Aufmerksamkeit erzeugt. Das von dem Technology Innovation Institute (TII) entwickelte LLM ist Open-Source und spezialisiert sich auf kommerzielle Nutzung sowie offene KI-Forschung. Falcon stellt dabei die Spitze der KI-Innovation der Vereinigen Arabischen Emirate dar.
Tatsächlich verfolgt das Modell jedoch in einigen Versionen einen überaus offenen Ansatz unter der Apache 2.0-Lizenz und gibt seine Patente frei. Selbst gewählte Konkurrenz des TII sind daher auch nicht GPT oder Gemini, sondern z.B. LLaMA und liegt in unabhängigen Tests oft vor diesem.
Das sehr entwickler- und konsumentenfreundliche Modell von Falcon hat jedoch auch einen ethischen Haken. Falcon wird auch wegen der Entwicklung von Gesichtserkennungssoftware offen betrieben und der technologische Fortschritt wurde nach Berichten von z.B. Le Monde auch auf Basis der laschen Sicherheitsbedenken und Arbeitsrechte sowie niedrigen Energiekosten in den VAE entwickelt. Falcon würde danach eine Antwort autoritäter Regime auf die westlichen KI-Durchbrüche sein.
Abgesehen von dem ethischen Aspekt weist Falcon zum Zeitpunkt dieses Beitrags jedoch auch geringere Kontextgrößen als die Konkurrenz auf und ist damit nur für spezifische Forschung und Nutzung wirklich der Best-Case.
DBRX
Der Nachfolger der Mosaic AI, DBRX, der gemeinsam von den Mosaic-Entwicklern und der Firma Databricks entwickelt wurde, ist in vielen Aspekten mit Falcon vergleichbar, stammt jedoch aus den USA. Auch hier ist LLaMA der erwählte Konkurrent, denn hierbei handelt es sich ebenfalls um ein Open-Source-Modell.
Zum Zeitpunkt der Veröffentlichung des Modells im März 2024 war es das ziemlich eindeutig stärkste Open-Source-Modell, inzwischen ist dies aber eher fraglich. Es lässt sich von der Power jedoch sehr gut mit GPT-3.5 vergleichen, der stärkeren Version des damals gehypten ChatGPTs.
Damit ist DBRX sicherlich aktuell nicht das mächtigste Werkzeug, interessant ist dabei jedoch, dass es auf Basis von Mosaic entwickelt wurde und damit eine ganz eigene Architektur im Vergleich zur sonst eher vorherrschenden LLaMA basierten KI besitzt. Es bleibt damit abzuwarten, ob DBRX nicht nach dem ein oder anderen Update wieder ganz vorne mitspielen kann, immerhin ist der LLM-Markt sehr schnelllebig.
Mixtral
Dieses LLM der Firma Mistal aus Frankreich lässt sich auf dem ersten Blick gut mit Falcon und DBRX vergleichen. Es ist ein Open-Source-Modell, das in gewissen Parametern LLaMA und sogar GPT schlägt. Es läuft ebenfalls über die Apache 2.0-Lizenz und ist damit kostenfrei und vielfältig kommerziell einsetzbar. Der Schein trügt jedoch etwas.
Mixtral nutzt einen ganz anderen Ansatz, indem es je nach Anwendung andere „Experts“ nutzt und somit Aufgabenbereiche spezifisch sozusagen mit eigens entwickelten Unter-LLMs abdeckt. Dieser Ansatz hat schon dazu geführt, dass man mit Mistral NeMo gemeinsam mit NVIDIA eine GPT-Konkurrenz entwickelt hat.
Mixtral soll dahingehend das „best of most worlds“ sein. Für manche Anwendungen wird es nicht gut geeignet sein, in manchen ist es besser als die geschlossene Konkurrenz. In einem Bereich hat es jedoch aufgrund des eigenen Ansatz die Nase vorn: Mixtral ist wohl die aktuell effizienteste KI und extrem schnell und auch fähig, auf schlechter Hardware zu laufen.
Phi-3
Wie sind wir denn wieder bei Microsoft gelandet? Hat Microsoft sich nicht groß an GPT beteiligt? Richtig. Aber hier ist ein weiteres offenes Modell mit einem ganz spezifischen Use Case, das von Microsoft selbst entwickelt wurde.
Phi-3 macht etwas ganz anderes als GPT. Es ist Open-Source, kein Chatbot, aber kann sehr gut mit Sprache umgehen. Es ist außerdem sehr klein und sehr effizient. Die verschiedenen Modelle der Phi-3-Familie dienen daher vor allem der günstigen Sprach-Integration.
Grok
Zu guter Letzt kommen wir bei Grok an, das nur der reinen Vollständigkeit hier aufgelistet ist, da man davon schon einmal gehört haben könnte. Grok wurde von xAI entwickelt, einer von Elon Musk gegründeten Firma, und mit Daten von X (ehemals Twitter) trainiert.
Grok ist geschlossen, es gibt jedoch offene Beta-Modelle. Grok hält mit der geschlossenen Konkurrenz der Tech-Größen überhaupt nicht mit und hat zumindest gegen die aktuellen Modelle auf dieser Liste gänzlich das Nachsehen. Ob Grok diese große Lücke jemals aufholt, ist fraglich, daher ist es weder für Unternehmen noch für eine private Nutzung zu empfehlen.
Was ist in der Zukunft zu erwarten?
Aufgrund der zahlreichen Use Cases sind viele LLMs aufgetaucht, die einen stetigen Konkurrenzkampf betreiben. Doch auch Apple, Amazon, NVIDIA, IBM und Intel arbeiten nach eigenen Angaben an weiterer Konkurrenz für OpenAI, Google, Meta und Co.
Diese Modelle stellen jetzt schon das Grundgerüst für viele Selbstverständlichkeiten dar, und werden in Zukunft vor allem hinsichtlich Effizienz (z.B. bei lokaler Nutzung auf einem Smartphone) oder spezifischen Aufgaben weiter hochspezialisiert werden, denn der Haken an der KI-Entwicklung sind die enormen Kosten.
Daher ist es nicht verwunderlich, dass auch die offenen Modelle von großen Unternehmen profitieren, die sie unterstützen. Firmen wie OpenAI streben außerdem weiter nach einer AGI (Artificial General Intelligence), die die Multimodalität auf die Spitze treibt und nicht mehr mit anderen KI-Modellen, sondern mit dem Menschen konkurrieren soll.
Wenn das nun die ersten Existenzängste ausgelöst hat, funktioniert ihre Strategie. Fakt ist jedoch, dass es bis dahin noch ein sehr weiter Weg ist und auch LLMs natürlich viele Grenzen haben. Man kann jedoch gespannt sein, wohin der Weg genau gehen wird und welche Modelle in einem Jahr die Nase vorn haben werden.