Teuken 7B – Das europäische GPT?
OpenGPT-X hat mit dem Open-Source-Modell Teuken 7B ein multilinguales, europäisches LLM (Large Language Model) vorgestellt. Doch was unterscheidet es von der Konkurrenz?
Dazu natürlich gleich vorweg: Teuken 7B ist kein Konkurrent von ChatGPT, das ist aber auch nicht das Ziel. Da dieser Beitrag durchaus technisch werden kann, empfehlen wir, zunächst unseren Einführungs-Beitrag „LLM – Eine Übersicht“ zu lesen, um mit dem Grundkonzept hinter Large Language Models vertraut zu sein.
OpenGPT-X ist ein in 2022 gegründetes europäisches Forschungs- und Entwicklungsprojekt, das vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) gefördert wird, um ein KI-Sprachmodell zu entwickeln, das an europäische Bedürfnisse, Werte und Datenschutzanforderungen angepasst ist.
Teuken 7B ist dabei das erste Ausrufezeichen, das gesetzt wurde. Das „7B“ in dem Namen steht dabei für die Parametermenge des Models, also 7 Milliarden (engl. 7 billion). Zum Vergleich mit den Giganten: bei ChatGPT-4 schätzt man die Parametermenge auf 1,8 Billionen (engl. 1,8 trillion), weshalb das Model auch so stark ist.
Der Vorteil von Modellen in den beliebten Größen 7B, 8B und 13B ist jedoch, dass diese deutlich weniger Power benötigen, um zu funktionieren. Modelle dieser Größenordnung können auch auf lokalen Geräten agieren und benötigen keine Cloud oder riesige Datenzentren. Damit eignen sich diese Modelle besonders für Forschung und Gewerbenutzung.
Was ist Teuken 7B?
Die erste Besonderheit von Teuken 7B ist das Training. Anders als vergleichbare Modelle wurde Teuken 7B von Grund auf trainiert und nicht als Variation eines anderen LLMs. Dadurch ist eine Basis garantiert, die Datenschutzrichtlinien respektiert, aber auch gegen eine Kannibalisierung und Monopolisierung von KI geschützt ist. Eine europäische KI eben.
Das zeigt sich auch am multilingualen Ansatz. Während fast alle LLMs nach dem Prinzip „Englische Daten -> Englische Ausgabe -> Übersetzung“ arbeiten, da der englische Datensatz im Internet der größte ist, hat OpenGPT-X Teuken 7B stattdessen mit Daten aus 24 europäischen Sprachen gefüttert, wobei Englisch zwar den größten Anteil ausmacht, jedoch weniger als 50%.
OpenGPT-X erklärt dabei auch offen die Schwierigkeiten dieser Art von Training:
„The limited availability of training and evaluation data for less widely spoken languages presented a major challenge. A considerable amount of our time was spent building evaluation datasets to fill these gaps.“
Diese Daten werden auch für zukünftige Entwicklungen sehr relevant sein. Es gibt viele Gründe, weshalb Englisch die Grundlage für KI-Daten darstellen muss. Man denke nur an die Vorherrschaft der Sprache im Internet, in der Forschung, aber auch in der Anwendung von LLMs. Doch das kratzt natürlich an der Qualität der anderssprachigen Ausgaben.
Wie kompetitiv ist Teuken 7B generell?
Die Entwicklung des LLMs hat einen riesigen und für deutsche Verhältnisse bisher unbekannten Aufwand erfordert, da es sich hierbei wie eingangs erwähnt nicht um eine optimierte Version von einem anderen LLM handelt, sondern um einen gänzlich neuen Datensatz mit neuer Technologie.
Diese neue Technologie betrifft vor allem die Art und Weise, wie das LLM mit dem Training und Abruf unterschiedlicher Sprachen umgeht. Für die Umsetzung wurden die 7 Milliarden Parameter mittels 512 NVIDIA A100 Grafikkarten trainiert und das JEWELS-System des JSC (Jülich Supercomputing Center) im Forschungszentrum Jülich sowie die HPC-Systeme (High Performance Computing) des Center for Information Services and High Performance Computing an der TU Dresden genutzt.
OpenGPT-X hat auf huggingface gleichzeitig ein „European Leaderboard“ auf Basis des „Open LLM Leaderboard“ erstellt, das sich die Performance spezifisch in den europäischen Sprachen ansieht. In solchen Ranglisten können Modelle miteinander verglichen und in verschiedenen Aufgaben bewertet werden.
Die erste Skepsis, dass man sich hier mit gewissen Parametern besser präsentieren möchte, als man eigentlich ist, lässt sich nicht bestätigen. Es wurden sehr branchenübliche Tests ausgewählt, die einen fairen Vergleich bieten.
In diesem schneidet Teuken 7B für Open Source-Modelle sehr kompetitiv ab. Dabei sei angemerkt, dass das Modell in spezifischen Benchmarks, wie in der von OpenGPT-X präsentierten Grafik, sogar manche Modelle mit größeren Parametern schlägt.
Nimmt man jedoch nur die ausgeblendeten Benchmarks GSM8K und MMLU dazu, die im European Leaderboard auch genutzt werden und für mathematische Problemlösungen und Multitasking-Sprachverständnis genutzt werden, dann ordnet sich das Modell eher im Mittelfeld an. Wir haben die Grafik also einmal um die Aspekte auf dem European Leaderboard ergänzt:
Dabei soll das die Innovation gar nicht schmälern. Man sieht, dass selbst dann Teuken 7B noch extrem nah dran ist. Metas Llama-3.1 ist mathematisch nur eben deutlich fähiger als die Konkurrenz.
Was ist besonders?
Viel relevanter ist jedoch, dass die Stärken von Teuken 7B in Aspekten außerhalb dieser Bandbreiten liegen. OpenGPT-X geht einerseits auf die Standardabweichung in verschiedenen Sprachen ein, die bei ihrem Modell deutlich niedriger sei:
Diese niedrigen Werte kann sonst ausschließlich Salamandra-7b erreichen. Das liegt daran, dass Salamandra-7b mit einer ähnlichen Prämisse auf Basis von 35 europäischen Sprachen trainiert wurde. In diesem Aspekt ist Teuken 7B also jetzt schon ganz vorne dabei.
Diese Standardabweichung ist gerade deshalb wichtig, da diese eine sehr gute Einschätzung darüber geben kann, wie gut ein LLM in anderen Sprachen funktioniert. Es gibt aktuell nun mal einen Grund, weshalb wir in unserer Prompt Engineering-Einführung dazu geraten haben, Mehrsprachigkeit und englische Prompts auszuprobieren, denn an dieser Front können gravierende Unterschiede entstehen.
Noch viel beeindruckender finden wir jedoch die Umsetzung der multilingualen Token-Technologie, die bei Teuken 7Bs Training eine große Rolle gespielt hat:
Teuken 7B schlägt in diesem Aspekt die gesamte Konkurrenz haushoch. Von der Innovation dieser KI profitieren vernachlässigte KI-Sprachen wie das Polnische oder Ungarische deutlich mehr, doch selbst bei deutschen Anfragen wird die benötigte Rechenleistung gegenüber den großen Konkurrenten halbiert. Damit werden Anfragen und die tägliche Nutzung des LLM deutlich günstiger.
Gerade hinsichtlich Energieverbrauch, aber auch ganz im Sinne der gewerblichen Anwendung in Produktdatenbanken, Firmen-Netzwerken oder als Prompt Interface hat Teuken 7B damit den ersten großen Schritt in Richtung effizienter nicht-englischer LLM-Technologie vollzogen.
Die Beschränkung auf die 7B-Parametergröße führt also vor allem in deren wichtigsten Aspekt, der Effizienz, zu einem Durchbruch. Zwar geht OpenGPT-X auch darauf ein, dass dieses Modell mit der Zeit und technischem Fortschritt überholt werden wird, der vorhandene Tech Stack und die Forschungsarbeit ist aber eine gute Grundlage.
Wir sind also gespannt, wohin der Weg für Teuken gehen wird. Das Modell kann ein Wegbereiter in die europäische KI-Zukunft sein, das nicht nur unseren Ansprüchen gerecht wird, sondern effizienter als die internationale englische Konkurrenz sein kann. Man sollte OpenGPT-X und ihren Fortschritt also weiterhin verfolgen.
Teuken 7B ist auf huggingface per Download in zwei Versionen kostenlos verfügbar. Da wäre einerseits die hier präsentierte Forschungs-Version, sowie eine Version für die kommerzielle Nutzung.