Mistral 7B: Ehemalige Google- und Meta-Angestellte machen Llama 2 Konkurrenz

Mistral 7B versucht den KI-Modellen von Meta den Rang abzulaufen. Das Modell ist Open Source, die Trainingsmethode und -daten sind jedoch unbekannt.

4

(Bild: The Viz / Shutterstock.com)

09.10.2023, 16:21 Uhr

Lesezeit: 6 Min.

iX Magazin

Von

Danny Gerst

Mit Mistral 7B gibt es ein neues Large Language Modell (LLM), das trotz seiner relativ geringen Größe von 7,3 Milliarden Parametern größere Modelle in zahlreichen Tests schlagen konnte. Es ist vollständig Open Source und steht unter der Apache-2.0-Lizenz. Der Entwickler, das französische KI-Start-up Mistral AI, hat die KI-Szene im Juni dieses Jahres mit einer Kapitalaufnahme von weiteren 113 Millionen US-Dollar aufhorchen lassen. Unterstützt wird das Unternehmen durch namhafte Investoren wie dem ehemaligen Google-CEO Eric Schmidt, der Gründer des Risikokapitalgebers Innovation Endeavors ist. Die Schlüsselentwickler hinter dem bisher unbekannten Unternehmen Mistral AI entstammen den Laboren von Google DeepMind und Meta. Auch vor dem Hintergrund der 260 Millionen Dollar hohen Bewertung des Unternehmens ist das Modell zurzeit in aller Munde.

Danny Gerst ist seit 30 Jahren in der Softwareentwicklung und Beratung tätig. Als Strategieberater und Visionär für den Mittelstand ist er regelbasierten Systemen bis zum KI-Zeitalter gefolgt.

Das kann die Modellarchitektur

Mistral 7B hat 7,3 Milliarden Parameter und gehört damit zu den kleineren Modellen. Auch die freie Lizenz macht es im Vergleich zu den weniger offenen Llama2- und Falcon-Modelle attraktiv. Überdies haben die Entwickler eine speziell für Instruktionen angepasste Variante des Modells veröffentlicht. Für die Modellarchitektur von Mistral 7B griffen die Forscher auf zwei besondere Techniken zurück. Die Grouped-Query Attention (GQA) für eine beschleunigte Inferenz und die Sliding Window Attention (SWA) zur effizienten Verarbeitung langer Sequenzen.

GQA ist eine Weiterentwicklung der Multi-Query Attention (MQA). MQA beschleunigt die Berechnung der Attention im Modell, oft aber mit Qualitätseinbußen. Hier kommt GQA zum Einsatz, bei der die Qualität gesteigert wird und sehr nah an der Multi-Head Attention liegt. So können Modelle wie Mistral 7B effizienter sein, ohne signifikante Kompromisse in der Qualität der Ausgabe eingehen zu müssen. SWA ist eine Technik ähnlich den Convolutional Neural Networks (CNN). Dabei wird ein Fenster fester Größe über die Daten geschoben, anstatt alles auf einmal zu betrachten. Stapelt man diese Fenster, dann kann das oberste die gesamte Eingabe überblicken. Diese Technik ermöglicht dem Modell lange Eingabesequenzen besser zu verarbeiten, da der Speicherverbrauch lediglich linear statt quadratisch wächst.

Bisher unterstützt Mistral 7B lediglich die englische Sprache und die Code-Generierung, wobei das Kontextfenster mit 8k für diese Klasse von Modellen erfreulich groß ist. Das Modell zeichnet sich durch seine Schnelligkeit aus und eignet sich laut den Entwicklern hervorragend für Textzusammenfassungen, Klassifikation, Text- und Codevervollständigung. Zudem lässt sich Mistral 7B leicht für die spezifischen Anwendungsfälle eines Benutzers feintunen.

Performance: Mistral 7B trifft die Konkurrenz

Laut den Entwicklern konnte Mistral 7B das doppelt so große Modell Llama 2 13B in allen und Llama 1 34B in einigen Benchmarks schlagen – es übertrifft ersteres signifikant in allen Metriken und steht auf einem ähnlichen Niveau wie Llama 1 34B. Doch sollten solche Vergleiche immer mit Vorsicht bewertet werden, da sie sich leicht manipulieren lassen. In einer Kritik hat Rylan Schaeffer, Doktorand an der Standfort Universität, ein Modell mit einer Million Parameter trainiert, das alle KI-Modelle in allen Benchmarks schlägt.

Sinnvoll ist es daher, KI-Modelle unter realen Bedingungen zu testen. Die Chat-Arena ist beispielsweise ein solcher realitätsnaher Test. Verschiedene Modelle werden in einem Blindtest miteinander verglichen und ihre Leistung anhand des ELO-Ratings bewertet. Es ermöglicht die Einschätzung der relativen Stärke der einzelnen Modelle und findet auch beim Schach zur Leistungsbewertung der Spieler Anwendung. Auf der Rangliste der Chat Arena stieg die feingetunte Variante von Mistral direkt auf Platz 14 ein.

Ein spannendes Kopf-an-Kopf-Rennen zwischen Mistral 7B und Llama 2 13B lässt sich auf der Plattform LLM Boxing erleben. In dem dort implementieren Vergleichsformat wird eine von GPT-4 generierte Frage gestellt, auf die beide Modelle ihre Antwort geben. Der Besucher der Plattform kann dann die Antwort wählen, die ihm am meisten zusagt. Ähnlich einem Boxkampf erhält das Modell, dessen Antwort kein Anklang fand, einen symbolischen Hieb. Hat ein Modell fünf Hiebe kassiert, scheidet es aus und das Gewinnermodell wird gekürt. Dieses interaktive Format bitte eine amüsante und zugleich anschauliche Möglichkeit, die Leistungsfähigkeit von Mistral 7B direkt mit LLama 2 13B zu vergleichen.

Moderation und Transparenz: Das fehlt bei Mistral 7B

Trotz des offenen Ansatzes sind die genaue Trainingsmethode oder die Details zum verwendeten Datensatze unklar. Spekulativ stehen rechtliche Gründe hinter dieser Entscheidung. Um eine solche Performance zu erzielen, muss ein hochwertiger Datensatz verwendet worden sein – wahrscheinlich eine Eigenentwicklung. Für das feingetunte Instruktionsmodell wurden hingegen öffentlich verfügbare Datensätze verwendet.

Das Modell ist unzensiert, es folgt daher anders als ChatGPT keinen Leitlinien, welchen Output das Modell für den User erzeugt und welche Themen es meidet. Es gibt Anzeichen, dass die Ausrichtung eines Modells an bestimmte Anweisungen oder Werten die Performance des Modells beeinträchtigen kann. Die Entscheidung von Mistral AI, keine Moderation zu implementieren, könnte daher als strategischer Schritt gesehen werden, um die Leistungsfähigkeit des Modells zu maximieren. Schlussendlich gibt es hier zwei Seiten: Auf der einen ist eine KI ein Werkzeug und Menschen müssen entscheiden, wie sie es einsetzen. Auf der anderen Seiten kann ein gewisses Maß an Moderation helfen, um etwa ethische Richtlinien oder rechtliche Vorgaben einzuhalten.

Mistrals Reise beginnt erst

Mit dem Debüt von Mistral 7B hat Mistral AI einen beeindruckenden Einstand in der KI-Welt gefeiert. Das Modell hat nicht nur durch seine Performance, sondern auch durch seine Offenheit und die Anwendung innovativer Techniken für Aufsehen gesorgt. Die Open-Source-Ausrichtung von Mistral AI könnte nicht nur die Integration von KI-Modellen in mehr Produkten erleichtern, sondern auch ein Signal an die Branche senden, sich von den komplizierten halboffenen Lizenzen, wie sie bei Llama 2 und Falcon genutzt werden, zu verabschieden. Mistral 7B ist als Teaser-Modell zu verstehen, das einen Vorgeschmack auf die Ambitionen von Mistral AI gibt. Die Entwickler haben bereits größere Modelle mit erweiterten Fähigkeiten und einer breiteren Sprachunterstützung in Aussicht gestellt.

Ein Beispiel für eine Finetuning-Routine hat der X-Nutzer abhi1thakur auf Google Colab veröffentlicht. Die Mistral-Modelle finden sich auf Hugging Face, weitere Informationen stehen im Blogbeitrag zum Modell.