Flan-T5: Google stellt großes KI-Sprachmodell teils als Open Source bereit

Das von Google entwickelte KI-Modell Flan-T5 kann sich mit PaLM 62B messen. Seine Checkpoints erzielen starke Few-Shot-Performance, einige sind frei verfügbar.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen

(Bild: bestfoto77/Shutterstock.com)

Lesezeit: 6 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Google AI hat mit Flan-T5 ein großes KI-Sprachmodell vorgestellt, das als Open Source verfügbar ist und über 1800 verschiedene Aufgaben lösen können soll. Bei Flan handelt es sich um eine Methode des Finetunings großer Sprachmodelle (Flan steht für "Finetuning language models"), und die auf diese Weise verfeinerten Modelle erhalten zurzeit Flan als Vorsilbe in ihrem Modellnamen.

Flan-T5 gibt es in mehreren verschiedenen Größen, von Small über Base und Large bis hin zu XLarge und XXL. Letzteres hat seinen Namen von dem T5-Transformer-Modell (Text-to-Text Transfer Transformer), umfasst in der größten Ausführung elf Milliarden Parameter und seine Testergebnisse sollen konkurrenzfähig sein zur deutlich größeren, 62 Milliarden Parameter umfassenden Ausgabe von PaLM.

Das Pathways Language Model, wie PaLM ausgeschrieben heißt, hatte im April 2022 bereits durch seine Fähigkeiten beeindruckt. So vermag die größte Ausführung von PaLM (bis zu 540 Milliarden Parameter), Code zu generieren, kann mit Arithmetik umgehen und Witze erklären.

Übersicht der von Google Research nachtrainierten Modellklassen Flan-T5, Flan-PaLM und Flan-U-PaLM

(Bild: Hyung Won Chung et alii, "Scaling Instruction-Finetuned Language Models" (2022))

Von PaLM und dem Text-To-Text Transfer Transformer (T5) gibt es nun also mit der Flan-Methode feingetunte Modellklassen. Mehrstufige logische Inferenz und Gedankenketten für komplexere Szenarien unterscheiden PaLM von den meisten anderen künstlichen neuronalen Netzen. "Flan-PaLM" soll laut seinen Herausgebern alles beherrschen, was PaLM für sich genommen schon konnte, jedoch in einer verbesserten Qualität. Auch die frei verfügbare kleinere Modellklasse Flan-T5 (bis Flan-T5 XXL) bietet laut Forschungspaper gute Few-Shot-Leistungen.

Rufen wir uns in Erinnerung, womit PaLM bei seinem Erscheinen überraschte: Im Bereich des "Reasoning" galten im Frühjahr die Fähigkeiten des Sprachmodells PaLM als Durchbruch, wobei Textrechenaufgaben und deren Lösung in Einzelschritten hervorzuheben sind. Dem Modell wird ein tiefes Sprachverständnis und (bis zu einem gewissen Grad) so etwas wie "Weltwissen" zugeschrieben. Gefüttert hatte das Google-AI-Team PaLM mit hochwertigen Webdokumenten, Büchern, Wikipedia, frei zugänglichen Unterhaltungen aus dem Internet und GitHub-Code. Das Besondere an dem damals neuen Ansatz war, dass es Zahlen in Token auflöste und Unicode-Zeichen in Bytecode übersetzte, was im Ergebnis zu einem relativ verlustfreien Vokabular führt.

Feintuning für das Multitask-Anweisen bei Flan-T5 XXL

(Bild: Hugging Face)

Insbesondere beim Ziehen logischer Schlüsse (Reasoning) in mehreren Schritten konnte das Google-Forschungsteam offenbar Fortschritte erzielen. Die Forscher geben in der Modellbeschreibung auch eine Liste von rund 60 Sprachen an, die das Modell beherrschen soll, darunter neben Englisch, Französisch, Spanisch, Russisch, Japanisch, Chinesisch und Deutsch auch skandinavische Sprachen, einige afrikanische und indische sowie asiatische Sprachen. Aus der Beschreibung geht nicht hervor, auf welchem Niveau das Modell diese Sprachen beherrscht und ob es alle Aufgaben in jeglicher Sprache gleichermaßen gut beherrscht (bisher verfügbare Modelle hatten oft Schwächen in zahlreichen der angegebenen Sprachen, so unter anderem BLOOM, das auch als "multilingual" angekündigt worden war).

Als Haupteinsatzbereich nennt das Team die Forschung an Sprachmodellen, einschließlich der Forschung an NLP-Aufgaben mit Zero-Shot und kontextabhängige NLP-Aufgaben mit wenigen Shots (wie unter anderem das Beantworten von Fragen und einfache Schlussfolgerungen). Das Team hat sich mit Blick auf die Fairness- und Sicherheitsforschung dazu entschieden, die Flan-T5-Modellklasse frei zugänglich zu machen. Zudem soll Flan-T5 das Verständnis der Grenzen derzeitiger großer Sprachmodelle (kurz: LLM, was für Large Language Models steht) ausloten helfen.

Die Aufgabenbereiche, für die das Modell feinabgestimmt wurde, finden sich im Forschungspaper. Eine grafische Übersicht ist darin als Abbildung vorhanden:

Trainingsaufgaben für das Feintuning von Flan-T5 XXL (Flan-PaLM 540B)

(Bild: Hugging Face)

Das Text-zu-Text-System soll es ermöglichen, ein einziges Modell, dieselbe Loss-Funktion und die gleichen Hyperparameter für jegliche NLP-Aufgabe zu verwenden. Darunter fallen maschinelle Übersetzung, das Zusammenfassen von Dokumenten, das Beantworten von Fragen und Aufgaben zum Klassifizieren wie die Sentiment-Analyse. Wie schon das ursprüngliche T5 soll es sich laut seiner Modellkarte auf Regressions-Aufgaben anwenden lassen. Dazu kann man es so trainieren, dass es die String-Repräsentation einer Zahl anstelle der Zahl selbst vorhersagt.

Den Forschern ging es in erster Linie darum, die Skalierung und Anzahl der Aufgaben, der Modellgröße sowie der Daten in einer Chain-of-Thought-Kette (CoT) durch Feintuning nachzubessern. Als Ergebnis hält das Paper fest, dass die Feinabstimmung von Anweisungen die Leistung bei zahlreichen Modellklassen (konkret PaLM, T5, U-PaLM), beim Setup des Promptens (Zero-Shot, Little-Shot, CoT) und bei den Benchmarks zum Evaluieren signifikant verbessert worden sei.

Die Modelle der Flan-T5-Serie sind frei abrufbar im Google-Research-Repository bei GitHub. Die Checkpoints zu Flan-T5 stehen dort in fünf verschiedenen Größen zum Download bereit (Small, Base, Large, XL und XXL). Im Gegensatz zu den reinen T5-Checkpoints lassen sie sich direkt zum Few-Shot-Prompting und für herkömmliches Feintuning einsetzen. Sie begleiten die Veröffentlichung des Forschungspapers "Scaling Instruction-Finetuned Language Models" von Hyung Won Chung und 30 weiteren Google-Brain-Kollegen, das am 20. Oktober 2022 bei arxiv.org hochgeladen wurde (zurzeit ist dort Version 2 vom 21. Oktober aktuell).

Screenshot: Flan-T5 ausprobieren auf Hugging Face mit der gehosteten Inferenz-API

(Bild: Hugging Face)

Ausprobieren lässt sich das Modell übrigens auf Hugging Face in der gehosteten Inferenz-API, ein Eingabefenster sitzt rechts oben auf der Seite der Modellkarte.

Update

Flan-T5 ausprobieren: Screenshot ergänzt. Flan-Methode erklärt und Angaben zu den frei verfügbaren Checkpoints nachgeschärft. Offenbar ist nur Flan-T5 (S bis XXL) frei verfügbar: Zu der Flan-PaLM-Gruppe ist der Redaktion kein Download-Link bekannt, sie ist offenbar nicht als Open Source vorgesehen.

(sih)