Megabyte: Metas Transformer-Architektur für maschinelles Lernen erklärt

Metas Transformer-Modell verzichtet auf einen Tokenizer und verarbeitet Daten byteweise. Damit soll es gleichermaßen Texte, Bilder und Audio beherrschen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht

(Bild: mundissima/Shutterstock.com)

Lesezeit: 15 Min.
Von
  • Danny Gerst
Inhaltsverzeichnis

Klassische Transformer-Modelle erzeugen ihre Ausgaben Token für Token. Der neue Megabyte-Ansatz aus Metas KI-Laboren erzeugt einen parallelisierbaren Ausgabestrom. Ihre Stärken zeigt die Architektur beim effizienten Verarbeiten von großen Texten, Bildern und Tondateien, die Eingabesequenzen von mehreren Millionen Bytes umfassen. Megabyte braucht keinen Tokenizer, der oft als limitierender Faktor des klassischen Transformer-Ansatzes gesehen wird. Diese beiden Faktoren könnten in Zukunft sehr viel effizientere Modelle ermöglichen.

Große Eingabesequenzen von mehreren Millionen Bytes sind überall zu finden. Sei es in Form von hochauflösenden Bildern, Podcasts, Büchern oder Code-Repositorys. Bei Self-Attention-Berechnungen in klassischen Transformern steigt die Laufzeit mit der Länge der Eingabesequenz quadratisch. Der Lösungsansatz der Megabyte-Architektur ist es, lange Sequenzen von bis zu einer Million Bytes in kleinere Sequenzen zu unterteilen und parallel zu verarbeiten. Dabei gelingt es, die Laufzeit der Self-Attention-Berechnung deutlich zu reduzieren. Dieser Ansatz senkt nicht nur den Rechenaufwand bei der Ausgabe (Inference), sondern auch die Rechenkosten im Training.

Mehr zum Thema Softwareentwicklung
Danny Gerst

Danny Gerst arbeitet seit 30 Jahren Softwareentwicklung und Beratung. Als Strategieberater und Visionär für den Mittelstand ist er regelbasierten Systemen bis zum KI-Zeitalter gefolgt.

Ein Wordpiece Tokenizer bildet einen Text auf etwa 30.000 mögliche Tokens ab. Im Gegensatz dazu verwendet Megabyte die Byte-Basis und bildet jeden Text, jedes Bild und jede Tondatei immer nur auf die 256 möglichen Werte eines Bytes ab. Eine Vorverarbeitung durch einen Tokenizer ist nicht mehr nötig, denn es lassen sich gleich die Bytes aus den entsprechenden Dateien nutzen.