Megabyte: Metas Transformer-Architektur für maschinelles Lernen erklärt

Metas Transformer-Modell verzichtet auf einen Tokenizer und verarbeitet Daten byteweise. Damit soll es gleichermaßen Texte, Bilder und Audio beherrschen.

Artikel verschenken

(Bild: mundissima/Shutterstock.com)

01.09.2023, 15:30 Uhr

Lesezeit: 15 Min.

iX Magazin

Von

Danny Gerst

Megabyte: Metas Transformer-Architektur für maschinelles Lernen erklärt
- So funktionieren Transformer-Modelle
So performt Megabyte
Anwendung und Implementierung von Transformer-Modellen
Inference-Test
Fazit

Artikel in iX 10/2023 lesen

Klassische Transformer-Modelle erzeugen ihre Ausgaben Token für Token. Der neue Megabyte-Ansatz aus Metas KI-Laboren erzeugt einen parallelisierbaren Ausgabestrom. Ihre Stärken zeigt die Architektur beim effizienten Verarbeiten von großen Texten, Bildern und Tondateien, die Eingabesequenzen von mehreren Millionen Bytes umfassen. Megabyte braucht keinen Tokenizer, der oft als limitierender Faktor des klassischen Transformer-Ansatzes gesehen wird. Diese beiden Faktoren könnten in Zukunft sehr viel effizientere Modelle ermöglichen.

Große Eingabesequenzen von mehreren Millionen Bytes sind überall zu finden. Sei es in Form von hochauflösenden Bildern, Podcasts, Büchern oder Code-Repositorys. Bei Self-Attention-Berechnungen in klassischen Transformern steigt die Laufzeit mit der Länge der Eingabesequenz quadratisch. Der Lösungsansatz der Megabyte-Architektur ist es, lange Sequenzen von bis zu einer Million Bytes in kleinere Sequenzen zu unterteilen und parallel zu verarbeiten. Dabei gelingt es, die Laufzeit der Self-Attention-Berechnung deutlich zu reduzieren. Dieser Ansatz senkt nicht nur den Rechenaufwand bei der Ausgabe (Inference), sondern auch die Rechenkosten im Training.

Danny Gerst arbeitet seit 30 Jahren Softwareentwicklung und Beratung. Als Strategieberater und Visionär für den Mittelstand ist er regelbasierten Systemen bis zum KI-Zeitalter gefolgt.

Ein Wordpiece Tokenizer bildet einen Text auf etwa 30.000 mögliche Tokens ab. Im Gegensatz dazu verwendet Megabyte die Byte-Basis und bildet jeden Text, jedes Bild und jede Tondatei immer nur auf die 256 möglichen Werte eines Bytes ab. Eine Vorverarbeitung durch einen Tokenizer ist nicht mehr nötig, denn es lassen sich gleich die Bytes aus den entsprechenden Dateien nutzen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Der DeskMini X600 erlaubt es, einen kompakten Rechner mit aktuellen AM5-Prozessoren zu bauen. Weil Asrock den Chipsatz weglässt, sinkt der Energiebedarf enorm.

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

, Lawrence Livermore National Laboratory

Deutsche Hersteller bereiten sich auf Kernfusionstechnik vor

Kernfusion als Energiequelle der Zukunft gilt als nahezu unerschöpflich, aus menschlicher Perspektive. Deutsche Hersteller entwickeln wesentliche Grundlagen.

Elektroauto Fiat 600e im Test: Außen Retro, innen Zukunft?

Fiat verpackt im 600e eine E-Auto-Plattform in eine rundliche Retro-Hülle. Das kleine SUV bringt gute Anlagen mit, doch einige Baustellen bleiben.

Linux-Umstieg: Sicher durch die Linux-Installation

Linux Mint und Fedora Workstation kann man vor der Installation ausprobieren. Was gefällt, landet auf dem System. Mit unserer Anleitung klappt die Installation.

Bastel-Projekt: Elektroniklabor für den Küchentisch

Dieser Koffer vereint alles, was man für kleinere Elektronikprojekte oder Reparaturen benötigt. Einfach aufklappen und loslegen. Ein Bauvorschlag zum Anpassen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Der DeskMini X600 erlaubt es, einen kompakten Rechner mit aktuellen AM5-Prozessoren zu bauen. Weil Asrock den Chipsatz weglässt, sinkt der Energiebedarf enorm.

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

Deutsche Hersteller bereiten sich auf Kernfusionstechnik vor

Kernfusion als Energiequelle der Zukunft gilt als nahezu unerschöpflich, aus menschlicher Perspektive. Deutsche Hersteller entwickeln wesentliche Grundlagen.

Elektroauto Fiat 600e im Test: Außen Retro, innen Zukunft?

Fiat verpackt im 600e eine E-Auto-Plattform in eine rundliche Retro-Hülle. Das kleine SUV bringt gute Anlagen mit, doch einige Baustellen bleiben.

Linux-Umstieg: Sicher durch die Linux-Installation

Linux Mint und Fedora Workstation kann man vor der Installation ausprobieren. Was gefällt, landet auf dem System. Mit unserer Anleitung klappt die Installation.

Bastel-Projekt: Elektroniklabor für den Küchentisch

Dieser Koffer vereint alles, was man für kleinere Elektronikprojekte oder Reparaturen benötigt. Einfach aufklappen und loslegen. Ein Bauvorschlag zum Anpassen.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Megabyte: Metas Transformer-Architektur für maschinelles Lernen erklärt

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Deutsche Hersteller bereiten sich auf Kernfusionstechnik vor

Elektroauto Fiat 600e im Test: Außen Retro, innen Zukunft?

Linux-Umstieg: Sicher durch die Linux-Installation

Bastel-Projekt: Elektroniklabor für den Küchentisch

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Deutsche Hersteller bereiten sich auf Kernfusionstechnik vor

Elektroauto Fiat 600e im Test: Außen Retro, innen Zukunft?

Linux-Umstieg: Sicher durch die Linux-Installation

Bastel-Projekt: Elektroniklabor für den Küchentisch

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.