Bud-E: Laion arbeitet an Audio-KI mit Empathie

Laion möchte einen KI-Audio-Assistenten auf den Markt bringen, der natürlicher und empathischer klingt – wie ein echter Freund.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen

So flauschig stellt sich Laion seinen Bud-E vor.

(Bild: Screenshot Laion)

Lesezeit: 4 Min.

Mit einem Chatbot sprechen, klingt bisher in der Regel eher holperig bis mechanisch. Laion möchte das verbessern und stellt Bud-E vor. Die Audio-KI soll aber noch viel mehr sein, ein regelrechter Freund, der immer zur Seite steht, sich alle bisherigen Gespräche merkt und dabei lokal läuft. Von einem für jedermann nutzbaren Tool ist Bud-E allerdings noch deutlich entfernt.

Laion arbeitet mit dem Ellis Institut in Tübingen, Collabora und dem Tübingen AI Center zusammen, um Bud-E zu entwickeln. Dabei steht der Name für "Buddy for Understanding and Digital Empathy. Besonderes Augenmerk des Chatbots liegt auf der Latenz, Bud-E antwortet besonders schnell, das zeigt ein Demo-Video auf Youtube. Unter diesem fragt allerdings auch bereits ein Zuschauer, ob die Geschwindigkeit dadurch zustande käme, dass die Informationen vorab in das Modell eingegeben wurden. Die Antwortzeit anderer Chatbots, beispielsweise ChatGPT und Gemini, sind meist deutlich länger, als in der Bud-E-Demo zu sehen. Die Umsetzung für Audio ist erst ein nachgelagerter Schritt.

Als Basis nutzt Laion derzeit das Phi-2-Modell von Microsoft – ein Small Language Model, das auf der Ignite 2023 vorgestellt wurde. Phi-2 wurde mit synthetischen Datensets trainiert, nur wenig Inhalte aus dem Internet sind in das Training geflossen. Entsprechend sind die Fähigkeiten und Einschränkungen. Laut Microsoft ist es besonders geeignet für die Wissenschaft und Forschung.

Laion schreibt, mit einem großen Sprachmodell, wie Llama 2 erwartet man eine noch deutlich niedrigere Latenz, also noch schnellere Antworten. Konkret geht es bisher um Latenzen von 300 bis 500 ms, die mit dem freien Modell von Meta unterschritten werden sollen.

Wann Bud-E tatsächlich empathisch sein wird und alle gewünschten Anforderungen erfüllen kann, ist absolut unklar. "Selbst mit dem Basismodell fühlen sich Gespräche viel natürlicher an als alles, was wir bisher gesehen haben. Nichtsdestotrotz fehlen noch viele Komponenten und Funktionen, die wir auf dem Weg zu einem wirklich empathischen und natürlich wirkenden Sprachassistenten in Angriff nehmen müssen, mit dem die Interaktion über einen längeren Zeitraum hinweg Spaß macht und hilfreich ist."

Laion muss noch einige Probleme aus dem Weg räumen und hofft dabei auf Hilfe. Dazu gehört, die Latenz zu verbessern, aber auch die fehlende Natürlichkeit, die mittels eines entsprechenden Datensets erreicht werden soll. Bud-Es Finetuning geschieht mit Videos von Youtube und frei zugänglichen Mediatheken. Auch die Vorstellung, Bud-E könne sich Gesprächsinhalte merken, wie ein Mensch beispielsweise auch Wochen später anknüpfen kann, ist noch in Arbeit. Emotionale Kontexte sollen mittels Vision-Encoder verstanden werden – sprich, dem Model wird ein multimodales Modell zugefügt, das auch Videoaufzeichnungen auswerten kann und damit die Emotionen des Nutzers.

Für all diese und weitere Aufgaben sucht Laion noch Unterstützer. "Wir laden Open-Source-Entwickler, Forscher und Enthusiasten ein, mit uns die einzelnen Module von Bud-E zu verfeinern und zu seinem Wachstum beizutragen", steht auf der Webseite von Laion. Dazu kann man der Discord-Community beitreten und sich an Laion wenden. Eine Vergütung gibt es offensichtlich nicht.

Laion ist eine gemeinnützige Organisation aus Deutschland, der Name steht für Large-scale Artificial Intelligence Open Network. Neben der Arbeit an eigenen KI-Modellen bietet Laion auch Datensets für das Training von KI-Modellen an. Entsprechend ist die Organisation in Urheberrechtsstreitigkeiten verwickelt. Ein Fotograf hat Laion verklagt, aber auch die Klage von Getty Images gegen Stable Diffusion betrifft die Organisation.

(emw)