Was uns 2024 in der Künstlichen Intelligenz erwartet

Dass große Sprachmodelle die KI-Entwicklung weiterhin anführen werden, scheint gesetzt. Aber welche spezifischeren Trends gibt es?

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Person in Anzug und Krawatte; der Kopf der Preson ist durch eine dunkle Wolke ersezt, in der die Buchstaben "AI" aufleuchten

(Bild: photoschmidt/ Shutterstock.com)

Lesezeit: 12 Min.
Von
  • Melissa Heikkilä
  • Will Douglas Heaven
Inhaltsverzeichnis

Letztes Jahr um diese Zeit haben wir etwas Verwegenes getan. In einer Branche, in der nichts stillsteht, haben wir versucht, die Zukunft Künstlicher Intelligenz (KI) vorherzusagen. Die heiße Frage zunächst: Wie haben wir abgeschnitten?

Unsere vier großen Wetten für 2023 waren:

  • Das nächste große Ding bei Chatbots wird die Multimodalität
    Check: Das kam auch so. Die leistungsstärksten großen Sprachmodelle, die es gibt, GPT-4 von OpenAI und Gemini von Google DeepMind, arbeiten mit Text, Bildern und Audio.

Jetzt wagen wir denselben Schritt wieder. Dabei haben wir beschlossen, das Offensichtliche zu ignorieren. Wir wissen, dass die großen Sprachmodelle weiterhin dominieren werden. Die Regulierungsbehörden werden mutiger werden. Die Probleme der KI – von Voreingenommenheit über Urheberrecht bis hin zu Unwissenheit – werden die Agenda von Forschern, Regulierungsbehörden und der Öffentlichkeit bestimmen, nicht nur im Jahr 2024, sondern auch in den kommenden Jahren.

Stattdessen haben wir diesmal ein paar spezifischere Trends herausgegriffen, auf die Sie 2024 achten sollten. (Nächstes Jahr verraten wir dann wieder, wie wir abgeschnitten haben).

2024 werden Tech-Unternehmen, die viel in generative KI investiert haben, unter Druck stehen, zu beweisen, dass sie mit ihren Produkten Geld verdienen können. Zu diesem Zweck setzen die KI-Giganten Google und OpenAI in großem Stil auf "Going Small": Beide entwickeln benutzerfreundliche Plattformen, die es Menschen ermöglichen, leistungsstarke Sprachmodelle anzupassen und ihre eigenen Mini-Chatbots zu erstellen, die auf ihre spezifischen Bedürfnisse zugeschnitten sind – ohne dass Programmierkenntnisse nötig sind. Beide haben webbasierte Werkzeuge auf den Markt gebracht, mit denen jeder zum Entwickler generativer KI-Anwendungen werden kann.

2024 könnte generative KI auch für den normalen, nicht technikaffinen Menschen nützlich werden, und es wird immer mehr Menschen geben, die an einer Million kleiner KI-Modelle basteln. Die Multimodalität moderner KI-Modelle wie GPT-4 und Gemini – sie können nicht nur Text, sondern auch Bilder und sogar Videos verarbeiten – könnte eine ganze Reihe neuer Anwendungen freisetzen. So kann ein Immobilienmakler beispielsweise Texte aus früheren Angeboten hochladen, ein leistungsstarkes Modell so abstimmen, dass es mit nur einem Mausklick ähnliche Texte generiert, Videos und Fotos neuer Angebote hochladen und einfach die angepasste KI bitten, eine Beschreibung der Immobilie zu erstellen.

Aber natürlich hängt der Erfolg dieses Plans davon ab, ob diese Modelle zuverlässig funktionieren. Sprachmodelle erfinden oft etwas, und generative Modelle sind mit Vorurteilen behaftet. Außerdem sind sie leicht zu hacken, vor allem wenn sie das Internet durchsuchen dürfen. Die Technikunternehmen haben keines dieser Probleme gelöst. Wenn der Reiz der Neuheit nachlässt, müssen sie ihren Kunden Möglichkeiten anbieten, mit diesen Problemen umzugehen.

Es ist erstaunlich, wie schnell das Fantastische vertraut wird. Die ersten generativen Modelle, die fotorealistische Bilder erzeugen, betraten 2022 die Mainstream-Bühne – und wurden schnell alltäglich. Werkzeuge wie DALL-E von OpenAI, Stable Diffusion von Stability AI und Firefly von Adobe überschwemmten das Internet mit atemberaubenden Bildern, vom Papst in Balenciaga bis hin zu preisgekrönter Kunst. Aber es ist nicht nur lustig: Für jeden Mops, der mit Pompons wedelt, gibt es ein weiteres Stück gefälschter Fantasy-Kunst oder sexistischer Sexual-Stereotypisierung.

Das neue Ziel heißt Text-to-Video. Man darf erwarten, dass es alles, was an Text-zu-Bild gut, schlecht oder hässlich war, überdimensionale Züge annehmen wird. Vor einem Jahr bekamen wir einen ersten Eindruck davon, was generative Modelle leisten können, als sie darauf trainiert wurden, mehrere Standbilder zu Clips von wenigen Sekunden Länge zusammenzufügen. Die Ergebnisse waren verzerrt und ruckelig. Aber die Technik hat sich schnell verbessert.

Das Start-up Runway, das generative Videomodelle herstellt und Stable Diffusion mitentwickelt hat, bringt alle paar Monate neue Versionen seiner Tools auf den Markt. Das neueste Gen-2-Modell erzeugt zwar immer noch nur wenige Sekunden lange Videos, doch deren Qualität ist inzwischen beeindruckend. Die besten Clips sind nicht weit von dem entfernt, was Pixar herausbringen könnte.

Runway hat ein jährliches KI-Filmfestival ins Leben gerufen, bei dem experimentelle Filme gezeigt werden, die mit einer Reihe von KI-Tools gedreht wurden. Das diesjährige Festival ist mit 60.000 Dollar Preisgeld dotiert, und die zehn besten Filme werden in New York und Los Angeles gezeigt.

Es ist keine Überraschung, dass die großen Filmstudios auf das Projekt aufmerksam geworden sind. Filmgiganten wie Paramount und Disney erforschen mittlerweile die Möglichkeiten generativer KI in ihrer gesamten Produktionspipeline. Die Technik wird für die Lippensynchronisation von Schauspielern mit mehreren fremdsprachlichen Overdubs eingesetzt, also später hinzugemischten Tonaufnahmen. Dazu erfindet sie Möglichkeiten von Spezialeffekten neu. Letztes Jahr spielte in "Indiana Jones und das Rad des Schicksals" ein digital verjüngter Deepfake von Harrison Ford die Hauptrolle. Und das ist erst der Anfang.

Auch abseits der Kinoleinwand ist die Deepfake-Technik für Marketing- und Schulungszwecke auf dem Vormarsch. Das britische Unternehmen Synthesia stellt beispielsweise Software her, mit der eine einmalige Darbietung eines Schauspielers in einen endlosen Strom von Deepfake-Avataren verwandelt werden kann, die auf Knopfdruck vorgegebene Skripte rezitieren. Nach Angaben des Unternehmens wird seine Technik inzwischen von 44 Prozent der Fortune-100-Unternehmen genutzt.

Die Möglichkeit, mit so wenig Aufwand so viel zu erreichen, wirft für Schauspieler ernsthafte Fragen auf. Die Besorgnis über Einsatz und Missbrauch von KI durch Studios stand im Mittelpunkt der SAG-AFTRA-Streiks im vergangenen Jahr. Bei SAG-AFTRA (Screen Actors Guild-American Federation of Television and Radio Artists) handelt es sich um die US-Gewerkschaft für Schauspieler, Synchronsprecher, Tänzer und andere Film- und Fernsehschaffende. Die wahren Auswirkungen der Technik für die Filmbranche werden erst jetzt deutlich. "Das Handwerk des Filmemachens verändert sich grundlegend", sagt Souki Mehdaoui, ein unabhängiger Filmemacher und Mitbegründer von Bell & Whistle, einer auf kreative Technik spezialisierten Beratungsfirma.

Nach den Erfahrungen der letzten Wahlen dürften KI-generierte Wahldesinformationen und Deepfakes ein großes Problem sein, wenn 2024 eine Rekordzahl von Menschen zu den Urnen geht. Wir beobachten bereits, dass Politiker diese Instrumente als Waffe einsetzen. In Argentinien haben zwei Präsidentschaftskandidaten KI-generierte Bilder und Videos ihrer Gegner erstellt, um sie anzugreifen. In der Slowakei verbreiteten sich während der Wahlen Deepfakes eines liberalen, pro-europäischen Parteivorsitzenden, der damit drohte, die Bierpreise zu erhöhen und Witze über Kinderpornografie machte, wie ein Lauffeuer. In den USA schließlich hat Donald Trump einer Gruppe zugejubelt, die mithilfe von KI Memes mit rassistischen und sexistischen Sprüchen erstellt hatten.

Es ist zwar schwer zu sagen, inwieweit diese Beispiele den Wahlausgang beeinflusst haben, aber ihre Verbreitung ist ein beunruhigender Trend. Es wird schwieriger denn je, zu erkennen, was online echt ist. In einem bereits aufgeheizten und polarisierten politischen Klima könnte dies schwerwiegende Folgen haben.

Noch vor ein paar Jahren hätte die Erstellung eines Deepfakes fortgeschrittene technische Fähigkeiten erfordert, aber die generative KI hat es verdammt einfach und zugänglich gemacht. Die Ergebnisse sehen immer realistischer aus. Selbst seriöse Quellen können durch KI-generierte Inhalte getäuscht werden. So haben beispielsweise von Nutzern eingereichte KI-generierte Bilder, die angeblich die Israel-Gaza-Krise darstellen, Bildagenturen wie die von Adobe überschwemmt.

Das kommende Jahr wird für diejenigen, die gegen die Verbreitung solcher Inhalte kämpfen, von entscheidender Bedeutung sein. Techniken zum Aufspüren und Entschärfen stecken noch in der Frühphase der Entwicklung. Wasserzeichen, wie SynthID von Google DeepMind, sind immer noch größtenteils freiwillig und nicht völlig narrensicher. Zudem sind soziale Medienplattformen notorisch langsam, wenn es darum geht, Fehlinformationen zu entfernen. Machen Sie sich also bereit für ein großes Echtzeit-Experiment zur Bekämpfung KI-generierter Fake News.

Inspiriert von einigen Kerntechniken, die den Boom der generativen KI ausgelöst haben, arbeiten Robotiker an Universalrobotern mit einem breiteren Aufgabenspektrum.

In den letzten Jahren hat sich die KI von kleineren, für einzelne Aufgaben trainierten Modellen – etwa für die Bilderkennung, -zeichnung und -beschriften – hin zu monolithischen Modellen entwickelt, die für all diese und noch viel mehr Aufgaben trainiert wurden. Indem man OpenAIs GPT-3 ein paar zusätzliche Beispiele zeigt (bekannt als Feinabstimmung), können Forscher es darauf trainieren, Programmieraufgaben zu lösen, Filmdrehbücher zu schreiben und Biologieprüfungen in der High School zu bestehen. Multimodale Modelle wie GPT-4 und Google DeepMinds Gemini können sowohl visuelle als auch sprachliche Aufgaben lösen.

Der gleiche Ansatz kann auch für Roboter verwendet werden, so dass es nicht notwendig wäre, einen Roboter darauf zu trainieren, Pfannkuchen zu wenden und einen anderen darauf, Türen zu öffnen: Ein Einheitsmodell könnte Robotern die Fähigkeit zum Multitasking verleihen. Bereits letztes Jahr wurden mehrere Beispiele für Arbeiten in diesem Bereich vorgestellt.

Im Juni veröffentlichte DeepMind Robocat (eine Aktualisierung von Gato aus 2022), der seine eigenen Daten durch Versuch und Irrtum generiert – um statt der bisher üblichen Steuerung eines bestimmten Arms die Steuerung vieler Roboterarme zu lernen. Im Oktober brachte das Unternehmen in Zusammenarbeit mit 33 Universitätslabors ein weiteres Allzweckmodell für Roboter, RT-X, und einen großen neuen Allzweck-Trainingsdatensatz heraus. Andere Spitzenforschungsteams wie RAIL (Robotic Artificial Intelligence and Learning) an der University of California Berkeley, arbeiten an ähnlichen Verfahren.

Das Problem ist allerdings Datenmangel. Generative KI stützt sich auf einen internetgroßen Datensatz mit Texten und Bildern. Im Vergleich dazu stehen Robotern nur wenige gute Datenquellen zur Verfügung, anhand derer sie lernen können, wie sie viele der von uns gewünschten industriellen oder häuslichen Aufgaben erledigen können.

Mit diesem Problem befasst sich Lerrel Pintos Team an der New York University. Es entwickelt Techniken für Robotern, um durch Versuch und Irrtum zu lernen und dabei ihre eigenen Trainingsdaten zu gewinnen. In einem noch unauffälligeren Projekt hat Pinto Freiwillige rekrutiert, die mit iPhones an Müllsammlern Videodaten aus ihrer Umgebung sammeln. Auch große Unternehmen haben in den letzten Jahren damit begonnen, große Datensätze für das Training von Robotern zu veröffentlichen. Ein Beispiel dafür ist Metas Ego4D.

Dieser Ansatz hat sich bei fahrerlosen Autos bereits als vielversprechend erwiesen. Start-ups wie Wayve, Waabo und Ghost leisten Pionierarbeit bei einer neuen Welle selbstfahrender KI, die statt mehreren kleineren Modellen zur Steuerung spezifischer Fahraufgaben ein einziges großes Modell zur Steuerung eines Fahrzeugs einsetzen.

Auf diese Weise können kleine Unternehmen mit Giganten wie Cruise und Waymo mithalten. Wayve testet seine fahrerlosen Autos bereits auf den engen, belebten Straßen von London. Ein ähnlicher Aufschwung steht Robotern überall bevor.

(jle)