Wie Deepfakes in China im Livestream Produkte anpreisen

Mit nur ein paar Minuten Beispielvideo und 1000 Euro können Marken in China ihre Produkte 24 Stunden am Tag an die User bringen.

In Pocket speichern vorlesen Druckansicht 87 Kommentare lesen

(Bild: XiaoIce / Silicon Intelligence)

Lesezeit: 11 Min.
Von
  • Zeyi Yang
Inhaltsverzeichnis

Wer um 4 Uhr morgens Livestreaming-Videos auf Taobao, Chinas beliebtester E-Commerce-Plattform, durchsieht, wird feststellen, dass dort erstaunlich viel los ist. Während die meisten Menschen schlafen, gibt es immer noch viele fleißige Streamer, die selbst in den frühen Morgenstunden Produkte vor der Kamera präsentieren und Rabatte anbieten. Doch wer genau hinschaut, wird merken, dass diese Influencer leicht roboterhaft wirken. Die Bewegung ihrer Lippen passt zwar weitgehend zu dem, was sie sagen, aber es gibt immer wieder Momente, in denen es unnatürlich wirkt.

Und das hat einen triftigen Grund: Diese Streamer sind nicht echt. Sie sind KI-generierte Klone echter Streamer. Die Verfahren zur Erstellung realistischer Avatare samt Stimmen und Bewegungen werden immer ausgereifter und erschwinglicher. Und das heißt praktisch, dass die Nutzung dieser Deepfakes auf Chinas E-Commerce-Plattformen explodiert.

Inzwischen ist das Livestreaming der dominierende Marketingkanal für traditionelle wie digitale Marken in China. Influencer auf Taobao, Douyin, Kuaishou oder anderen Plattformen machen innerhalb weniger Stunden gigantisch Geschäft. Die größten Namen können in einer Nacht Waren im Wert von mehr als einer Milliarde US-Dollar (kein Tippfehler!) verkaufen und damit den Status großer Filmstars erreichen. Gleichzeitig wird die Ausbildung der Livestream-Moderatoren, ihre Bindung an ein Unternehmen und auch die Übertragungstechnik für kleinere Marken mit erheblichen Kosten verbunden. Daher ist es viel billiger, die Arbeit zu automatisieren.

Seit 2022 bieten eine Reihe chinesischer Start-ups und großer Technologieunternehmen an, Deepfake-Avatare für E-Commerce-Livestreaming zu erstellen. Mit nur ein paar Minuten Beispielvideo und 1000 Dollar Kosten können Marken einen menschlichen Streamer klonen, der dann für sie rund um die Uhr tätig wird.

Solche synthetischen Medien machen seit den späten 2010er-Jahren Schlagzeilen. Es ging los, so die Legende, als ein Reddit-Nutzer namens "Deepfake" Gesichter in Pornofilmen austauschte. Seitdem hat sich die Technologie weiterentwickelt, aber die Idee ist dieselbe: Mit KI-Hilfsmitteln können Gesichter so generiert oder manipuliert werden, dass sie wie bestimmte echte Menschen aussehen – und Dinge tun, die der tatsächliche Mensch nie getan hat. Die Technologie ist vor allem für ihren problematischen Einsatz in Rachepornos, beim Identitätsbetrug und politischen Fakes bekannt. Es gab zwar Versuche, sie auf harmlosere Weise zu kommerzialisieren, aber geglückt ist das eigentlich nicht. Doch jetzt haben chinesische KI-Unternehmen einen neuen Anwendungsfall gefunden, der durchaus gut zu laufen scheint.

Das 2017 gegründete Start-up Silicon Intelligence mit Sitz in Nanjing hat sich auf die Verarbeitung natürlicher Sprache spezialisiert, insbesondere auf Text-to-Speech-Technologien – darunter sogenannte Robocall-Tools, mit der Massenanrufe gestartet werden. Sima Huapeng, Gründer und CEO, sagt, dass sein Unternehmen das Potenzial von KI als Livestreaming-Tool erstmals im Jahr 2020 erkannt hat. Damals benötigte Silicon Intelligence 30 Minuten an Trainingsvideos, um einen digitalen Klon zu erstellen, der wie der entsprechende Mensch reden und virtuell handeln konnte. Im nächsten Jahr waren es 10 Minuten, dann drei, und jetzt wird nur noch eine Minute Video benötigt.

Und da sich die Technik verbessert hat, ist auch der Service billiger geworden. Die Erstellung eines einfachen KI-Klons kostet einen Kunden heute etwa 8000 Yuan (rund 1000 Euro). Wenn der Kunde einen komplizierteren und leistungsfähigeren virtuellen Streamer erstellen möchte, kann der Preis auf mehrere Tausend Dollar ansteigen. Diese Gebühr deckt neben der Generierung auch ein Jahr "Wartung" ab. Sobald der Avatar generiert ist, bewegen sich Mund und sein Körper im Takt des gewünschten Skripts. Während diese früher von Menschen geschrieben wurden, verwenden die Unternehmen inzwischen große Sprachmodelle, um auch diese zu erstellen.

Inzwischen müssen die menschlichen Mitarbeiter nur noch grundlegende Informationen wie den Namen und den Preis des zu verkaufenden Produkts eingeben, das generierte Skript einmal Korrektur lesen und können dann zusehen, wie der digitale Influencer live geht. Eine fortschrittlichere Version der Technologie kann sogar Live-Kommentare erkennen und passende Antworten in einer Datenbank finden, um in Echtzeit zu antworten, sodass es so aussieht, als würde der KI-Streamer aktiv mit dem Publikum kommunizieren. Das System kann sogar seine Marketingstrategie an die Anzahl der Zuschauer anpassen, sagt Sima.

Die Livestream-KI-Klone sind auf die gängigen Skripte und Gesten trainiert, die in E-Commerce-Videos zu sehen sind, sagt Huang Wei, zuständig für das Livestreaming-Geschäft mit virtuellen Influencern beim chinesischen KI-Unternehmen Xiaoice. Das Unternehmen verfügt über eine Datenbank mit fast einhundert vorgefertigten Bewegungen für die Avatare.

"Wenn Streamer zum Beispiel um ein Abo bitten, zeigen sie mit dem Finger nach oben, denn dort befindet sich der Follow-Button auf dem Screen der meisten mobilen Livestream-Apps", sagt Huang. Ähnlich verhält es sich, wenn Streamer ein neues Produkt vorstellen: Sie zeigen nach unten zum Warenkorb, in dem die Zuschauer die Produkte finden können. Die KI-Streamer von Xiaoice replizieren all diese gängigen Tricks. "Wir möchten sicherstellen, dass gesprochene Sprache und Körpersprache übereinstimmen. Man möchte ja nicht, dass der Streamer über den Follow-Button spricht, während er in die Hände klatscht. Das würde komisch aussehen."

Xiaoice, das 2020 aus dem Microsoft Software Technology Center Asia ausgegliedert wurde, hat sich schon von Beginn an darauf konzentriert, eine menschenähnlichere KI zu entwickeln, insbesondere Avatare, die in der Lage sind, Gefühle zu simulieren. "Traditionelle E-Commerce-Websites wirken auf die meisten Kunden wie ein Regal voller Waren. Das ist kalt. Beim Livestreaming gibt es eine stärkere emotionale Verbindung zwischen dem Moderator und den Zuschauern – und sie können die Produkte besser vorstellen", sagt Huang.

Nach einem Pilotversuch mit einigen Kunden im letzten Jahr hat Xiaoice in diesem Jahr offiziell seinen Service zur Erstellung digitaler Klone für weniger als 1000 Euro gestartet. Wie Silicon Intelligence benötigt auch Xiaoice lediglich die menschlichen Streamer, damit diese ein einminütiges Video von sich selbst bereitstellen. Und wie seine Konkurrenten können auch die Kunden von Xiaoice mehr Geld für die Feinabstimmung der Details ausgeben. So hat Liu Jianhong, ein chinesischer Sportansager, während der Fußballweltmeisterschaft 2022 einen detailgetreuen Klon von sich selbst erstellt, um die Spielergebnisse und andere relevante Nachrichten auf Douyin vorzulesen.