c't 11/2024
S. 116
Test & Beratung
Bildgeneratoren
Bild: KI-Collage

Pixelautomaten

KI-Bildgeneratoren im Test

Bildgeneratoren träumen Erstaunliches auf den Schirm. Dall-E, Midjourney, Stable Diffusion und andere entwickeln sich in schwindelerregendem Tempo weiter. Sowohl hinsichtlich des Textverständnisses des Prompts und der Detailtiefe der generierten Bilder als auch bezüglich der Rechtslage bei kommerzieller Nutzung stehen einige aber noch auf wackeligen Beinen.

Von André Kramer

KI-Bildgeneratoren erschaffen noch immer die mittlerweile ikonischen deformierten Hände und andere Details, die bei näherem Betrachten nicht recht zusammenpassen wollen. Die gröbsten Kinderkrankheiten haben sich zumindest bei den erfolgreichsten Vertretern aber mittlerweile erledigt: KI-Porträts lassen sich kaum noch von echten Fotos unterscheiden. Landschafts- und Architekturbilder überzeugen nicht mehr nur auf den ersten flüchtigen Blick, sondern auch im Detail. Selbst einfache Schriftzüge an Gebäuden wie „Hotel“ oder „Café“ sind nicht mehr völlig ausgeschlossen. Bis zu diesem Punkt haben die Betreiber der KI-Bildgeneratoren seit den ersten Anfängen gerade einmal zwei Jahre gebraucht: Im April 2022 revolutionierte OpenAI mit Dall-E 2.0 die Art, wie Bilder komponiert werden.

Nach dem ersten Hype sind Bildgeneratoren nicht mehr nur auf Instagram und Reddit, sondern auch im Büro angekommen. Zuvor mussten Bildbearbeiter Motivteile fotografieren, ausschneiden, arrangieren und farblich anpassen. All das erfordert technisches Know-how, kreatives Geschick und ein Auge für Perspektive, Farbe und Licht. Generative KI verspricht, einen Großteil dieser Arbeiten zu übernehmen.

Kommentieren