Neuer Trend: Mithilfe von KI aus Texten Bilder erzeugen

Mit der KI-Anwendung "DALL E 2" des US-Unternehmen OpenAI kann jeder ungewöhnliche Bilder und Grafiken für Broschüren oder Webseiten erzeugen. Bereits drei Millionen Menschen haben sich für die Webanwendung angemeldet. Rainer Hill hat den Text-zu-Bild-Generator ausprobiert.

Bilderzeugung mit DALL-E 2: "Ein Mann, der mit einem Fahrrad durch ein Weizenfeld fährt" und im Stil des Impressionisten Claude Monet

Bilderzeugung mit DALL-E 2: "Ein Mann, der mit einem Fahrrad durch ein Weizenfeld fährt" und das im Stil des Impressionisten Claude Monet. [Bild: DALL-E 2]

Eine Kohlezeichnung einer Holzkiste mit Kugellagern. [Bild: DALL-E 2]

Eine Kohlezeichnung einer Holzkiste mit Kugellagern. [Bild: DALL-E 2]

Ein Mann auf einem Gabelstapler im Lager im Stil des amerikanischen Malers Edward Hopper.

Ein Mann auf einem Gabelstapler im Lager im Stil des amerikanischen Malers Edward Hopper. [Bild: DALL-E 2]

DALL·E 2 ist ein neues System der Künstlichen Intelligenz. Der Name des Systems verweist auf den spanischen Surrealisten Salvador Dali. Der Hersteller Open AI ist bereits für seine Sprach-KI GPT-3 bekannt. Mit DALL-E 2 kann man aus einer Beschreibung in natürlicher Sprache realistische Bilder erzeugen. Die Sprache ist im konkreten Fall Englisch. Um es an einem Beispiel zu veranschaulichen, das Bild rechts oben in diesem Beitrag ist aus der folgenden Beschreibung entstanden: „Man on a red bike on a path through wheatfields under a cloudy sky in Monet style“. Man sieht, die Angabe in welchem Stil etwa erzeugt werden soll, wird berücksichtigt, auch wenn der Mann mehr im Feld als auf dem Weg fährt. Was nicht wirklich funktioniert sind überzeugende fotorealistische Bilder von Menschen. Offensichtlich liegt das aber nicht an der Leistungsfähigkeit der verwendeten KI-Modelle. Aktuell erlaubt das System die Generierung fotorealistischer Gesichter von Menschen nicht. Unter anderem, so heißt es, werden wohl Deepfakes von Prominenten und ähnliche missbräuchliche Verwendungen befürchtet. Eine technische Hürde scheint es diesbezüglich aber nicht zu geben. Tatsächlich, so berichtet der Autor Vladimir Alexeev im KI-Magazin „The Decoder“, lassen sich die visuellen Ergebnisse von DALL-E 2 sogar durch die Angabe von Kameraobjektiven, Blenden und Verschlusszeiten im Detail beeinflussen, was auf das Auslesen von Metadaten von Trainingsfotos hindeuten könnte.
Der OpenAI-Gründer Sam Altman erwartet, dass Lösungen wie DALL-E 2 die Arbeit von Kreativen dramatisch verändern werden. Vor einer Dekade sei man davon ausgegangen, so zitiert ihn The Decoder, dass KI zuerst körperliche und dann kognitive Arbeit beeinflussen werde und „vielleicht eines Tages“ die kreative Arbeit. Jetzt sehe es so aus, als würde es in umgekehrter Reihenfolge ablaufen.
Ein alternatives Text-zu-Bild-Projekt ist übrigens Stable Diffussion, welches unter dem Namen Dreamstudio für Beta-Tester ebenfalls öffentlich zugänglich ist. Das als sehr leistungsfähig beschriebene Google-Projekt Imagen ist hingegen noch im Forschungsstadium. Die generierten Bilder werden sowohl von DALL-E 2 wie auch von Dreamstudio nicht größer als 1.024 mal 1.024 Pixel ausgegeben. Das ist nicht so viel, reicht aber für Abbildungen auf Websites oder kleine Abbildungen in gedruckten Flyern. Erwähnt sei noch, dass DALL-E 2 und Dreamworks mit "Credits" arbeiten, die man bei der Erzeugung von Bildern verbraucht. Während der Anwender von DALL-E 2 monatlich neue kostenlose Credits erhält, gibt es ein freies Credit-Kontingent von Dreamworks nur in der Startphase. Käufliche Credits gibt es bei beiden Anbietern. Man darf davon ausgehen, dass sich auf dem Gebiet der Bilderzeugung auf Basis von Texten im kommenden Jahr noch sehr viel tun wird.

Nützliche Hinweise zur Bedienung von DALL-E 2 bei The Decoder
Zur Anmeldung für DALL-E 2
Zur Anmeldung bei Dreamstudio