KI-Bilder mithilfe eines Computers generieren
Vor einiger Zeit habe ich mich auf Entdeckungsreise in die Bildbearbeitung- und erstellung mithilfe von künstlicher Intelligenz begeben. In Form einiger unregelmäßiger Beiträge möchte ich darauf eingehen und meinen Weg beschreiben. Möglicherweise motiviert es ja andere, sich ebenso auf eine solche spannende Entdeckungstour zu begeben. Der erste Beitrag ist von allgemeiner Natur.
Hintergründe und Overlays für Porträt-Fotografien oder Composings zu beschaffen, ist eigentlich kein Problem. Es gibt sie wie Sand am Meer – kostenlos, wie kostenpflichtig: Billig, preiswert und teuer. Ähnliches gilt für Illustrationen in Geschichten. Gerade bei diesen gestaltet es sich schon schwieriger, passendes Material zu finden, denn hier sind nicht nur die Inhalte von Bedeutung, sondern auch der Stil. Im privaten Bereich ist es im Regelfall zu teuer, Illustratoren für die Erstellung von passenden Illustratoren zu engagieren. Es sein denn, Geld spielt keine Rolle. Wer kann das schon von sich sagen.
Individuelle Bilder nach Bedarf zur Verfügung zu haben, ist keine leichte Angelegenheit. Natürlich hilft ein Blick in professionelle Bilddatenbanken. Dann gibt es noch einige Plattformen, die sogar kostenloses Material zur Verfügung stellen. Oft ist gerade dies nicht ohne Risiko. Eine Abmahnung wegen urheberrechtlichen Problemen kann schnell den Geldbeutel extrem belasten, vom möglichen Ärger ganz zu schweigen. Wer sich aus Bilddatenbanken bedient, läuft zusätzlich Gefahr, genau das Material zu nutzen, auf das auch andere zugreifen. Irgendwann stellt sich die Frage, warum nicht selbst Bilder, Hintergründe und Illustrationen nicht aus eigener Hand erstellen.
Das war meine Motivation, mich diesem Problem zu stellen und auf eine Entdeckungsreise in die Weiten der Bildgenerierung mithilfe von sog. Künstlicher Intelligenz zu gehen. Die Software ist künstlich, schließlich haben hier Programmierer ihre Hand im Spiel, aber beileibe nicht intelligent. Dies zeigt sich in vielfältigen Problemen, denen es sich zu stellen gilt.
Künstliche Intelligenz (KI) nutzen, um Bilder zu erschaffen
KI ist seit einiger Zeit in aller Munde, sei es im Bereich der Texterstellung und -bearbeitung (z.B. ChatGBT, DeeplWrite, Lex, LaMDA, BARD, You.Chat…) oder aber, um faszinierende Bildergebnisse (z.B. Midjourney, Stable Diffusion, Dall-E) zu erhalten. Schaut man sich die vielfältigen Beispiele an, dann wird das Erstaunen über die zu erreichende Qualität immer größer. Schnell kommt dann der Gedanke auf, das möchte ich auch. So ging es mir.
Welche der existierenden Bild-KI´s wäre „die Richtige“ für mich? Der Markt, die Qualität und auch die Quantität der möglichen Software-Produkte entwickeln sich rasant. Was heute noch eine scheinbar unschlagbare Qualität liefert, wird kurz darauf von einem Konkurrenz-Produkt überholt. Wer sich ernsthaft mit einer Bild-KI auseinandersetzen möchte, kommt um ein spielerisches Herantasten nicht herum, um sich in Ruhe für das eine oder andere Produkt entscheiden zu können. Probieren ist angesagt, viel Geduld und Zeit gehören unabdingbar dazu. Glücklicherweise wird uns der Zugang zur computergenerierten Bilderstellung recht einfach gemacht. Die Anforderungen für einen ersten Start an den eigenen Computer gehen gegen Null. Wer den eigenen Browser bedienen kann, hat alles für seinen Weg in die unendlichen Weiten des KI-Universums parat. Mit steigendem Anspruch trennt sich Spreu vom Weizen. Kostenlose Online-Anwendungen, die hohe Qualität (inkl. hoher Auflösung) bieten, gibt es nicht. Das ist verständlich, schließlich halten diese Anbieter eine hochwertige Infrastruktur vor, die bezahlt werden muss. Je nach Intensität der geplanten Online-Nutzung kann sich eine Bezahlvariante durchaus lohnen, wenn diese monatlich kündbar ist. Das Spiel mit der künstlichen Intelligenz kann schnell „süchtig“ machen. Die Begeisterung über die erzielten Bildergebnisse führt schnell dazu, mehr davon haben zu wollen. Glücklicherweise gibt es KI-Anwendungen, die sich lokal auf dem eigenen Computer installieren lassen. Stable Diffusion in seinen unterschiedlichen Spielarten ist für die allermeisten die KI-Anwendung der Wahl. Inzwischen sind keine komplizierten Installationsvorgänge mehr notwendig. Fast alle bieten sogenannte „Ein-Klick-Installationen“ an. Der Hardwarebedarf ist nicht zu verachten. Eine gute Grafikkarte (tendenziell NVIDIA) ist zu empfehlen. Alles andere macht keinen Spaß. Praktischerweise entwickeln sich diese KI-Pakete kontinuierlich weiter. Die Hardwareanforderungen sinken stetig. Weltweit gibt es eine Gemeinschaft von Anwender*innen, die für immer neue Facetten sorgen.
Wie funktioniert die künstliche Bilderstellung?
Das Prinzip ist ganz einfach. Ich teile der Software in mehr oder weniger ausführlichen Beschreibungen meine Vorstellungen vom gewünschten Endergebnis mit. Diese versucht dann aus dem Chaos ein Bild zu schaffen. Chaos ist durchaus wörtlich zu nehmen. Wer analog oder digital fotografiert, wird unweigerlich über das Problem verrauschter und unscharfer Bilder stolpern. Das geschieht, wenn wir uns Bilder anschauen, die mit älteren Kameras entstanden, welche nur über einen Chip mit geringer Auflösung verfügten, oder aber, wenn Bilder unter schlechten Lichtbedingungen aufgenommen wurden. Das Rauschen werden auch noch alle in Erinnerung haben, die einen alten, noch analog betriebenen Fernseher ihr Eigen nannten. Inzwischen gibt es Software, die sich dem Rauschproblem mit mehr oder weniger gutem Ergebnis annimmt. Sie beseitigt das Rauschen, erhöht möglicherweise die Auflösung und liefert im besten Fall noch ein detailreicheres Endergebnis.
KI-Software, wie Midjourney, Stable Diffusion, Dall-E, Chat-GBT machen ähnliches, nur umgekehrt. In der Lernphase bekommen Bildgeneratoren mit „Künstlicher Intelligenz“ Millionen von Bildern als „Futter“. Das Bilderfutter hat(te) dabei eine Größe von 512×512 Pixel. Dabei wird im Regelfall keines der Bilder kopiert, um dann in einer großen abrufbaren Datenbank zu landen. Vielmehr wird die Informationsdichte der Bilder verringert, indem immer mehr Rauschen entsteht. Wenn die Software gelernt hat, wie Bilder immer mehr verrauschen, dann kann sie diesen Effekt auch umkehren. In diesem Lernprozess sind alle grundlegenden Eigenschaften von Bildern enthalten, wie z.B. Malstile, Farbigkeit, Seitenverhältnisse, Proportionen, Schärfentiefe, Hautfarbe, Bildauflösung, Schärfe, Lichtwirkung, Lichtfarbe, Schattenbildung, Betrachtungswinkel, Bildinhalte u.v.m.. Aus der Kombination von Begriffen, sog. Prompts, entsteht, wie aus dem Nichts, ein Motiv. Ergänzend zu den gewollten Beschreibungen kommen dann noch die negativen Prompts. Hier wird der Software mitgeteilt, was tunlichst nicht im Bild enthalten sein sollte. Die Größe der gelernten Bildinformationshappen hat Einfluss auf spätere Bildergebnisse. Dazu mehr in einem anderen Beitrag.
Begeisterung und Enttäuschung liegen bei den ersten Ergebnissen nicht selten nahe beieinander. Begeisterung, weil das Ergebnis meist wirklich erstaunlich ist, Enttäuschung, weil nicht genau das herauskommt, was ich mir vorstellte. Hier beginnt die Fleißarbeit. Nicht alle Begriffe zeigen in jeder KI-Software die gleiche Wirkung. Die Bildergebnisse eignen sich erst einmal nicht dafür, direkt als großes Poster gedruckt zu werden. Sie sind einfach viel zu klein. Überwiegend sind es 512×512 oder 768×512 Pixel. Der Weg zu einem größeren Format ist möglich. Empfehlenswert ist in jedem Fall die Nacharbeit in einer Bildbearbeitungssoftware. (Hier geht es zur Galerie mit Wer-Bären. Ein Blick in die anderen Galerien lohnt sich natürlich auch.)
Die Welt spricht Englisch, also muss ich in den meisten Fällen alle Begriffe oder Sätze entsprechend übersetzen. Dank Google-Übersetzung oder Deepl gelingt dies sehr einfach. Die Sprache selbst stellt folglich keine wirkliche Hürde dar. Den oder die wirklich funktionierenden Begriffe zu finden, ist dann erst einmal Fleißarbeit. Viele Bildbeispiele auf Internetseiten zeigen auch die zugrundeliegenden Prompts. Es lohnt sich, diese zu sammeln, um mit deren Hilfe eigene Bildideen in die Tat umzusetzen.
Im nächsten Teil geht es an die ersten Schritte. Dies geschieht online und lässt sich mit jedem Computer umsetzen.