Für ein Fantasy-Projekt (Abenteuer in Chryseia: eine Kulturbeschreibung für den Fantasy Rollenspiel-Hintergrund auf der Welt MAGIRA) benötige ich Bilder in einem bestimmten Mal-Stil. Der von ChatGPT-4o schien mir geeignet, die gewünschte Bild-Atmosphäre zu unterstützen. Der Hype um 4o suggeriert, dass alles möglich ist. Weit gefehlt.
ChatGPT-4o: Gruppenrichtlinien vs. Bilderstellung
Dabei ist nicht unbedingt eine schlechte Bildqualität das Problem. Die Tücken liegen im System selbst und seine Art und Weise, mit Aufträgen, also Prompts umzugehen. Dabei stößt man schnell an Grenzen, die sog. interne Gruppenrichtlinien setzen. In der Theorie sollen sie einen Missbrauch bei der Bilderstellung verhindern, in der Praxis stellen sie einfach Kreativitätsbremsen oder blanke pseudomoralische Bevormundung dar.
ChatGPT-4o: Die unsichtbaren Grenzen einer KI

Die Wahrheit ist, dass die Richtlinien Inhalte von Prompts sexualisieren. So weigert CHATGPT sich vehement, zwei Ringer bei den antiken Olympischen Spielen (das Äquivalent zu den sog. Chryseiischen Spielen im Land Chryseia auf der Welt Magira) darzustellen. Die Begründung: Es würde ein zu enger Kontakt von Menschen dargestellt. Wettläufer wurden zum Problem, weil sie mit schweißnassem Oberkörper unterwegs sind. Zusätzlich wird grundsätzlich die Promptanweisung problematisiert, bei der die Sportler in den Mittelpunkt der bildlichen Darstellung gesetzt werden sollen, was in der Natur der Sache liegt, schließlich geht es um die Darstellung der Sportler und nicht um die eines entfernten Publikums oder der Gebäudekulisse. Dann kommen z.B. Vorschläge, die „eklige oder unmoralische“ Sache doch abstrakt, als Mosaik und geometrisch darzustellen.
Nun sollte man meinen, dass ChatGPT-4o selbst seine Regeln kennt. Die Realität zeigt, dass selbst die eigenen Prompt-Vorschläge an den Grenzen der Gruppenrichtlinien scheitern – immer wieder. Das beißt sich die Katze in den Schwanz.
ChatGPT-4o: Das verflixte Gedächtnis

Dazu kommt, dass in einem Chat-Verlauf die einzelnen Prompts nicht sauber voneinander getrennt werden, Inhalte aus vorangegangenen Prompts tauchen später in anderen auf, ohne dass sie Teil des Prompts waren (Bsp.: Artist, der mit Messern jongliert und ein Wagen des Fahrenden Volkes) – oder, was extrem nervig ist, dass ChatGPT-4o Befehle scheinbar annimmt, dann aber etwas völlig anderes tut. Vielen ist die „Unterwürfigkeit“ von ChatGPT aufgefallen. Es scheint völlig zerknirscht zu sein, wenn es Befehle missachtet, gibt dies selbst zu, gelobt Besserung, macht aber die gleichen Fehler immer wieder. ChatGPT-4o kann einen in den Wahnsinn treiben.
Wer ChatGPT-4o intensiv nutzt, begegnet schnell einer paradoxen Realität: Das Modell gilt als das Flaggschiff der KI-Konversation, doch gerade an den Schnittstellen von Kreativität, Prompt-Engineering und Kontexttrennung offenbaren sich Schwächen. In diesem Beitrag beleuchte ich die Grenzen des Modells – mit Fokus auf Prompt-Umsetzung, Richtlinien-Restriktionen und die Problematik der Kontextvermischung, insbesondere bei der Bilderzeugung.
1. Die Unfähigkeit zur strikten Prompt-Umsetzung
Prompt-Folgsamkeit – ein Mythos?
Wer glaubt, ChatGPT-4o setze jeden Prompt zuverlässig um, irrt. Besonders deutlich wird das bei komplexen oder mehrfach verschachtelten Anweisungen. Selbst einfache Instruktionen werden häufig ignoriert oder nur teilweise umgesetzt. Ein Beispiel aus der Praxis: Selbst, wenn man explizit verbietet, ein bestimmtes Wort zu verwenden, taucht es dennoch im Output auf – und das, obwohl die Anweisung mehrfach, sogar mit Nachdruck, wiederholt wird. Das untere Beispiel ist ein Versuch, das Wagenrennen zwischen Quadrigen darzustellen. ChatGPT-4o produziert wiederholt Wagen mit zwei, drei, fünf und sogar null Pferden. Dazu kommen immer wieder Pferde, die alleine unterwegs sind oder Quadrigen begleiten.

Warum passiert das?
- Richtlinien-Filter: ChatGPT-4o ist so konzipiert, dass es interne Sicherheits- und Ethikrichtlinien strikt befolgt. Prompt-Inhalte, die gegen diese Richtlinien verstoßen könnten, werden ignoriert oder umformuliert – oft ohne Rückmeldung an den User.
- Negative Prompts: Das Modell hat notorisch Schwierigkeiten mit Negationen. Anweisungen wie „Verwende nicht das Wort X“ werden regelmäßig missachtet, weil die Modellarchitektur darauf trainiert ist, positive, konstruktive Anweisungen besser zu verstehen als Verbote oder Einschränkungen.
- Prompt-Box vs. Chatfenster: Ein weiteres, wenig bekanntes Problem: Prompts, die im „Instruction“-Feld eines Projekts oder Custom-GPTs hinterlegt werden, werden von ChatGPT-4o häufig ignoriert, während sie im normalen Chatfenster problemlos funktionieren. Das ist ein gravierender Unterschied zum Vorgängermodell.
2. Die unsichtbare Macht der Richtlinien – und ihre Nebenwirkungen
Selbstzensur auf KI-Niveau
ChatGPT-4o ist nicht frei in seiner Prompt-Ausführung. Die Einhaltung von OpenAI-Richtlinien (sog. Gemeinschaftsrichtlinien) ist tief in den Modellkern eingebettet. Das führt dazu, dass bestimmte Prompts – unabhängig von ihrer Formulierung – grundsätzlich nicht umgesetzt werden, wenn sie als potenziell problematisch eingestuft werden. Das reicht von „ethisch sensiblen“ Themen bis hin zu scheinbar harmlosen, aber missverständlich formulierten Anfragen. ChatGPT-4o sexualisiert selbst die harmlosesten Prompts und verweigert die Umsetzung. Gibt es selbst alternative Vorschläge, stellt es meist fest, auch diese nicht umsetzen zu können, weil diese gegen die Richtlinien verstoßen. Im schlimmsten Fall werden Inhalte „verstümmelt“ und bis ins Extreme abstrahiert, was manchmal zu sehr langen „Nachdenkphasen“ bei ChatGPT-4o führt.

- Prompt-Engineering als Katz-und-Maus-Spiel: In der Folge besteht die Kunst des Prompt-Engineerings zunehmend darin, die Richtlinien-Filter zu „umtanzen“, ohne sie zu triggern. Das führt zu immer kreativeren, aber auch umständlicheren Prompt-Konstruktionen, die wiederum die Modellperformance beeinträchtigen können.
3. Kontextvermischung: Das Problem der Prompt-Trennung
Das Gedächtnis der KI – Fluch und Segen zugleich
Ein unterschätztes Problem ist die Unfähigkeit von ChatGPT-4o, einzelne Prompts innerhalb eines Chatverlaufs strikt voneinander zu trennen. Besonders augenfällig wird das bei der Bilderzeugung: Objekte oder Stilelemente aus vorherigen Prompts tauchen in neuen Bildern auf, obwohl sie explizit nicht mehr Teil der aktuellen Anweisung sind.
- Die Kontextfenster von ChatGPT-4o sind groß, aber offensichtlich nicht perfekt isoliert. Das Modell „merkt“ sich Details aus vorherigen Prompts und lässt sie ungewollt in neue Outputs einfließen.
- Bildgenerierung als Spezialfall: Bei der Bildgenerierung mit ChatGPT-4o kommt es häufig vor, dass Elemente aus alten Prompts im neuen Bild erscheinen, obwohl der aktuelle Prompt sie nicht erwähnt. Das liegt daran, dass das Modell nicht wirklich „resetten“ kann, sondern immer auf den gesamten bisherigen Chat-Verlauf zugreift. Das ist besonders problematisch bei iterativen Kreativprozessen, etwa wenn aus einer Skizze verschiedene Varianten erzeugt werden sollen.
Tipp:
- Reset durch neuen Chat: Jeder neue Prompt, der wirklich unabhängig sein soll, erfordert einen komplett neuen Chat. Nur so lässt sich das Risiko minimieren, dass alte Kontextinformationen in den Output „durchsickern“.
- Prompt-Stapel vermeiden: Je mehr Prompts in einem Verlauf gestapelt werden, desto größer die Gefahr der Kontextvermischung – ein Problem, das mit jedem weiteren Schritt zunimmt.
4. Fazit: Zwischen Innovationskraft und Systemzwängen
ChatGPT-4o ist ein mächtiges Werkzeug, doch seine Grenzen sind offensichtlich – und sie liegen nicht nur in der Modellarchitektur, sondern vor allem in den unsichtbaren Vorgaben und der Art, wie Kontext verarbeitet wird. Wer das volle Potenzial ausschöpfen will, muss diese Grenzen kennen und gezielt umschiffen. Das erfordert nicht nur technisches Know-how, sondern auch ein tiefes Verständnis für die „unsichtbaren Regeln“ der KI-Interaktion.

Fazit:
ChatGPT-4o ist so gut wie seine Prompts – und so limitiert wie seine Richtlinien und sein Kontextmanagement. Wer wirklich produktiv arbeiten will, muss die KI immer wieder neu austricksen, resetten und mit maßgeschneiderten Prompts füttern. Das ist die wahre Kunst des Prompt-Engineerings.
Noch viel wichtiger: Immer die Nerven bewahren!
Der kleine aber feine Unterschied zwischen Diffusion und multimodalem Modell
Modelle, wie Stable Diffusion, die sich bequem auf dem eigenen Computer ausführen lassen, formen Bilder quasi aus dem Chaos. Mit zufälligem Rauschen fängt alles an. Ohne jegliches Verständnis für das eigentlich Ziel entsteht eher zufällig ein Bild. Wahrscheinlichkeitswerte entscheiden darüber, wie Pixel an Pixel „gehängt“ werden, um zum fertigen Bild zu gelangen. Das gilt ebenso für andere Diffusionsmodelle, wie z.B. Midjourney, Adobe Firefly, DALL-E und FLUX. Diese Modelle erzeugen erstaunlich gute Ergebnisse.
ChatGPT-4o erstellt Bilder nicht per zufälliger Diffusion, sondern tendenziell verstehend, also die Nutzer-Vorgaben erkennend. Als multimodales Modell ist es nicht nur mit unzähligen Bilddaten trainiert, die die Grundlage für die wahrscheinliche Bilderstellung wäre, sondern es kann wegen seiner Anbindung an allgemeines Wissen aus Textvorgaben, die praktisch muttersprachlich sein können, überraschend gute Ergebnisse produzieren. So gehört ChatGPT-4o nicht ohne Grund zu den Modelle, die auch Text im Bild sehr gut umsetzen kann.
Kurzinfo zu Abenteuer in Chryseia
Im Juli-August wird es die fertige Kulturbeschreibung für das Land Chryseia in der fiktiven Fantasy-Welt MAGIRA, simuliert innerhalb FOLLOWs, geben. Chryseia ist ein Land auf dem Kontinent Ageniron. Die Kultur entspricht einer Mischung aus antikem Griechenland und dem antiken Byzanz. Die Kulturbeschreibung Chryseias soll dazu dienen, eine Basis zu bieten, auf der konsistenter Geschichten vor diesem Hintergrund erzählt werden können. Ferner ist es eine nützliche Grundlage, um Fantasy-Rollenspiel vor dem griechisch-byzantinischen Hintergrund zu ermöglichen. Das Ergebnis ist kein Geschichtsbuch. Historische Fakten werden ganz egoistisch angepasst und vermengt. 😉 Wer Fragen dazu hat, kann sich gerne an mich wenden.