01 · Warum diese Forschung

Auf den Schultern des Scheiterns stehen

Bevor wir eine Narrative Engine entwerfen, mussten wir die Landschaft der Versuche verstehen, die ihr vorausgingen. Nicht um das Feld akademisch zu überblicken, sondern um eine sehr spezifische Ingenieursfrage zu beantworten: Welche Architekturentscheidungen lassen KI-generierte Narrative scheitern, und welche Entscheidungen verhindern diese Fehler?

Die Antwort ist wichtig, weil die Fehlermodi von KI-Narrativen nicht offensichtlich sind. Sie sehen nicht aus wie defekter Code. Sie sehen aus wie Inhalt, der technisch kohärent, aber erfahrungsgemäß hohl ist · eine Sendung, die wie eine Person klingt, ein Schwarzes Brett, das wie ein Erzähler liest, ein Bösewicht, dessen Stimme sich zwischen Szenen verändert, eine Geschichte, die alle fünf Minuten kulminiert, bis der Spieler taub wird. Diese Fehler sind für automatisierte Qualitätsprüfungen unsichtbar. Sie erfordern zu wissen, wie Gutes aussieht, und dann zu verstehen, warum das System davon abgewichen ist.

Diese Forschung umfasst drei Schichten: die bestehenden Systeme, die prozedurale Narrativgenerierung versucht haben, die technischen Fehlermodi, die in allen auftauchen, und die strukturellen Interventionen, die jeden Fehler adressieren. Jede Designentscheidung in der Narrative Engine lässt sich auf etwas zurückführen, das hier schiefgelaufen ist.

Drei Erkenntnisse aus der Forschungsliteratur rahmen diese Analyse:

  • Charakterinkonsistenz ist die am häufigsten genannte Beschwerde auf KI-Rollenspielplattformen · noch vor schlechtem Plot, langsamem Tempo oder fehlendem Anspruch. cuckoo.network, 2025 ↗
  • Eine ACL-Übersicht von 2025 über LLMs zur Storygenerierung katalogisierte 5 verschiedene Fehlermodi, die in allen überprüften Systemen wiederkehren: Kohärenzkollaps, Charakterinkonsistenz, Temposcheitern, Kontextblindheit und Handlungsmacht-Illusion. ACL Anthology, 2025 ↗
  • Das SCORE-Framework erreicht eine 23,6-prozentige Kohärenzverbesserung gegenüber unstrukturierter Generierung durch die Pflege eines episodischen Abrufkontexts über Beat-Sequenzen hinweg. arxiv, 2025 ↗
02 · Der erste Fehlermodus

Kohärenzkollaps

Der früheste und am besten dokumentierte Fehler von KI-Narrativen ist der Kohärenzkollaps: das fortschreitende Auflösen der Erzähllogik, wenn eine Sitzung zeitlich ausgedehnt wird. Systeme wie AI Dungeon haben diesen Fehler berühmt gemacht. Nutzer begannen eine Geschichte mit sorgfältigem Setup · einem bestimmten Charakter, einer bestimmten Welt, einer bestimmten Mission · und stellten beim fünfzehnten Austausch fest, dass die Figur ihren eigenen Namen vergessen hatte, die Welt das Genre gewechselt hatte und die Mission durch etwas völlig Unzusammenhängendes ersetzt worden war. Die Geschichte zerbrach nicht. Sie löste sich auf.

Der Mechanismus ist architektonisch. Ein LLM ist kein Geschichtsverstehender. Es ist ein Sequenzprädiktor. In jedem gegebenen Moment generiert es die wahrscheinlichste Fortsetzung der Token in seinem Kontextfenster. Es hat kein internes Modell der Geschichte, keine Aufzeichnung darüber, was etabliert wurde, kein Verständnis dafür, was einen Widerspruch darstellen würde. Es hat nur den jüngsten Text. Wenn früherer Kontext · die Motivation des Bösewichts, der Ort des Artefakts, das erklärte Ziel des Spielers · aus dem Kontextfenster scrollt, ist er weg. Das Modell weiß nicht, dass es ihn verloren hat. Es generiert einfach weiter, und die nächste Fortsetzung ist plausibel in Bezug auf aktuelle Token, während sie inkohärent gegenüber dem vollständigen Arc ist.

Das ist kein Fähigkeitsversagen. Leistungsstärkere Modelle verschlimmern dieses Problem auf eine spezifische Weise: Sie generieren überzeugender falsche Fortsetzungen. Ein kleines Modell produziert offensichtlich defekte Ausgabe. Ein großes Modell produziert glatt falsche Ausgabe, die als beabsichtigt wirkt, bis man drei Szenen zurückverfolgt und erkennt, dass die Figur, um deren Tod gerade getrauert wird, zwei Beats früher noch als lebendig aufgeführt ist.

Die zentrale Erkenntnis: LLMs sagen plausible Fortsetzungen voraus · sie pflegen keinen Erzählzustand. Kohärenz über lange Arcs erfordert einen expliziten, extern gepflegten Weltzustand, der in jeden Generierungsaufruf injiziert wird. Dem Modell kann das Erinnern nicht vertraut werden. Die Architektur muss für es erinnern.

Das SCORE-Framework von 2025 (Story Coherence and Retrieval Enhancement) adressiert diesen Mechanismus direkt. Es erreicht eine 23,6-prozentige Kohärenzverbesserung gegenüber GPT-Basismodellen durch die Pflege episodischer Zusammenfassungen und das Verfolgen wichtiger Elemente in einer Abrufsschicht · es baut effektiv den externen Weltzustand, den LLMs intern nicht pflegen können. Das Ergebnis reduziert Halluzinationen um 41,8 % und erreicht 89,7 % emotionale Konsistenz. Die Verbesserung ist rein strukturell, nicht modellabhängig. Dasselbe Modell mit denselben Gewichten produziert dramatisch kohärentere Ausgabe, wenn ihm expliziter Zustand gegeben wird, gegen den es argumentieren kann.

Das ist die grundlegende Lektion. Das World-State-Objekt der Narrative Engine ist kein Komfort-Feature. Es ist der Mechanismus, der ausgedehnte kohärente Narrative ermöglicht. Jeder Generierungsaufruf · jedes Arc-Konzept, jede Beat-Choreografie, jeder NSC-Dialog · muss den relevanten Weltzustandsausschnitt als explizite Eingabe erhalten. Ohne ihn generiert das Modell im Dunkeln.

03 · Der zweite Fehlermodus

Kontextblinde Generierung: Das Schlampigkeitsproblem

Es gibt einen zweiten Fehler, der in der Literatur weniger diskutiert wird, aber das zentrale Qualitätsproblem in unserem bestehenden EV2090-System ist. Nennen wir es kontextblinde Generierung: Das LLM produziert Inhalt, ohne zu wissen, wie dieser Inhalt konsumiert werden wird. Das Ergebnis ist Inhalt, der narrativ korrekt, aber tonal falsch ist · Inhalt, der im falschen Register für seinen Lieferkanal landet.

Der konkrete Fehler sieht so aus. Ein Schwarzes-Brett-Eintrag wird generiert. Die narrativen Fakten sind korrekt. Das Timing stimmt. Der Beat treibt die Geschichte voran. Aber der Text liest sich wie ein Erzähler, der dem Leser Ereignisse zusammenfasst, nicht wie eine handgeschriebene Notiz, die ein verängstigter Dockarbeiter an ein Pinnwand-Brett geheftet hat. Eine Stationsansage wird generiert. Die Information ist korrekt. Aber sie klingt wie eine Figur, die rantet, statt wie eine institutionelle Bekanntmachung. Ein NSC-COMMS-Austausch wird generiert. Der Inhalt ist da. Aber die Stimme ist flach · es könnte jeder sein.

Das Schwarze Brett, das wie ein Erzähler liest. Die Sendung, die wie eine Person klingt. Der NSC, der in vollständigen Sätzen mit perfekter Grammatik spricht. Das sind keine kleinen ästhetischen Fehler. Das ist der Unterschied zwischen einer Geschichte, die funktioniert, und einer Welt, die atmet.

Dieser Fehler hat eine spezifische Ursache. Wenn ein Prompt sagt „generiere einen Schwarzen-Brett-Eintrag über die Ladeunterbrechung", greift das Modell auf seine Trainingsverteilung zurück, wie Schwarze-Brett-Einträge aussehen. Aber seine Trainingsdaten enthalten Millionen von Beispielen narrativen Textes, der Ereignisse beschreibt · Romane, Skripte, Artikel · und eine vergleichsweise winzige Stichprobe tatsächlicher handgeschriebener Pinnwandnotizen. Die statistische Tendenz zum narrativen Register ist stärker als die Tendenz zum korrekten Kanalregister. Ohne explizite, detaillierte Kanaleinschränkungen im Prompt fällt das Modell auf das häufigste Register zurück, das es für ähnlichen Inhalt gesehen hat.

Entscheidend ist, dass das kein Modellversagen ist. Es ist ein Prompt-Architekturversagen. Das Modell ist in der Lage, einen Pinnwandein­trag zu generieren, der genau wie ein Pinnwandeintrag liest · aber nur, wenn der Prompt den Lieferkanal mit ausreichender Spezifizität angibt: wer ihn geschrieben hat, in welchem emotionalen Zustand, mit welchen physischen Einschränkungen (mit Marker hingekratzt? auf einem Drucker getippt?), für welches Publikum, mit welcher Konvention der Kürze oder Dringlichkeit. Wenn dieser Kontext vorhanden ist, verändert sich die Ausgabe. Wenn er fehlt, rät das Modell, und sein Raten ist falsch.

Das ist das architektonische Argument für die Rendering-Schichttrennung der Narrative Engine. Sonnet entscheidet, was passiert. Haiku erhält diese Entscheidung plus einen reichen Renderingkontext · Kanal, Stimme, Format, Anti-Muster · und generiert dann den eigentlichen Text. Die beiden Anliegen werden getrennt, genau weil die Renderingkontextanforderungen den narrativen Inhaltsan­forderungen vollständig senkrecht sind. Ein Beat, der als Sendung funktioniert, braucht völlig andere Prompt-Strukturierung als derselbe Beat, der als Umweltdokument gerendert wird. Beide Anliegen in einem Aufruf zu kombinieren, verschlechtert beide.

Lieferkanal ist keine Formatierungsregel. Er ist eine fundamentale Einschränkung für Stimme, Register, Satzstruktur, Diktion, angenommenes Publikum und emotionale Haltung. Er muss in jedem Renderingaufruf explizit angegeben werden · nicht impliziert, nicht erhofft.

04 · Der dritte Fehlermodus

Der Handlungsmacht-vs.-Struktur-Kompromiss

Jedes prozedurale Narrativsystem muss dieselbe fundamentale Spannung navigieren: maximale Spielerfreiheit produziert inkohärente Geschichten, und maximale strukturelle Kontrolle produziert Erfahrungen, die sich verfasst statt erlebt anfühlen. Die Branche ist von beiden Richtungen auf diese Spannung gestoßen und hat denselben engen Sweetspot gefunden.

Reine unstrukturierte Generierung · das AI-Dungeon-Modell · kollabiert unter längerem Spiel aus den bereits beschriebenen Kohärenzgründen. Aber es gibt ein zusätzliches Scheitern jenseits der Kohärenz: Ohne strukturelle Einschränkungen verliert die KI das Konzept der narrativen Form. Sie generiert plausible Fortsetzungen ohne jeden Mechanismus für steigende Handlung, ohne jedes Konzept eines Höhepunkts, der verdient werden muss, ohne jedes Verständnis dafür, dass die Geschichte irgendwo ankommen muss. Sitzungen fühlen sich an, als würden sie auf ewig irgendwohin gehen, ohne je anzukommen. Die Spannung löst sich nie. Die Geschichte endet nie. Der Spieler verlässt sie schließlich, nicht weil sie brach, sondern weil sie nie etwas bedeutet hat.

Reine strukturelle Kontrolle · das Ink/Twine-Modell · scheitert aus dem entgegengesetzten Grund. Jede Verzweigung ist manuell verfasst. Der Baum der Möglichkeiten ist endlich und dem Spieler als endliches Auswahlmenü sichtbar. Es gibt keine echte Improvisation, keine Überraschung, kein Gefühl, dass die Welt speziell auf dich reagiert. Die Geschichte kann nur an Orte gehen, die der Autor vorbereitet hat. Das ist für kleine, eng abgesteckte Erfahrungen in Ordnung, skaliert aber nicht und passt sich nicht an.

Forschung aus 2025 konvergiert auf hybride Ansätze. Systeme wie STORYVERSE übersetzen vom Autor definierte abstrakte Plotpunkte · narrative Akte · über LLM in detaillierte Figurenhandlungen, was es der Geschichte ermöglicht, sich dynamisch zu entwickeln, während sie den Plotplan des Autors noch respektiert. Von Answer-Set-Programming (ASP) geführte Generierung produziert strukturell vielfältigere Geschichten als ungeleitete LLMs, während sie kausale Schlüssigkeit aufrechterhält. Das Muster ist konsistent: Struktur regiert die Spine, LLM-Generierung füllt das Fleisch.

Der Sweetspot: Feste Spine, variables Fleisch. Die Spine · der Kernkonflikt, die Charakterbögen, die Weltveränderung · wird vom Architekten (Sonnet) geplant und variiert nicht. Das Fleisch · wie Hinweise entdeckt werden, welcher NSC welche Information liefert, die Textur jedes Beats · wird jedes Mal frisch generiert. Der Spieler erlebt echte Handlungsmacht im Fleisch, während die Geschichte die kohärente Form der Spine beibehält.

Diese Architektur löst auch ein subtiles Problem, das reine Freiheit schafft: narrative Eskalationsschuld. Wenn ein LLM keine strukturellen Beat-Einschränkungen hat, neigt es dazu, jede Szene intensiver als die letzte zu eskalieren, weil intensive Fortsetzungen statistisch wahrscheinlicher positiv in seinem Trainings­signal verstärkt werden. Das Ergebnis sind Geschichten, die zu früh kulminieren und dann nicht mehr herunterkommen können. Zum dritten Austausch steht das Schicksal des Universums auf dem Spiel. Zum fünften ist es wieder passiert. Beat-Typ-Einschränkungen · die der Choreograf vor jedem Rendering erzwingt · verhindern das, indem sie verlangen, dass spezifische Beat-Slots mit Atmosphäre-Beats, Charakter-Beats und Interaktions-Beats gefüllt werden, nicht nur mit Story-Beats. Der Arc hat Atempausen, weil die Architektur sie erfordert, nicht weil der Renderer sie gewählt hat.

05 · Der vierte Fehlermodus

NSC-Persönlichkeitskonsistenz

NSCs sind das wichtigste Qualitätssignal in interaktiver Narrative. Spieler verzeihen vieles · ungelenkes Tempo, repetitive Beat-Struktur, vorhersehbaren Plot · aber sie verzeihen keinen NSC, der sich in jedem Gespräch anders anhört. Das Gefühl, dass eine Figur eine echte Person mit einem konsistenten Innenleben ist, ist die Grundlage emotionaler Bindung. Das zu zertrümmern verwandelt die Geschichte in einen Textgenerator statt in eine Welt.

Der naive Ansatz · „Sei diese Figur: Marcus, ein grober Frachttransporter, der zu viel gesehen hat" · scheitert zuverlässig über ausgedehnte Sitzungen. Forscher identifizieren dieses Scheitern als mit zwei Komponenten. Die erste ist Aufmerksamkeitsablenkung: Wenn das Kontextfenster sich mit Gesprächshistorie und injiziertem Weltzustand füllt, schwächt sich die Aufmerksamkeit des Modells auf die Figurenbeschreibung ab. Der charakterdefinierende Text ist technisch im Prompt, aber sein statistischer Einfluss auf die Ausgabe nimmt im Verhältnis zum Volumen anderer Token ab. Der NSC beginnt, zu einem generischen „vernünftigen Person"-Register abzudriften.

Die zweite Komponente ist das, was die Literatur Flanderisierung nennt · ein aus der Animationskritik entlehnter Begriff. Eine komplexe Figur vereinfacht sich schrittweise, bis nur ihr auffälligstes Merkmal übrig bleibt. Marcus der grobe Frachttransporter wird einfach grob. Dann einfach kurz aufbrausend. Dann generisch aggressiv. Die Nuancen kollabieren unter dem Gewicht wiederholten Generierungsdrucks.

Uneingeschränkter NSC-Prompt


„Du bist Marcus, ein Frachttransporter. Du bist grob und hast zu viel gesehen. Beantworte die Frage des Spielers."


Ergebnis: Generische Grobheit. Inkonsistent über Sitzungen. Stimme driftet zu dem, wie Trainingsdaten sagen, ein „grober Transporter" klingt. Keine unterscheidenden Merkmale überleben mehr als ein paar Austausche.

Eingeschränkter Entitätskarten-Prompt


„Stimme: knappe Sätze, kein Small Talk, nautischer Slang aus einem früheren Leben auf dem Wasser. Eigenschaft: pragmatisch bis zur Grausamkeit. Ideal: Ein Deal ist ein Deal, keine Ausnahmen. Bindung: Das Schiff ist das letzte Ding aus seinem alten Leben. Fehler: Kann nicht um Hilfe bitten. Agenda: Muss diese Ladung liefern, bevor sie herausfinden, was drin ist. NIEMALS: In Absätzen sprechen. NIEMALS: Informationen freiwillig anbieten."


Ergebnis: Eine markante Stimme, die lange Sitzungen überlebt. Spezifisch genug, um wiedererkennbar zu sein, eingeschränkt genug, um im Register zu bleiben.

Die Lösung ist nicht reichhaltigere Charakterisierung im Sinne von mehr Beschreibung · es ist reichhaltigere Charakterisierung im Sinne von mehr Verhaltenseinschränkungen. Das Modell muss nicht nur wissen, wer diese Person ist, sondern was sie niemals tut, was sie immer tut, wie sie Sätze strukturiert, welche Themen sie vermeidet, welche Themen sie nicht anders kann als immer wieder aufzugreifen. Forschung zu „kodifizierten Profilen" zeigt, dass selbst 1-Milliarden-Parameter-Modelle Profilkonsistenz vergleichbar mit viel größeren Modellen aufrechterhalten können, wenn Verhaltenslogik als ausführbare Einschränkung statt als narrative Beschreibung ausgedrückt wird. Die Einschränkung ist das tragende Element, nicht die Prosa.

Das bildet sich direkt auf das Entitätsschema in der Narrative Engine ab. Eine NSC-Entität muss ihre Stimmeneinschränkungen tragen · nicht als Figurenbiografie, sondern als Rendering-Spezifikation. Diese Spezifikation wird in jeden Haiku-Aufruf injiziert, der den NSC einbezieht. Das Modell muss sich nicht erinnern, wer diese Person ist. Die Architektur stellt sicher, dass jeder einzelne Aufruf, der die Stimme dieses NSC produziert, von denselben expliziten Einschränkungen ausgeht.

06 · Der fünfte Fehlermodus

Die Eskalationsfalle

Tempo ist die am meisten unterschätzte Dimension narrativer Qualität. Eine Geschichte mit guter Prosa, kohärentem Weltzustand und konsistenten Figuren kann sich immer noch erschöpfend anfühlen, wenn jeder Beat Intensität eskaliert. Drama erfordert Kontrast. Spannung wird nur vor dem Hintergrund der Ruhe gespürt. Ein System, das jede Szene eskaliert, produziert keine hocheinsätzige Narrative · es produziert Taubheit.

LLMs eskalieren, wenn sie sich selbst überlassen werden. Das ist keine Designentscheidung · es ist eine statistische Tendenz. Trainingsdaten sind auf Szenen ausgerichtet, die interessant genug waren, um geschrieben und aufbewahrt zu werden. Interessante Szenen neigen dazu, Konflikt, Enthüllung oder Konsequenz zu beinhalten. Das Modell überabtastet daher Konflikt und Konsequenz bei der Generierung von Fortsetzungen, weil diese Fortsetzungen dem Inhalt statistisch am ähnlichsten sind, den es zu produzieren trainiert wurde. Ein uneingeschränkter Generierungsaufruf für „die nächste Szene" wird unverhältnismäßig oft Szenen mit erhöhten Einsätzen, dringenden Problemen und vorrückenden Bedrohungen produzieren.

Der Preis dafür ist unsichtbar, bis man den Arc als Ganzes betrachtet. Beat 1: Verschwörung enthüllt. Beat 2: Neue Bedrohung entsteht. Beat 3: Die Einsätze werden als höher enthüllt. Beat 4: Etwas ist schlimmer als erwartet. Zum fünften Beat war der Spieler zwanzig Minuten bei maximaler Spannung, und der nominale Höhepunkt des Arcs · wenn er ankommt · landet ohne emotionale Wirkung, weil es nirgendwo höher zu gehen gibt. Die Eskalationsfalle bedeutet, dass sich jeder Beat wie ein Höhepunkt anfühlt, was bedeutet, dass keiner es tut.

Spannung ohne Entspannung ist kein Drama · es ist Erschöpfung. Der Atmosphäre-Beat und der Charakter-Beat existieren genau, um den Kontrast zu bieten, der den Story-Beat landen lässt.

Beat-Typen sind die architektonische Intervention. Wenn der Choreograf gezwungen ist, eine bestimmte Verteilung von Beat-Typen über einen Arc zu produzieren · Story-Beats, Charakter-Beats, Atmosphäre-Beats, Interaktions-Beats, Entscheidungs-Beats · wird Eskalation strukturell unmöglich. Ein Atmosphäre-Beat kann keine Einsätze eskalieren. Ein Charakter-Beat kann das Bedrohungsniveau nicht erhöhen. Diese Einschränkungen sind keine kreativen Grenzen. Sie sind der Mechanismus, der emotionale Variation überhaupt erst möglich macht.

Forschung zu emotional arc-geführter Generierung (2025) bestätigt das direkt. Systeme, die emotionale Arc-Trajektorien spezifizieren · explizit einschließlich Fallsegmente, nicht nur Aufstieg · produzieren deutlich höheres Spielerengagement und Narrativkohärenz als Systeme, die Beats ohne Tempoeinschränkungen generieren. Der emotionale Arc ist keine nachträglich angewendete Dekoration. Er ist ein primärer Designinput, der die Generierung einschränken muss, nicht ihre Ausgabe beschreiben.

Das bedeutet, der Choreograf der Narrative Engine (Sonnet) muss Beat-Typen spezifizieren, bevor Haiku irgendetwas rendert. Der Beat-Typ ist kein nach der Generierung angewendetes Tag. Er ist eine Einschränkung, die ihr vorausgeht. Ein als Atmosphäre-Beat markierter Beat muss von Haiku unter der Einschränkung gerendert werden, dass er den Plot nicht vorantreiben oder Einsätze erhöhen kann. Haiku entscheidet nicht, ob ein Beat eskaliert. Die Architektur tut es.

Die Eskalationseinschränkung ist nicht verhandelbar. Der Beat-Typ muss in der Choreografiephase angegeben und als Rendering-Einschränkung in jedem Haiku-Aufruf erzwungen werden. Ein Renderer, der nur „Beat 7 von 12 in einem Verschwörungs-Arc" empfängt, wird eskalieren. Ein Renderer, der „Beat 7 von 12 · Typ: Charakter-Beat · Zweck: die persönlichen Kosten des Informanten zeigen" empfängt, kann nicht eskalieren, selbst wenn seine statistischen Tendenzen ihn dazu ziehen.

07 · Was tatsächlich funktioniert

Erkenntnisse aus dem Prompt-Engineering

Über die spezifischen Fehlermodi hinaus brachte diese Forschung eine Reihe von Prompt-Designprinzipien ans Licht, die zuverlässige Hochqualitätsgenerierung von unzuverlässiger mittelmäßiger Generierung unterscheiden. Das sind keine philosophischen Präferenzen. Es sind beobachtbare architektonische Muster mit messbaren Ausgabekonsequenzen.

Anti-Muster statt Beispiele


Beispiele in Prompts werden zu statistischen Decken. Das Modell lernt die Verteilung der Beispiele und optimiert auf sie hin. Ein gutes Schwarze-Brett-Beispiel wird zum Ziel, um das alle Schwarze-Brett-Ausgaben clustern. Das Ergebnis ist weniger Variation, weniger Überraschung und eine schrittweise Regression zum Mittelwert der bereitgestellten Stichproben.


Anti-Muster · explizite Einschränkungen, was die Ausgabe niemals tun darf · wirken anders. Sie definieren eine Grenze, kein Ziel. Innerhalb dieser Grenze erkundet das Modell frei. Die Ausgabe ist sowohl eingeschränkt (kein Erzählerton, keine vollständigen Sätze, kein temporales Zögern) als auch vielfältig (alles andere bleibt offen). Das ist die EV2090-Entdeckung, die die Narrative Engine erbt: NIEMALS schlägt JA.

Dynamische Kontextinjektion


Hartcodierte System-Prompts · Prompts, die universumsspezifische Fakten, Figurennamen oder Weltzustand enthalten · werden sofort veraltet und können nicht kontextübergreifend wiederverwendet werden. Dynamische Kontextinjektion, bei der relevanter Zustand zum Aufrufzeitpunkt zusammengestellt und injiziert wird, hält die Prompt-Architektur generisch, während der Inhalt spezifisch bleibt.


Die praktische Implikation: Die Prompts der Narrative Engine sollten keine universumsspezifischen Informationen enthalten. Das EV2090-System zeigt, dass das Hardcodieren von Sol und vier Planeten in den Prompt eine Wartungsfalle ist. Die Engine-Prompts sollten Struktur und Einschränkungen beschreiben. Der Inhalt kommt aus dem Weltzustand.

Temperatur und Kohärenz


Höhere Temperatur produziert überraschendere Fortsetzungen. Niedrigere Temperatur produziert vorhersehbarere. Für die Narrativgenerierung schafft das ein Kalibrierungsproblem: Man möchte überraschende Story-Ideen (hohe Temperatur in der Konzeptphase), aber zuverlässige strukturelle Ausgabe (niedrigere Temperatur in der Choreografiephase) und konsistente Figurenstimme (niedrige Temperatur beim Rendering).


Die EV2090-Pipeline wendet das bereits korrekt an: 0,85 für Konzeptgenerierung, 0,7 für Audit, 0,8 für Choreografie. Das Prinzip lautet: Temperatur sollte abnehmen, wenn strukturelle Präzision zunimmt. Die Pipeline-Phase, die gültiges JSON mit korrekten Beat-Zählungen produzieren muss, sollte nicht mit derselben Temperatur laufen wie die Phase, die Prämissenideen generiert.

Kausalitätsdurchsetzung


Ohne explizite Kausalitätsanforderungen fühlen sich generierte Beats wie unabhängige Szenen statt wie eine verbundene Geschichte an. Das Modell generiert jeden Beat als intern kohärent · gute Prämisse, richtiger Kanal, richtiges emotionales Register · aber die Beats beziehen sich nicht aufeinander. Der Spieler erlebt eine Abfolge nicht zusammenhängender Ereignisse, keine Geschichte.


Jeden Beat dazu zu zwingen, zu spezifizieren, worauf er reagiert und was er andeutet, zwingt den Choreografen, in Ketten statt in isolierten Momenten zu denken. Der resultierende Beat-Graph ist eine narrative Struktur, keine Liste. Das ist der Unterschied zwischen Inhaltsgenerierung und Erzählgenerierung.

Eine weitere Erkenntnis betrifft Aufgabenzerlegung. Prompts, die das Modell bitten, gleichzeitig narrativen Inhalt zu generieren, Rendering-Anweisungen zu spezifizieren, Kanalmetadaten zuzuweisen und Konsequenzen zu definieren, produzieren schlechtere Ausgabe als Prompts, die jedes davon in Sequenz erfragen. Die Pipeline-Architektur · bei der jede Phase eine einzige, fokussierte Verantwortung hat · ist keine organisatorische Präferenz. Sie ist eine Reaktion auf eine messbare Qualitätsverschlechterung, die auftritt, wenn Generierungsaufrufe mit konkurrierenden Zielen überladen werden. Atomizität in LLM-Aufrufen verbessert die Ausgabequalität aus demselben strukturellen Grund, aus dem sie die Code-Qualität verbessert.

08 · Entdeckungen

Was wir gelernt haben, was wir nicht erwartet hatten

Erkenntnis 1: Das Modell ist nie der Engpass

Jeder identifizierte Fehlermodus · Kohärenzkollaps, kontextblinder Ton, Figurendrift, Eskalationsfallen · ist ein Architekturproblem, kein Modell-Fähigkeitsproblem. Dasselbe Modell produziert mit besserem strukturellem Gerüst dramatisch bessere Ausgabe. Diese Erkenntnis ist kontraintuitiv: Der Reflex, wenn die Ausgabe schlecht ist, ist ein größeres Modell einzusetzen. Die Evidenz sagt: erst die Architektur reparieren. Ein gut strukturierter Aufruf an ein kleineres Modell übertrifft einen unstrukturierten Aufruf an ein größeres in jeder Kategorie narrativer Qualität, die wir untersucht haben.

Erkenntnis 2: „Konsistenz" und „Vielfalt" stehen nicht im Widerspruch

Die Branche geht davon aus, dass KI-Narrative konsistent zu machen Vielfalt opfert · dass Einschränkungen Gleichförmigkeit produzieren. Die Forschung zeigt das Gegenteil. Einschränkungen dessen, was Inhalt nicht tun darf (kein Erzählerton, keine Eskalation in Atmosphäre-Beats, kein direktes Nennen von Weltereignissen), produzieren vielfältigere Ausgabe innerhalb dieser Grenzen als uneingeschränkte Generierung, die sich um statistisch wahrscheinliche Muster gruppiert. Die Einschränkung ist eine Zwangsfunktion für Erkundung. Das uneingeschränkte Modell nimmt den einfachsten Weg. Das eingeschränkte Modell muss einen Weg finden, der die einfachen Ausfahrten nicht nimmt.

Erkenntnis 3: Die Rendering-Schicht ist das Qualitätsproblem, nicht die Generierungsschicht

Bei der Überprüfung von EV2090 und vergleichbaren Systemen ist die narrative Architektur (was passiert) konsistent zuverlässiger als die Rendering-Ausgabe (wie es präsentiert wird). Story-Arcs sind kohärent. Beat-Sequenzen ergeben strukturell Sinn. Der Fehler liegt auf der letzten Meile: dem eigentlichen Text, den der Spieler liest. Das ist ein diagnostischer Befund mit einer klaren Implikation · die Narrative Engine sollte ihre Prompt-Engineering-Investition unverhältnismäßig in die Rendering-Schicht stecken. Der Choreograf kann schlank sein, weil er Struktur produziert, keine Prosa. Die Kanal-Renderer müssen reich sein, weil sie die Ausgabe produzieren, die Spieler tatsächlich erleben.

Erkenntnis 4: Passive Zeitlinien lösen ein Generierungsproblem, nicht nur ein Designproblem

Wir haben passive Zeitlinien (was passiert, wenn kein Spieler handelt) einbezogen, weil sie gutes Narrativdesign sind. Wir haben entdeckt, dass sie auch ein Generierungsqualitätsproblem lösen. Wenn der Choreograf nicht nur spezifizieren muss, „welche Beats existieren", sondern „was auf dieser Zeitlinie unabhängig von Spielern passiert", wird er gezwungen, über Kausalität und Konsequenzen nachzudenken, auf eine Weise, die das bloße Auflisten von Beats nicht erfordert. Die passive Zeitlinie ist eine Zwangsfunktion für interne Geschichtslogik · wenn die Welt ohne den Spieler fortschreitet, müssen die Beats kausal kohärent in Sequenz sein. Arcs, die mit passiven Zeitlinienanforderungen generiert werden, zeigen substantiell bessere interne Kausalität als Arcs, die allein als Beat-Listen generiert werden.

09 · Engine-Implikationen

Wie diese Forschung die Architektur prägt

Jeder in dieser Forschung identifizierte Fehlermodus bildet sich direkt auf eine strukturelle Entscheidung in der Narrative Engine ab.


Weltzustand als obligatorischer Kontext in jedem Generierungsaufruf. Kohärenzkollaps wird nicht durch Modell-Fähigkeit verhindert, sondern durch architektonische Disziplin · jeder Sonnet-Aufruf empfängt den relevanten Weltzustandsausschnitt. Das Modell erinnert sich nicht. Das System liefert.

Sonnet entwirft, Haiku rendert · das sind separate Aufrufe mit separaten Prompts. Das kontextblinde Generierungsproblem wird durch architektonische Trennung gelöst. WAS und WIE werden nie in einem einzigen Aufruf kombiniert. Der Renderingkontext (Kanal, Stimme, Format, Anti-Muster) ist vollständig spezifiziert, bevor der Renderingaufruf erfolgt.

Keine Beispiele in Prompts · nur Einschränkungen und Anti-Muster. Das wird von EV2090 geerbt und durch Forschung bestätigt. Beispiele werden zu Decken. Anti-Muster erzwingen Grenzen, ohne den Lösungsraum einzuschränken. Jeder Prompt in der Engine spezifiziert, was die Ausgabe niemals tun darf.

Beat-Typen werden vom Choreografen spezifiziert, nicht vom Renderer gewählt. Die Eskalationsfalle wird geschlossen, indem Sonnet gezwungen wird, einen Beat-Typ · mit seinen zugehörigen Einschränkungen · zuzuweisen, bevor Haiku irgendetwas rendert. Haiku rendert innerhalb der Typ-Einschränkung. Es kann einen Atmosphäre-Beat nicht eskalieren, selbst wenn seine statistischen Tendenzen es zur Eskalation ziehen.

NSC-Stimme ist im Entitätsschema definiert und in jeden Renderingaufruf für diesen NSC injiziert. Charakterdrift wird verhindert, indem die Persönlichkeitskarte zu einem erstklassigen Entitätsattribut gemacht wird, kein Prompt-Narrativ. Die Einschränkungsspezifikation · Verhaltensregeln, NIEMALS-Klauseln, Satzstruktur, Themen · reist mit der Entität in jeden Aufruf, der sie einbezieht.

Kausalität ist bei der Beat-Choreografie obligatorisch. Jeder Beat muss deklarieren, worauf er reagiert und was er andeutet. Der Choreograf kann keinen Beat produzieren, der keine kausalen Beziehungen hat. Das wandelt Beat-Listen in Beat-Graphen um · die Mindeststruktur für Geschichte statt Inhalt.

Prompts sind pipeline-phasenspezifisch. Jede Phase · Konzept, Audit, Choreografie, Pro-Beat-Rendering · hat genau eine Verantwortung. Aufrufe, die Verantwortlichkeiten kombinieren, verschlechtern sich in der Ausgabequalität. Die Architektur erzwingt Atomizität bei der Generierung aus demselben Grund, aus dem gute Software sie bei Funktionen erzwingt.

10 · Verbindungen

Verbindungen zur übrigen Forschung

Forschung 01 · D&D Modulstruktur

Das ursprüngliche Kanalrendering-Konzept

Der D&D-„Vorlesetext"-Kasten ist der erste formale Lieferkanal: für einen spezifischen Kontext mit spezifischen Register-, Tempo- und Vokabularregeln geschriebener Text. Das NSC-Persönlichkeitsmodell (Eigenschaft / Ideal / Bindung / Fehler) ist das ursprüngliche Persönlichkeitskarten-System. Beide lösten dieselben Probleme, die diese KI-Forschung identifiziert, Jahrzehnte bevor LLMs existierten.

Forschung 02 · Warhammer: The Enemy Within

Feste Spine als Kohärenzeinschränkung

Feste Spine, variables Fleisch ist die architektonische Antwort auf das Kohärenzkollaps-Problem. TEW bewies, dass man eine kohärente ausgedachte Geschichte mit echter Variation über Durchläufe hinweg haben kann. Die Spine wahrt die Integrität; das Fleisch ist der Bereich, wo LLM-Generierung operiert, ohne sie zu bedrohen.

Forschung 04 · Improv-SL-Techniken

Menschliches Analogon zu strukturellen Einschränkungen

Das Fronts-/Clocks-Modell aus Apocalypse World löst die passive Zeitliniengenerierung. Improv-SL-Techniken sind die menschliche Praxis von genau dem, was diese Forschung algorithmisch empfiehlt: Kohärenz durch Einschränkungen aufrechterhalten, nicht durch Gedächtnis. Die Drei-Hinweis-Regel ist die menschliche Version redundanter Informationspfade.

Forschung 06 · EV2090 Code-Analyse

Fehlermodi in der Produktion

EV2090 ist eine funktionierende Implementierung, die die hier beschriebenen Fehlermodi im Produktionsmaßstab exponiert. Kontextblindheit beim Rendering und flache NSC-Stimmen sind keine theoretischen Probleme · sie sind die gemessene tägliche Ausgabe eines Live-Spiels. Die fünf Fehlermodi aus der ACL-Übersicht bilden sich direkt auf die acht strukturellen Lücken in der EV2090-Analyse ab.

Die Landschaft der prozeduralen Narrative-KI ist übersät mit Systemen, die aus strukturellen Gründen scheiterten · Gründen, die im Nachhinein sichtbar waren, aber im Design nicht verhindert wurden. Die Fehlermodi sind bekannt. Die Gegenmaßnahmen sind bekannt. Die verbleibende Frage ist, ob ein System alle gleichzeitig implementieren kann, im großen Maßstab, ohne dass die Architektur unter ihren eigenen Einschränkungen zusammenbricht.

Das ist die Frage, die die Narrative Engine zu beantworten entworfen wurde.