01 · Pourquoi cette recherche

Avancer sur les épaules de l'échec

Avant de concevoir un moteur narratif, nous devions comprendre le paysage des tentatives qui l'ont précédé. Non pas pour cartographier le domaine académiquement, mais pour répondre à une question d'ingénierie très précise : quelles décisions architecturales font échouer la narration générée par IA, et lesquelles préviennent ces échecs ?

La réponse compte parce que les modes d'échec de la narration IA ne sont pas évidents. Ils ne ressemblent pas à du code cassé. Ils ressemblent à du contenu techniquement cohérent mais experientiellement creux · une diffusion qui sonne comme une personne, un tableau d'affichage qui se lit comme un narrateur, un méchant dont la voix change entre les scènes, une histoire qui culmine toutes les cinq minutes jusqu'à ce que le joueur s'engourdisse. Ces échecs sont invisibles aux contrôles de qualité automatisés. Ils exigent de savoir à quoi ressemble le bon résultat, puis de comprendre pourquoi le système s'en est éloigné.

Cette recherche couvre trois couches : les systèmes existants qui ont tenté la génération narrative procédurale, les modes d'échec techniques qui apparaissent dans tous, et les interventions structurelles qui traitent chaque échec. Chaque décision de design du Narrative Engine peut être tracée jusqu'à quelque chose qui a mal tourné ici.

Trois résultats de la littérature de recherche encadrent cette analyse :

  • L'incohérence des personnages est la plainte la plus citée sur les plateformes de jeu de rôle propulsées par IA — avant une mauvaise intrigue, un rythme lent, ou un manque de défi. cuckoo.network, 2025 ↗
  • Une étude ACL 2025 sur les LLM pour la génération d'histoires a catalogué 5 modes d'échec distincts récurrents dans tous les systèmes examinés : effondrement de la cohérence, incohérence des personnages, échec du rythme, génération aveugle au contexte et illusion d'agentivité. ACL Anthology, 2025 ↗
  • Le cadre SCORE atteint une amélioration de cohérence de 23,6 % par rapport à la génération non structurée en maintenant un contexte de récupération au niveau des épisodes à travers des séquences de beats. arxiv, 2025 ↗
02 · Le premier mode d'échec

L'effondrement de la cohérence

L'échec le plus ancien et le plus documenté de la narration IA est l'effondrement de la cohérence : l'effilochage progressif de la logique narrative au fil de l'extension d'une session. Des systèmes comme AI Dungeon ont rendu cet échec célèbre. Les utilisateurs commençaient une histoire avec une mise en place soigneuse · un personnage précis, un monde précis, une mission précise · et constataient qu'au quinzième échange, le personnage avait oublié son propre nom, le monde avait changé de genre, et la mission avait été remplacée par quelque chose d'entièrement sans rapport. L'histoire ne s'est pas cassée. Elle s'est dissoute.

Le mécanisme est architectural. Un LLM n'est pas un compréhenseur d'histoires. C'est un prédicteur de séquences. À n'importe quel moment, il génère la continuation la plus probable des tokens dans sa fenêtre de contexte. Il n'a aucun modèle interne de l'histoire, aucun enregistrement de ce qui a été établi, aucune compréhension de ce qui constituerait une contradiction. Il n'a que le texte récent. Quand le contexte antérieur · la motivation du méchant, l'emplacement de l'artefact, l'objectif déclaré du joueur · sort de la fenêtre de contexte, il est parti. Le modèle ne sait pas qu'il l'a perdu. Il génère simplement en avant, et la continuation suivante est plausible par rapport aux tokens récents tout en étant incohérente par rapport à l'arc complet.

Ce n'est pas un échec de capacité. Des modèles plus puissants aggravent ce problème d'une façon spécifique : ils génèrent des continuations plus convaincamment fausses. Un petit modèle produit un output manifestement cassé. Un grand modèle produit un output élégamment faux qui se lit comme intentionnel jusqu'à ce qu'on remonte trois scènes en arrière et qu'on réalise que le personnage dont on vient de pleurer la mort est toujours listé comme vivant deux beats plus tôt.

L'intuition fondamentale : Les LLM prédisent des continuations plausibles · ils ne maintiennent pas l'état du récit. La cohérence sur de longs arcs exige un état du monde explicitement maintenu en externe, injecté dans chaque appel de génération. On ne peut pas faire confiance au modèle pour se souvenir. L'architecture doit se souvenir à sa place.

Le cadre SCORE 2025 (Story Coherence and Retrieval Enhancement) traite directement ce mécanisme. Il atteint une amélioration de cohérence de 23,6 % par rapport aux modèles GPT de base en maintenant des résumés au niveau des épisodes et un suivi des éléments clés dans une couche de récupération · en construisant effectivement l'état du monde externe que les LLM ne peuvent pas maintenir en interne. Le résultat réduit les hallucinations de 41,8 % et atteint 89,7 % de cohérence émotionnelle. L'amélioration est entièrement structurelle, indépendante des capacités du modèle. Le même modèle, avec les mêmes poids, produit un output dramatiquement plus cohérent quand on lui fournit un état explicite contre lequel raisonner.

C'est la leçon fondamentale. L'objet World State du Narrative Engine n'est pas une fonctionnalité de confort. C'est le mécanisme qui rend la narration cohérente étendue possible. Chaque appel de génération · chaque concept d'arc, chaque chorégraphie de beat, chaque dialogue de PNJ · doit recevoir la tranche pertinente de l'état du monde comme input explicite. Sans cela, le modèle génère dans le noir.

03 · Le deuxième mode d'échec

La génération aveugle au contexte : le problème du contenu bâclé

Il existe un deuxième échec moins discuté dans la littérature mais qui est le problème de qualité central dans notre système EV2090 existant. Appelons-le la génération aveugle au contexte : le LLM produit du contenu sans qu'on lui ait dit comment ce contenu sera consommé. Le résultat est un contenu narrativement exact mais tonalement faux · du contenu qui atterrit dans le mauvais registre pour son canal de livraison.

L'échec concret ressemble à ceci. Un message pour tableau d'affichage est généré. Les faits narratifs sont corrects. Le timing est juste. Le beat fait avancer l'histoire. Mais le texte se lit comme un narrateur qui résume les événements pour le lecteur, pas comme une note écrite à la main collée sur un tableau en liège par un docker effrayé. Une diffusion de station est générée. L'information est exacte. Mais elle sonne comme un personnage en train de se répandre plutôt que comme une annonce institutionnelle. Un échange NPC en COMMS est généré. Le contenu est là. Mais la voix est plate · ça pourrait être n'importe qui.

Le tableau d'affichage qui se lit comme un narrateur. La diffusion qui sonne comme une personne. Le PNJ qui parle en phrases complètes avec une grammaire parfaite. Ce ne sont pas de petits échecs esthétiques. Ce sont la différence entre une histoire qui fonctionne et un monde qui respire.

Cet échec a une cause précise. Quand un prompt dit « génère un message de tableau d'affichage sur la perturbation du fret », le modèle puise dans sa distribution d'entraînement de ce à quoi ressemblent les messages de tableau d'affichage. Mais ses données d'entraînement contiennent des millions d'exemples de texte narratif décrivant des événements · romans, scénarios, articles · et un échantillon comparativement minuscule de vraies notices écrites à la main sur des tableaux d'affichage. L'attraction statistique vers le registre narratif est plus forte que vers le registre correct du canal. Sans contraintes de canal explicites et détaillées dans le prompt, le modèle adopte par défaut le registre le plus courant qu'il a vu pour un contenu similaire.

Crucialmente, ce n'est pas un échec du modèle. C'est un échec d'architecture de prompt. Le modèle est capable de générer une notice de tableau d'affichage qui ressemble exactement à une notice de tableau d'affichage · mais seulement si le prompt fournit le canal de livraison avec suffisamment de spécificité : qui l'a écrite, dans quel état émotionnel, avec quelles contraintes physiques (griffonnée au marqueur ? tapée à l'imprimante ?), pour quel public, avec quelle convention de brièveté ou d'urgence. Quand ce contexte est présent, l'output se transforme. Quand il est absent, le modèle devine, et sa supposition est fausse.

C'est l'argument architectural pour la séparation de la couche de rendu du Narrative Engine. Sonnet décide ce qui se passe. Haiku reçoit cette décision plus un contexte de rendu riche · canal, voix, format, anti-patterns · puis génère le texte réel. Les deux préoccupations sont séparées précisément parce que les exigences de contexte de rendu sont complètement orthogonales aux exigences de contenu narratif. Un beat qui fonctionne comme une diffusion nécessite un échafaudage de prompt totalement différent du même beat rendu comme un document environnemental. Combiner les deux préoccupations dans un seul appel dégrade les deux.

Le canal de livraison n'est pas une règle de mise en forme. C'est une contrainte fondamentale sur la voix, le registre, la structure des phrases, le lexique, le public supposé et la posture émotionnelle. Il doit être spécifié explicitement dans chaque appel de rendu · pas implicite, pas espéré.

04 · Le troisième mode d'échec

Le compromis agentivité / structure

Chaque système narratif procédural doit naviguer la même tension fondamentale : la liberté maximale du joueur produit des histoires incohérentes, et le contrôle structurel maximum produit des expériences qui semblent rédigées plutôt que vécues. L'industrie est arrivée à cette tension des deux côtés et a trouvé le même point d'équilibre étroit.

La génération non structurée pure · le modèle AI Dungeon · s'effondre sous un jeu étendu pour les raisons de cohérence déjà décrites. Mais il y a un échec supplémentaire au-delà de la cohérence : sans contraintes structurelles, l'IA perd le concept de forme narrative. Elle génère des continuations plausibles sans aucun mécanisme pour l'action montante, sans aucun concept d'un climax qui doit être mérité, sans aucune compréhension que l'histoire doit arriver quelque part. Les sessions semblent aller quelque part indéfiniment sans jamais y arriver. La tension ne se résout jamais. L'histoire ne se termine jamais. Le joueur finit par l'abandonner, non pas parce qu'elle est cassée, mais parce qu'elle n'a jamais rien signifié.

Le contrôle structurel pur · le modèle Ink / Twine · échoue pour la raison inverse. Chaque embranchement est rédigé manuellement. L'arbre des possibilités est fini et visible au joueur comme un menu de choix finis. Il n'y a pas de vraie improvisation, pas de surprise, pas de sentiment que le monde vous répond spécifiquement. L'histoire ne peut aller qu'aux endroits que l'auteur a préparés. C'est bien pour de petites expériences délimitées, mais ça ne passe pas à l'échelle et ça ne s'adapte pas.

La recherche de 2025 converge sur des approches hybrides. Des systèmes comme STORYVERSE traduisent des points d'intrigue abstraits définis par l'auteur · des actes narratifs · en actions de personnages détaillées via LLM, permettant à l'histoire d'évoluer dynamiquement tout en respectant le plan d'intrigue de l'auteur. La génération guidée par Answer Set Programming (ASP) produit des histoires structurellement plus diverses que les LLM non guidés tout en maintenant la solidité causale. Le schéma est constant : la structure gouverne la spine, la génération LLM remplit la chair.

Le point d'équilibre : Spine fixe, chair variable. La spine · le conflit central, les arcs des personnages, le changement du monde · est planifiée par l'architecte (Sonnet) et ne varie pas. La chair · comment les indices sont découverts, quel PNJ délivre quelle information, la texture de chaque beat · est générée fraîchement à chaque fois. Le joueur vit une agentivité réelle dans la chair tandis que l'histoire maintient la forme cohérente de la spine.

Cette architecture résout aussi un problème subtil que la liberté pure crée : la dette d'escalade narrative. Quand un LLM n'a aucune contrainte de type de beat, il a tendance à escalader chaque scène pour qu'elle soit plus intense que la précédente, parce que les continuations intenses sont statistiquement plus susceptibles d'être positivement renforcées dans son signal d'entraînement. Le résultat est des histoires qui culminent trop tôt et ne peuvent pas redescendre. Au troisième échange, le destin de l'univers est en jeu. Au cinquième, ça s'est reproduit. Les contraintes de type de beat · imposées par le chorégraphe avant tout rendu · empêchent cela en exigeant que des slots de beat spécifiques soient remplis avec des beats Atmosphere, Character et Interaction, pas seulement des beats Story. L'arc a de l'espace respiratoire parce que l'architecture l'exige, pas parce que le moteur de rendu le choisit.

05 · Le quatrième mode d'échec

La cohérence de personnalité des PNJ

Les PNJ sont le signal de qualité le plus important de la narration interactive. Les joueurs pardonnent beaucoup · un rythme maladroit, une structure de beat répétitive, une intrigue prévisible · mais ils ne pardonnent pas un PNJ qui sonne différemment à chaque conversation. Le sentiment qu'un personnage est une vraie personne avec une vie intérieure cohérente est le fondement de l'investissement émotionnel. Briser cela, et l'histoire devient un générateur de texte plutôt qu'un monde.

L'approche naïve · « sois ce personnage : Marcus, un transporteur de fret bourru qui en a trop vu » · échoue de manière fiable sur des sessions étendues. Les chercheurs identifient cet échec comme ayant deux composantes. La première est la diversion d'attention : à mesure que la fenêtre de contexte se remplit d'historique de conversation et d'état du monde injecté, l'attention du modèle sur la description du personnage s'affaiblit. Le texte définissant le personnage est techniquement dans le prompt, mais son influence statistique sur l'output diminue par rapport au volume des autres tokens. Le PNJ commence à dériver vers un registre de « personne raisonnable » générique.

La deuxième composante est ce que la littérature appelle la Flanderisation · un terme emprunté à la critique d'animation. Un personnage complexe se simplifie progressivement jusqu'à ce qu'il ne reste que son trait le plus saillant. Marcus le transporteur bourru devient juste bourru. Puis juste irascible. Puis agressif générique. La nuance s'effondre sous le poids de la pression répétée de la génération.

Prompt PNJ non contraint


« Tu es Marcus, un transporteur de fret. Tu es bourru et tu en as trop vu. Réponds à la question du joueur. »


Résultat : Brutalité générique. Incohérent d'une session à l'autre. La voix dérive vers ce que les données d'entraînement disent que sonne un « transporteur bourru ». Aucun trait distinctif ne survit plus de quelques échanges.

Prompt contraint avec fiche de personnage


« Voix : phrases courtes, pas de conversation anodine, argot nautique hérité d'une vie antérieure sur l'eau. Trait : pragmatique jusqu'à la cruauté. Idéal : un accord est un accord, sans exception. Lien : le vaisseau est le dernier vestige de son ancienne vie. Faille : incapable de demander de l'aide. Agenda : doit livrer cette cargaison avant qu'ils découvrent ce qu'il y a dedans. JAMAIS : parler en paragraphes. JAMAIS : donner des informations volontairement. »


Résultat : Une voix distincte qui survit aux longues sessions. Suffisamment spécifique pour être reconnaissable, suffisamment contrainte pour rester dans le registre.

La solution n'est pas une caractérisation plus riche au sens d'une description plus longue · c'est une caractérisation plus riche au sens de contraintes comportementales plus précises. Le modèle doit savoir non seulement qui est cette personne, mais ce qu'elle ne fait jamais, ce qu'elle fait toujours, comment elle structure ses phrases, quels sujets elle évite, quels sujets elle ne peut s'empêcher d'aborder. La recherche sur les « profils codifiés » montre que même des modèles d'un milliard de paramètres peuvent maintenir une cohérence de profil comparable à des modèles bien plus grands quand la logique comportementale est exprimée comme une contrainte exécutable plutôt qu'une description narrative. La contrainte est l'élément porteur, pas la prose.

Cela correspond directement au schéma d'entité du Narrative Engine. Une entité PNJ doit porter ses contraintes de voix · non pas comme une biographie de personnage, mais comme une spécification de rendu. Cette spécification est injectée dans chaque appel Haiku qui implique le PNJ. Le modèle n'a pas besoin de se souvenir qui est cette personne. L'architecture garantit que chaque appel produisant la voix de ce PNJ commence à partir des mêmes contraintes explicites.

06 · Le cinquième mode d'échec

Le piège de l'escalade

Le rythme est la dimension la plus sous-estimée de la qualité narrative. Une histoire avec une bonne prose, un état du monde cohérent et des personnages consistants peut quand même sembler épuisante si chaque beat escalade l'intensité. Le drame exige le contraste. La tension ne se ressent que sur fond de repos. Un système qui escalade chaque scène ne produit pas un récit à hauts enjeux · il produit un engourdissement.

Les LLM livrés à eux-mêmes escaladent. Ce n'est pas un choix de design · c'est une tendance statistique. Les données d'entraînement sont biaisées vers des scènes qui étaient suffisamment engageantes pour être écrites et préservées. Les scènes engageantes tendent à impliquer du conflit, de la révélation ou des conséquences. Le modèle sur-échantillonne donc depuis le conflit et les conséquences quand il génère des continuations, parce que ces continuations sont statistiquement les plus similaires au contenu qu'il a été entraîné à produire. Un appel de génération non contraint pour « la scène suivante » produira de manière disproportionnée des scènes avec des enjeux relevés, des problèmes urgents et des menaces progressantes.

Le coût de ceci est invisible jusqu'à ce qu'on regarde l'arc dans son ensemble. Beat 1 : conspiration révélée. Beat 2 : nouvelle menace qui émerge. Beat 3 : les enjeux s'avèrent être plus élevés que prévu. Beat 4 : quelque chose est pire qu'attendu. Au beat 5, le joueur est à tension maximale depuis vingt minutes, et le climax nominal de l'arc · quand il arrive · atterrit sans impact émotionnel parce qu'il n'y a nulle part plus haut où aller. Le piège de l'escalade fait que chaque beat ressemble à un climax, ce qui fait qu'aucun n'en est un.

La tension sans relâche n'est pas du drame · c'est de l'épuisement. Le beat Atmosphere et le beat Character existent précisément pour fournir le contraste qui fait atterrir le beat Story.

Les types de beats sont l'intervention architecturale. Quand le chorégraphe est tenu de produire une distribution spécifique de types de beats à travers un arc · beats Story, Character, Atmosphere, Interaction, Decision · l'escalade devient structurellement impossible. Un beat Atmosphere ne peut pas escalader les enjeux. Un beat Character ne peut pas faire monter le niveau de menace. Ces contraintes ne sont pas des limites créatives. Elles sont le mécanisme qui rend la variation émotionnelle possible en premier lieu.

La recherche sur la génération guidée par arc émotionnel (2025) le confirme directement. Les systèmes qui spécifient des trajectoires d'arc émotionnel · en incluant explicitement des segments de descente, pas seulement de montée · produisent des scores d'engagement des joueurs et de cohérence narrative significativement plus élevés que les systèmes qui génèrent des beats sans contraintes de rythme. L'arc émotionnel n'est pas une décoration appliquée après coup. C'est un input de design primaire qui doit contraindre la génération, pas décrire son output.

Cela signifie que le chorégraphe du Narrative Engine (Sonnet) doit spécifier les types de beats avant que Haiku ne rende quoi que ce soit. Le type de beat n'est pas une étiquette appliquée après génération. C'est une contrainte qui la précède. Un beat marqué beat Atmosphere doit être rendu par Haiku sous la contrainte qu'il ne peut pas faire avancer l'intrigue ni soulever les enjeux. Haiku ne décide pas si un beat escalade. L'architecture le fait.

La contrainte d'escalade est non négociable. Le type de beat doit être spécifié dans la phase de chorégraphie et imposé comme contrainte de rendu dans chaque appel Haiku. Un moteur de rendu qui reçoit seulement « beat 7 sur 12 dans un arc de conspiration » va escalader. Un moteur de rendu qui reçoit « beat 7 sur 12 · type : beat Character · but : montrer le coût personnel de l'informateur » ne peut pas escalader même s'il le voulait.

07 · Ce qui fonctionne vraiment

Résultats en ingénierie de prompts

Au-delà des modes d'échec spécifiques, cette recherche a fait émerger un ensemble de principes de design de prompts qui distinguent la génération fiable et de haute qualité de la génération médiocre et peu fiable. Ce ne sont pas des préférences philosophiques. Ce sont des patterns architecturaux observables aux conséquences mesurables sur l'output.

Anti-patterns plutôt qu'exemples


Les exemples dans les prompts deviennent des plafonds statistiques. Le modèle apprend la distribution des exemples et optimise vers elle. Un exemple de tableau d'affichage qui est bon devient la cible vers laquelle tout l'output de tableau d'affichage converge. Le résultat est moins de variation, moins de surprise et une régression graduelle vers la moyenne de vos échantillons fournis.


Les anti-patterns · des contraintes explicites sur ce que l'output ne doit jamais faire · fonctionnent différemment. Ils définissent une frontière, pas une cible. À l'intérieur de cette frontière, le modèle explore librement. L'output est à la fois contraint (pas de voix de narrateur, pas de phrases complètes, pas de temporisation) et divers (tout le reste reste ouvert). C'est la découverte d'EV2090 que le Narrative Engine hérite : JAMAIS bat OUI.

Injection de contexte dynamique


Les prompts système codés en dur · des prompts qui contiennent des faits spécifiques à l'univers, des noms de personnages ou un état du monde · deviennent obsolètes instantanément et ne peuvent pas être réutilisés dans différents contextes. L'injection de contexte dynamique, où l'état pertinent est assemblé et injecté au moment de l'appel, maintient l'architecture du prompt générique tandis que le contenu reste spécifique.


L'implication pratique : les prompts du moteur narratif ne doivent contenir aucune information spécifique à l'univers. Le système EV2090 montre que coder Sol et quatre planètes en dur dans le prompt est un piège de maintenance. Les prompts du moteur doivent décrire la structure et les contraintes. Le contenu vient de l'état du monde.

Température et cohérence


Une température plus haute produit des continuations plus surprenantes. Une température plus basse produit des continuations plus prévisibles. Pour la génération narrative, cela crée un problème de calibration : on veut des idées d'histoires surprenantes (température haute en phase de concept) mais un output structurel fiable (température plus basse en phase de chorégraphie) et une voix de personnage cohérente (température basse en rendu).


Le pipeline EV2090 applique déjà ceci correctement : 0,85 pour la génération de concept, 0,7 pour l'audit, 0,8 pour la chorégraphie. Le principe est que la température doit diminuer à mesure que la précision structurelle augmente. La phase du pipeline qui doit produire du JSON valide avec des nombres de beats corrects ne doit pas fonctionner à la même température que la phase qui génère des idées de prémisse.

Application de la causalité


Sans exigences de causalité explicites, les beats générés se sentent comme des scènes indépendantes plutôt qu'une histoire connectée. Le modèle génère chaque beat pour être cohérent en interne · bonne prémisse, canal correct, bon registre émotionnel · mais les beats ne se réfèrent pas les uns aux autres. Le joueur vit une séquence d'événements sans rapport, pas une histoire.


Exiger que chaque beat spécifie à quoi il réagit et ce qu'il préfigure force le chorégraphe à penser en chaînes plutôt qu'en moments isolés. Le graphe de beats résultant est une structure narrative, pas une liste. C'est la différence entre génération de contenu et génération d'histoire.

Un résultat supplémentaire concerne la décomposition des tâches. Les prompts qui demandent au modèle de simultanément générer du contenu narratif, spécifier des instructions de rendu, assigner des métadonnées de canal et définir des conséquences produisent un output inférieur à celui des prompts qui demandent chacun de ces éléments en séquence. L'architecture pipeline · où chaque phase a une seule responsabilité ciblée · n'est pas une préférence organisationnelle. C'est une réponse à une dégradation de qualité mesurable qui survient quand les appels de génération sont surchargés d'objectifs concurrents. L'atomicité dans les appels LLM améliore la qualité de l'output de la même façon qu'elle améliore la qualité du code : pour la même raison structurelle.

08 · Découvertes

Ce que nous avons appris et ne nous attendions pas à apprendre

Intuition 1 : le modèle n'est jamais le goulot d'étranglement

Chaque mode d'échec identifié · effondrement de cohérence, ton aveugle au contexte, dérive de personnage, pièges d'escalade · est un problème architectural, pas un problème de capacité du modèle. Le même modèle, avec un meilleur échafaudage structurel, produit un output dramatiquement meilleur. Cette découverte est contre-intuitive : la tentation quand l'output est mauvais est d'utiliser un modèle plus grand. Les preuves disent : corrigez l'architecture d'abord. Un appel bien structuré vers un modèle plus petit surpasse un appel non structuré vers un modèle plus grand pour chaque catégorie de qualité narrative que nous avons examinée.

Intuition 2 : « cohérence » et « variété » ne sont pas en tension

L'industrie suppose que rendre la narration IA cohérente nécessite de sacrifier la variété · que les contraintes produisent de la monotonie. La recherche montre le contraire. Les contraintes sur ce que le contenu ne peut pas faire (pas de voix de narrateur, pas d'escalade dans les beats Atmosphere, pas de citation directe d'événements du monde) produisent un output plus varié à l'intérieur de ces limites que la génération non contrainte, qui converge vers des patterns statistiquement probables. La contrainte est une fonction de forçage pour l'exploration. Le modèle non contraint prend le chemin le plus facile. Le modèle contraint doit trouver un chemin qui ne prend pas les sorties faciles.

Intuition 3 : la couche de rendu est le problème de qualité, pas la couche de génération

En examinant EV2090 et des systèmes comparables, l'architecture narrative (ce qui se passe) est systématiquement plus fiable que l'output de rendu (comment c'est présenté). Les arcs sont cohérents. Les séquences de beats ont du sens structurellement. L'échec se situe au dernier kilomètre : le texte réel que le joueur lit. C'est une découverte diagnostique avec une implication claire · le Narrative Engine doit investir ses efforts d'ingénierie de prompts de manière disproportionnée dans la couche de rendu. Le chorégraphe peut être léger parce qu'il produit de la structure, pas de la prose. Les moteurs de rendu de canal doivent être riches parce qu'ils produisent l'output que les joueurs vivent réellement.

Intuition 4 : les chronologies passives résolvent un problème de génération, pas seulement un problème de design

Nous avons inclus les chronologies passives (ce qui se passe si aucun joueur n'agit) parce qu'elles sont du bon design narratif. Nous avons découvert qu'elles résolvent aussi un problème de qualité de génération. Quand le chorégraphe doit spécifier non seulement « quels beats existent » mais « ce qui se passe sur cette chronologie indépendamment des joueurs », il est forcé de penser à la causalité et aux conséquences d'une façon qu'une simple liste de beats n'exige pas. La chronologie passive est une fonction de forçage pour la logique interne du récit · si le monde avance sans le joueur, les beats doivent avoir un sens causal en séquence. Les arcs générés avec des exigences de chronologie passive montrent une causalité interne substantiellement meilleure que les arcs générés uniquement comme listes de beats.

09 · Implications pour le moteur

Comment cette recherche façonne l'architecture

Chaque mode d'échec identifié dans cette recherche correspond directement à une décision structurelle du Narrative Engine.


L'état du monde comme contexte obligatoire dans chaque appel de génération. L'effondrement de cohérence est prévenu non par les capacités du modèle mais par la discipline architecturale · chaque appel Sonnet reçoit la tranche pertinente de l'état du monde. Le modèle ne se souvient pas. Le système fournit.

Sonnet architecte, Haiku rend · ce sont des appels séparés avec des prompts séparés. Le problème de génération aveugle au contexte est résolu par la séparation architecturale. Le QUOI et le COMMENT ne sont jamais combinés dans un seul appel. Le contexte de rendu (canal, voix, format, anti-patterns) est entièrement spécifié avant que l'appel de rendu soit effectué.

Aucun exemple dans les prompts · contraintes et anti-patterns uniquement. Hérité d'EV2090 et confirmé par la recherche. Les exemples deviennent des plafonds. Les anti-patterns imposent des frontières sans délimiter l'espace de solution. Chaque prompt du moteur spécifie ce que l'output ne doit jamais faire.

Les types de beats sont spécifiés par le chorégraphe, pas choisis par le moteur de rendu. Le piège de l'escalade est fermé en exigeant que Sonnet assigne un type de beat · avec ses contraintes associées · avant que Haiku ne rende quoi que ce soit. Haiku rend à l'intérieur de la contrainte de type. Il ne peut pas escalader un beat Atmosphere même si ses tendances statistiques le poussent vers l'escalade.

La voix des PNJ est définie dans le schéma d'entité et injectée dans chaque appel de rendu pour ce PNJ. La dérive de personnage est prévenue en faisant de la fiche de personnalité un attribut d'entité de premier ordre, pas une narration de prompt. La spécification de contrainte · règles comportementales, clauses JAMAIS, structure des phrases, sujets · voyage avec l'entité dans chaque appel qui la concerne.

La causalité est obligatoire dans la chorégraphie des beats. Chaque beat doit déclarer à quoi il réagit et ce qu'il préfigure. Le chorégraphe ne peut pas produire un beat sans relations causales. Cela transforme les listes de beats en graphes de beats · la structure minimale pour le récit plutôt que le contenu.

Les prompts sont spécifiques à la phase du pipeline. Chaque phase · concept, audit, chorégraphie, rendu par beat · a exactement une responsabilité. Les appels qui combinent des responsabilités se dégradent en qualité d'output. L'architecture impose l'atomicité dans la génération de la même façon que le bon logiciel l'impose dans les fonctions.

10 · Connexions

Connexions avec les autres recherches

Recherche 01 · Structure des modules D&D

Le concept original de rendu de canal

La boîte de « texte à lire à voix haute » de D&D est le premier canal de livraison formel : du texte écrit pour un contexte spécifique avec des règles spécifiques de registre, de rythme et de vocabulaire. Le système de personnalité des PNJ (trait / idéal / lien / faille) est le système de fiche de personnalité original. Les deux ont résolu les mêmes problèmes que cette recherche IA identifie, des décennies avant l'existence des LLM.

Recherche 02 · Warhammer : The Enemy Within

La Spine fixe comme contrainte de cohérence

Spine fixe, Chair variable est la réponse architecturale au problème d'effondrement de cohérence. TEW a prouvé qu'on peut avoir une histoire rédigée cohérente avec une vraie variation entre les parties. La spine maintient son intégrité ; la chair est là où la génération LLM opère sans la menacer.

Recherche 04 · Techniques du MJ improvisateur

Analogue humain aux contraintes structurelles

Le modèle Fronts / Clocks d'Apocalypse World résout la génération de chronologie passive. Les techniques du MJ improvisateur sont la pratique humaine de ce que cette recherche recommande algorithmiquement : maintenir la cohérence par les contraintes, pas par la mémoire. La règle des trois indices est la version humaine des chemins d'information redondants.

Recherche 06 · Analyse du code EV2090

Modes d'échec en production

EV2090 est une implémentation fonctionnelle qui expose les modes d'échec décrits ici à l'échelle de la production. Le rendu aveugle au contexte et la voix de PNJ superficielle ne sont pas des problèmes théoriques · ils sont l'output quotidien mesuré d'un jeu en direct. Les 5 modes d'échec de l'étude ACL correspondent directement aux 8 lacunes structurelles de l'analyse EV2090.

Le paysage de la narration procédurale IA est jonché de systèmes qui ont échoué pour des raisons structurelles · des raisons visibles rétrospectivement mais non prévenues dans la conception. Les modes d'échec sont connus. Les mesures correctives sont connues. La question restante est de savoir si un système peut les implémenter toutes simultanément, à l'échelle, sans que l'architecture s'effondre sous le poids de ses propres contraintes.

C'est la question à laquelle le Narrative Engine est conçu pour répondre.