Prompt Engineering

💡 1. Architectures et Fondamentaux des Modèles Génératifs

1.1 L’Espace Latent : Le CĹ“ur de la ReprĂ©sentation

L’Espace Latent ($Z$) est un espace vectoriel de dimension rĂ©duite oĂą les donnĂ©es d’entrĂ©e (texte, image, etc.) sont encodĂ©es de manière significative. Chaque point dans $Z$ reprĂ©sente une combinaison de caractĂ©ristiques sĂ©mantiques.

  • DĂ©finition : Un embedding est la transformation d’un token (mot) ou d’une donnĂ©e d’entrĂ©e en un vecteur dense de nombres rĂ©els. L’Espace Latent est l’espace oĂą rĂ©sident ces embeddings.

  • Objectif : Faciliter le calcul des similaritĂ©s. Dans cet espace, les concepts similaires sont proches les uns des autres (faible distance euclidienne).

  • Techniques d’Encodage (Principe) :

    • Auto-encodeurs : RĂ©seaux neuronaux visant Ă  apprendre une reprĂ©sentation efficace (code) pour un ensemble de donnĂ©es, puis Ă  reconstruire les donnĂ©es Ă  partir de cette reprĂ©sentation.

      $$\text{Entrée} \xrightarrow{\text{Encodeur}} Z \xrightarrow{\text{Décodeur}} \text{Sortie}$$

1.2 Le Transformer : Architecture et Tokenization

Le modèle Transformer est l’architecture dominante des Large Language Models (LLM). Il a remplacĂ© les rĂ©seaux rĂ©currents (RNN) en s’affranchissant de la dĂ©pendance sĂ©quentielle grâce au mĂ©canisme d’attention.

  • Tokenization : Le processus de division du texte brut en unitĂ©s discrètes, les Tokens.

    • Le modèle travaille sur ces tokens, qui sont ensuite convertis en vecteurs (embeddings).

    • Implication : La performance et le coĂ»t d’un modèle sont directement liĂ©s au nombre de tokens traitĂ©s.

  • MĂ©canisme d’Auto-Attention (Self-Attention) :

    • C’est la brique fondamentale qui permet au modèle de pondĂ©rer l’importance de chaque token de l’entrĂ©e par rapport au token actuel.

    • Chaque token est transformĂ© en trois vecteurs : Query ($Q$), Key ($K$), et Value ($V$).

    • L’Attention Score mesure la similaritĂ© entre le $Q$ du token actuel et tous les $K$ des autres tokens. Ce score est utilisĂ© pour pondĂ©rer les $V$ afin de crĂ©er la sortie contextuelle ($Z$).

      $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

    • OĂą $d_k$ est la dimension du vecteur key (mise Ă  l’Ă©chelle).


🏗️ 2. Les Piliers du Prompt Engineering

Le Prompt Engineering (PE) est la discipline visant à concevoir des entrées (prompts) qui optimisent la qualité et la pertinence de la sortie du LLM.

2.1 Les Fondamentaux du Prompt Efficace

Pilier Définition Académique Justification
RĂ´le (Persona) DĂ©finition d’un archĂ©type sĂ©mantique ($P$) pour contraindre le comportement et la tonalitĂ© du modèle. AmĂ©liore la cohĂ©rence stylistique et active les embeddings de connaissances spĂ©cialisĂ©es dans l’Espace Latent.
Instruction DĂ©taillĂ©e Segmentation claire de la tâche en sous-objectifs (Tâche, Contraintes, Format, Cible). RĂ©duit l’ambiguĂŻtĂ© ($A$) et augmente la probabilitĂ© de gĂ©nĂ©rer la sortie souhaitĂ©e ($P(\text{Sortie})$).
Few-Shot Learning Fournir $N$ paires d’exemples ($\text{Input}_i, \text{Output}_i$) avant l’instruction cible. Permet au modèle d’effectuer un apprentissage en contexte (sans mise Ă  jour des poids), alignant sa sortie sur le style et le format des exemples.
ClartĂ© & Concision Utilisation de termes prĂ©cis et d’un langage sans ambiguĂŻtĂ©. Une densitĂ© d’information Ă©levĂ©e par token amĂ©liore l’efficacitĂ© de l’Attention et la gestion de la fenĂŞtre de contexte.

2.2 StratĂ©gies d’Optimisation

Le PE est essentiellement l’optimisation de la fonction :

$$\text{Sortie} = LLM(\text{Prompt}, \text{Poids du Modèle})$$

  • Utilisation des SĂ©parateurs : Utiliser des balises (###, ---, [CONTEXT]) pour dĂ©limiter les diffĂ©rentes sections du prompt (instruction, donnĂ©es Ă  traiter, exemples). Cela aide le mĂ©canisme d’attention Ă  sĂ©parer clairement les mĂ©ta-instructions des donnĂ©es brutes.

  • SpĂ©cification du Format : Forcer une structure de sortie prĂ©dĂ©finie (JSON, XML, Markdown) pour faciliter l’intĂ©gration de la sortie dans des processus automatisĂ©s (parsing).


⛔ 3. : Limites, Fiabilité et Raisonnement

3.1 Contraintes Techniques et Contexte

  • La FenĂŞtre de Contexte (Context Window) :

    • C’est la taille maximale de la sĂ©quence de tokens (entrĂ©e + sortie) que le modèle peut traiter en une seule fois. Au-delĂ , l’information est tronquĂ©e.

    • Implication : Plus la Context Window est grande, plus l’auto-attention coĂ»te cher ($\mathcal{O}(n^2)$ en temps et en mĂ©moire, oĂą $n$ est la longueur de la sĂ©quence).

  • Saturation et Biais de Position :

    • Dans les longues sĂ©quences, les LLM ont souvent tendance Ă  accorder moins d’attention aux informations situĂ©es au milieu de la fenĂŞtre de contexte, privilĂ©giant le dĂ©but et la fin (l’effet de “milieu”).

3.2 L’Hallucination : Un Risque de FiabilitĂ©

  • DĂ©finition : Production d’informations fausses, inventĂ©es ou non supportĂ©es par les donnĂ©es d’entraĂ®nement, prĂ©sentĂ©es avec une grande assurance (confabulation).

  • Cause Probabiliste : Le modèle sĂ©lectionne un token ayant une probabilitĂ© faible dans l’espace de distribution, mais choisit de le gĂ©nĂ©rer pour maintenir la fluiditĂ© grammaticale.

  • Mitigation :

    1. Mise à la terre (Grounding) : Ancrer la génération dans une source de données externes et vérifiables (via RAG).

    2. Instruction d’HonnĂŞtetĂ© : Inclure des instructions comme : « Si l’information n’est pas disponible dans le contexte fourni, rĂ©ponds “Information non trouvable”. »

3.3 Simulation du Raisonnement : Chain-of-Thought (CoT)

  • Problème : Les LLM Ă©chouent souvent sur les tâches de raisonnement complexe nĂ©cessitant plusieurs Ă©tapes logiques (ex. : les problèmes arithmĂ©tiques ou la logique dĂ©ductive).

  • CoT : Principe de DĂ©composition :

    • Le CoT est une technique de prompting qui force le modèle Ă  dĂ©composer la solution en Ă©tapes intermĂ©diaires explicites.

    • Instruction : « Pense Ă©tape par Ă©tape. » ou « Je vais te pĂ©naliser pour toute erreur de raisonnement. »

  • Formule (Conceptuelle) : Au lieu de $P(\text{RĂ©ponse} | \text{Question})$, on cherche $P(\text{Étape}_1, \dots, \text{Étape}_n, \text{RĂ©ponse} | \text{Question})$. La qualitĂ© de la rĂ©ponse est conditionnĂ©e par la qualitĂ© des Ă©tapes.

🛡️ 4. : Prompt Engineering Avancé et Sécurité

4.1 Prompt Injection et Jailbreak

Le Prompt Injection est une vulnérabilité de sécurité où un utilisateur malveillant manipule le LLM en injectant une instruction non autorisée dans le prompt (souvent masquée dans les données utilisateur).

  • Objectif : Contourner l’Alignement du modèle (l’ensemble des règles de sĂ©curitĂ© et Ă©thiques implantĂ©es par les dĂ©veloppeurs).

  • Techniques (Exemples) :

    • Contamination : InsĂ©rer des instructions contradictoires au milieu des donnĂ©es.

    • Encodage : Utiliser des techniques d’encodage (Base64, caractères Unicode) pour masquer le texte d’injection.

  • Cas du Jailbreak : Tentative de forcer le modèle Ă  ignorer ses gardes-fous (ex. : gĂ©nĂ©rer du contenu interdit ou non alignĂ© avec sa politique).

    • DĂ©fis de sĂ©curitĂ© : Les jailbreaks rĂ©ussis exploitent les lacunes dans la pondĂ©ration des instructions : l’instruction de l’utilisateur surpasse l’instruction de sĂ©curitĂ© du système.

4.2 Usages Avancés : Le Transfert de Style

  • DĂ©finition : CapacitĂ© Ă  modifier le style linguistique (registre de langue, tonalitĂ©, complexitĂ© lexicale) sans altĂ©rer le sens sĂ©mantique du contenu.

  • MĂ©canisme : Le modèle utilise ses embeddings de style dans l’Espace Latent pour naviguer d’une zone sĂ©mantique Ă  une autre.

  • Exemples Professionnels :

    1. Adapter la Cible : Traduire un rapport technique ($T{\text{soutenu, technique}}$) en un pitch de vente simple pour un client non-expert ($T{\text{informel, persuasif}}$).

    2. Standardisation : Harmoniser des textes rédigés par différents auteurs pour un guide de style unique.