Prompt Engineering

💡 1. Architectures et Fondamentaux des Modèles Génératifs

1.1 L’Espace Latent : Le Cœur de la Représentation

L’Espace Latent ($Z$) est un espace vectoriel de dimension réduite où les données d’entrée (texte, image, etc.) sont encodées de manière significative. Chaque point dans $Z$ représente une combinaison de caractéristiques sémantiques.

Définition : Un embedding est la transformation d’un token (mot) ou d’une donnée d’entrée en un vecteur dense de nombres réels. L’Espace Latent est l’espace où résident ces embeddings.
Objectif : Faciliter le calcul des similarités. Dans cet espace, les concepts similaires sont proches les uns des autres (faible distance euclidienne).
Techniques d’Encodage (Principe) :
- Auto-encodeurs : Réseaux neuronaux visant à apprendre une représentation efficace (code) pour un ensemble de données, puis à reconstruire les données à partir de cette représentation.
  
  $$\text{Entrée} \xrightarrow{\text{Encodeur}} Z \xrightarrow{\text{Décodeur}} \text{Sortie}$$

1.2 Le Transformer : Architecture et Tokenization

Le modèle Transformer est l’architecture dominante des Large Language Models (LLM). Il a remplacé les réseaux récurrents (RNN) en s’affranchissant de la dépendance séquentielle grâce au mécanisme d’attention.

Tokenization : Le processus de division du texte brut en unités discrètes, les Tokens.
- Le modèle travaille sur ces tokens, qui sont ensuite convertis en vecteurs (embeddings).
- Implication : La performance et le coût d’un modèle sont directement liés au nombre de tokens traités.
Mécanisme d’Auto-Attention (Self-Attention) :
- C’est la brique fondamentale qui permet au modèle de pondérer l’importance de chaque token de l’entrée par rapport au token actuel.
- Chaque token est transformé en trois vecteurs : Query ($Q$), Key ($K$), et Value ($V$).
- L’Attention Score mesure la similarité entre le $Q$ du token actuel et tous les $K$ des autres tokens. Ce score est utilisé pour pondérer les $V$ afin de créer la sortie contextuelle ($Z$).
  
  $$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$
- Où $d_k$ est la dimension du vecteur key (mise à l’échelle).

🏗️ 2. Les Piliers du Prompt Engineering

Le Prompt Engineering (PE) est la discipline visant à concevoir des entrées (prompts) qui optimisent la qualité et la pertinence de la sortie du LLM.

2.1 Les Fondamentaux du Prompt Efficace

Pilier	Définition Académique	Justification
*Rôle (Persona)*	Définition d’un archétype sémantique ($P$) pour contraindre le comportement et la tonalité du modèle.	Améliore la cohérence stylistique et active les embeddings de connaissances spécialisées dans l’Espace Latent.
Instruction Détaillée	Segmentation claire de la tâche en sous-objectifs (Tâche, Contraintes, Format, Cible).	Réduit l’ambiguïté ($A$) et augmente la probabilité de générer la sortie souhaitée ($P(\text{Sortie})$).
Few-Shot Learning	Fournir $N$ paires d’exemples ($\text{Input}_i, \text{Output}_i$) avant l’instruction cible.	Permet au modèle d’effectuer un apprentissage en contexte (sans mise à jour des poids), alignant sa sortie sur le style et le format des exemples.
Clarté & Concision	Utilisation de termes précis et d’un langage sans ambiguïté.	Une densité d’information élevée par token améliore l’efficacité de l’Attention et la gestion de la fenêtre de contexte.

2.2 Stratégies d’Optimisation

Le PE est essentiellement l’optimisation de la fonction :

$$\text{Sortie} = LLM(\text{Prompt}, \text{Poids du Modèle})$$

Utilisation des Séparateurs : Utiliser des balises (###, ---, [CONTEXT]) pour délimiter les différentes sections du prompt (instruction, données à traiter, exemples). Cela aide le mécanisme d’attention à séparer clairement les méta-instructions des données brutes.
Spécification du Format : Forcer une structure de sortie prédéfinie (JSON, XML, Markdown) pour faciliter l’intégration de la sortie dans des processus automatisés (parsing).

⛔ 3. : Limites, Fiabilité et Raisonnement

3.1 Contraintes Techniques et Contexte

La Fenêtre de Contexte (Context Window) :
- C’est la taille maximale de la séquence de tokens (entrée + sortie) que le modèle peut traiter en une seule fois. Au-delà, l’information est tronquée.
- Implication : Plus la Context Window est grande, plus l’auto-attention coûte cher ($\mathcal{O}(n^2)$ en temps et en mémoire, où $n$ est la longueur de la séquence).
Saturation et Biais de Position :
- Dans les longues séquences, les LLM ont souvent tendance à accorder moins d’attention aux informations situées au milieu de la fenêtre de contexte, privilégiant le début et la fin (l’effet de “milieu”).

3.2 L’Hallucination : Un Risque de Fiabilité

Définition : Production d’informations fausses, inventées ou non supportées par les données d’entraînement, présentées avec une grande assurance (confabulation).
Cause Probabiliste : Le modèle sélectionne un token ayant une probabilité faible dans l’espace de distribution, mais choisit de le générer pour maintenir la fluidité grammaticale.
Mitigation :
1. Mise à la terre (Grounding) : Ancrer la génération dans une source de données externes et vérifiables (via RAG).
2. Instruction d’Honnêteté : Inclure des instructions comme : « Si l’information n’est pas disponible dans le contexte fourni, réponds “Information non trouvable”. »

3.3 Simulation du Raisonnement : Chain-of-Thought (CoT)

Problème : Les LLM échouent souvent sur les tâches de raisonnement complexe nécessitant plusieurs étapes logiques (ex. : les problèmes arithmétiques ou la logique déductive).
CoT : Principe de Décomposition :
- Le CoT est une technique de prompting qui force le modèle à décomposer la solution en étapes intermédiaires explicites.
- Instruction : « Pense étape par étape. » ou « Je vais te pénaliser pour toute erreur de raisonnement. »
Formule (Conceptuelle) : Au lieu de $P(\text{Réponse} | \text{Question})$, on cherche $P(\text{Étape}_1, \dots, \text{Étape}_n, \text{Réponse} | \text{Question})$. La qualité de la réponse est conditionnée par la qualité des étapes.

🛡️ 4. : Prompt Engineering Avancé et Sécurité

4.1 Prompt Injection et Jailbreak

Le Prompt Injection est une vulnérabilité de sécurité où un utilisateur malveillant manipule le LLM en injectant une instruction non autorisée dans le prompt (souvent masquée dans les données utilisateur).

Objectif : Contourner l’Alignement du modèle (l’ensemble des règles de sécurité et éthiques implantées par les développeurs).
Techniques (Exemples) :
- Contamination : Insérer des instructions contradictoires au milieu des données.
- Encodage : Utiliser des techniques d’encodage (Base64, caractères Unicode) pour masquer le texte d’injection.
Cas du Jailbreak : Tentative de forcer le modèle à ignorer ses gardes-fous (ex. : générer du contenu interdit ou non aligné avec sa politique).
- Défis de sécurité : Les jailbreaks réussis exploitent les lacunes dans la pondération des instructions : l’instruction de l’utilisateur surpasse l’instruction de sécurité du système.

4.2 Usages Avancés : Le Transfert de Style

Définition : Capacité à modifier le style linguistique (registre de langue, tonalité, complexité lexicale) sans altérer le sens sémantique du contenu.
Mécanisme : Le modèle utilise ses embeddings de style dans l’Espace Latent pour naviguer d’une zone sémantique à une autre.
Exemples Professionnels :
1. Adapter la Cible : Traduire un rapport technique ($T{\text{soutenu, technique}}$) en un pitch de vente simple pour un client non-expert ($T{\text{informel, persuasif}}$).
2. Standardisation : Harmoniser des textes rédigés par différents auteurs pour un guide de style unique.