Lexique · IA technique en contexte juridique
RLHF — Reinforcement Learning from Human Feedback
Technique d'alignement d'un modèle de langage par renforcement à partir de préférences humaines : des annotateurs comparent plusieurs sorties et le modèle apprend à privilégier celles préférées.
Définition
Le RLHF a été la clé du passage des LLM bruts aux assistants conversationnels utiles : c'est ce qui distingue un modèle qui « complète du texte » d'un modèle qui « répond utilement ».
Il se distingue du fine-tuning supervisé (SFT), où le modèle apprend à imiter des exemples corrects, en se concentrant sur l'apprentissage par préférence comparative. Les deux sont souvent combinés : SFT puis RLHF.
Le RLHF a aussi ses limites : il introduit les biais des annotateurs, peut produire un modèle « complaisant » qui valide les hypothèses de l'utilisateur, et reste coûteux à mettre en œuvre. Des variantes (DPO, RLAIF) cherchent à en réduire les inconvénients.
Ce que ça change concrètement
Pour un juriste ou un DRH belge.
- 01
Pour un déployeur qui personnalise un modèle, comprendre la différence SFT / RLHF aide à choisir la bonne technique : SFT pour des formats stricts, RLHF pour des préférences subjectives.
- 02
La complaisance induite par le RLHF est un risque opérationnel : un copilote qui valide tout ce que dit l'utilisateur peut renforcer des biais de confirmation.
Un cas concret derrière le terme ?
Si ce terme correspond à une question opérationnelle dans votre organisation, on peut en discuter directement.
Me contacter