Lexique · IA technique en contexte juridique

RLHF : Reinforcement Learning from Human Feedback

IA technique en contexte juridique

Technique d'alignement d'un modèle de langage par renforcement à partir de préférences humaines : des annotateurs comparent plusieurs sorties et le modèle apprend à privilégier celles préférées.

Définition

Le RLHF a été la clé du passage des LLM bruts aux assistants conversationnels utiles : c'est ce qui distingue un modèle qui « complète du texte » d'un modèle qui « répond utilement ».

Il se distingue du fine-tuning supervisé (SFT), où le modèle apprend à imiter des exemples corrects, en se concentrant sur l'apprentissage par préférence comparative. Les deux sont souvent combinés : SFT puis RLHF.

Le RLHF a aussi ses limites : il introduit les biais des annotateurs, peut produire un modèle « complaisant » qui valide les hypothèses de l'utilisateur, et reste coûteux à mettre en œuvre. Des variantes (DPO, RLAIF) cherchent à en réduire les inconvénients.

Ce que ça change concrètement

Pour un juriste ou un DRH belge.

01
Pour un déployeur qui personnalise un modèle, comprendre la différence SFT / RLHF aide à choisir la bonne technique : SFT pour des formats stricts, RLHF pour des préférences subjectives.
02
La complaisance induite par le RLHF est un risque opérationnel : un copilote qui valide tout ce que dit l'utilisateur peut renforcer des biais de confirmation.

Voir aussi

Un cas concret derrière le terme ?

Si ce terme correspond à une question opérationnelle dans votre organisation, on peut en discuter directement.

Me contacter