Créer un dataset de préférences (DPO)

Le DPO (Direct Preference Optimization) est une alternative au RLHF pour aligner un modèle sur les préférences humaines. Au lieu de former un modèle de récompense séparé, le DPO entraîne directement le LLM à préférer les bonnes réponses aux mauvaises.

Le format d'un dataset DPO est différent du fine-tuning classique. Au lieu d'un seul assistant message, chaque exemple contient une paire :
- "chosen" : la réponse préférée (celle qu'un humain a jugée meilleure)
- "rejected" : la réponse rejetée (moins bonne, incorrecte, ou mal formulée)

Le format standard :

{
"prompt": "la question de l'utilisateur",
"chosen": "la bonne réponse",
"rejected": "la mauvaise réponse"
}

En pratique, pour construire un dataset DPO, tu génères plusieurs réponses pour chaque question, puis un humain (ou un LLM juge) classe les réponses par qualité. La meilleure devient "chosen", la pire devient "rejected".

Écris une fonction creer_dataset_dpo(questions, generateur, juge) qui :
1. Pour chaque question, appelle generateur(question) qui renvoie une liste de réponses candidates (au moins 2)
2. Appelle juge(question, reponse) sur chaque réponse, qui renvoie un score entre 0 et 1
3. La réponse avec le meilleur score devient "chosen", celle avec le pire score devient "rejected"
4. Ne crée un exemple que si le score chosen est strictement supérieur au score rejected (sinon, les réponses sont trop similaires pour être utiles)
5. Renvoie un dict avec "dataset" (liste d'exemples DPO) et "paires_ignorees" (nombre de questions où les scores étaient égaux)

Exemple :

def gen(q): return ["Bonne réponse", "Mauvaise réponse"]
def juge(q, r): return 0.9 if "Bonne" in r else 0.2
creer_dataset_dpo(["Question ?"], gen, juge)
renvoie {"dataset": [{"prompt": "Question ?", "chosen": "Bonne réponse", "rejected": "Mauvaise réponse"}], "paires_ignorees": 0}

Tests (4/5)

Paire basique

def gen(q): return ['bonne', 'mauvaise']
def juge(q, r): return 0.9 if r == 'bonne' else 0.1
r = creer_dataset_dpo(['Q1'], gen, juge)
assert len(r['dataset']) == 1
assert r['dataset'][0]['chosen'] == 'bonne'
assert r['dataset'][0]['rejected'] == 'mauvaise'

Scores égaux ignorés

def gen(q): return ['a', 'b']
def juge(q, r): return 0.5
r = creer_dataset_dpo(['Q1'], gen, juge)
assert len(r['dataset']) == 0
assert r['paires_ignorees'] == 1

Plusieurs questions

def gen(q): return ['oui ' + q, 'non ' + q]
def juge(q, r): return 0.8 if r.startswith('oui') else 0.2
r = creer_dataset_dpo(['A', 'B', 'C'], gen, juge)
assert len(r['dataset']) == 3
assert r['paires_ignorees'] == 0

Plus de deux candidats

def gen(q): return ['top', 'moyen', 'nul']
def juge(q, r): return {'top': 0.9, 'moyen': 0.5, 'nul': 0.1}[r]
r = creer_dataset_dpo(['Q'], gen, juge)
assert r['dataset'][0]['chosen'] == 'top'
assert r['dataset'][0]['rejected'] == 'nul'

+ 0 tests cachés

Indices (3 disponibles)

Solution officielle

def creer_dataset_dpo(questions, generateur, juge):
    dataset = []
    paires_ignorees = 0

    for question in questions:
        reponses = generateur(question)
        scores = [(r, juge(question, r)) for r in reponses]

        meilleur = max(scores, key=lambda x: x[1])
        pire = min(scores, key=lambda x: x[1])

        if meilleur[1] > pire[1]:
            dataset.append({
                "prompt": question,
                "chosen": meilleur[0],
                "rejected": pire[0],
            })
        else:
            paires_ignorees += 1

    return {
        "dataset": dataset,
        "paires_ignorees": paires_ignorees,
    }

← Distillation simulée Pipeline complet de préparation fine-tuning →

solution.py

Bravo!

Créer un dataset de préférences (DPO)

Tests (4/5)

Indices (3 disponibles)

Solution officielle