Calculer le coût du fine-tuning

Le fine-tuning n'est pas gratuit. Chaque token que le modèle traite pendant l'entraînement te coûte de l'argent. Avant de lancer un job, il faut estimer combien ça va coûter pour éviter les mauvaises surprises sur ta facture OpenAI.

Le calcul est simple sur le papier :

coût = nombre_total_de_tokens * prix_par_token * nombre_d_epochs

Un "token" c'est environ 4 caractères en anglais (un peu moins en français à cause des accents). Pour une estimation rapide, on divise le nombre de caractères par 4.

Un "epoch" c'est un passage complet du modèle sur tout le dataset. Par défaut, OpenAI utilise 3 epochs, mais tu peux en mettre plus si ton dataset est petit.

Le prix du fine-tuning dépend du modèle. Par exemple, pour GPT-4o-mini c'est environ 3 dollars par million de tokens d'entraînement, et pour GPT-4o c'est environ 25 dollars par million de tokens (vérifie les prix actuels sur la page OpenAI Pricing, car ils évoluent régulièrement).

Écris une fonction calculer_cout(exemples, prix_par_million=3.0, epochs=3) qui :
1. Calcule le nombre total de caractères dans tous les contenus de tous les messages
2. Estime le nombre de tokens en divisant par 4
3. Calcule le coût total : tokens * (prix_par_million / 1_000_000) * epochs
4. Renvoie un dictionnaire avec "total_caracteres", "tokens_estimes", "cout_par_epoch" et "cout_total" (arrondi à 4 décimales)

Exemple :

data = [{"messages": [{"role": "user", "content": "Salut"}, {"role": "assistant", "content": "Bonjour !"}]}]
calculer_cout(data, prix_par_million=3.0, epochs=3)
renvoie {"total_caracteres": 14, "tokens_estimes": 3, "cout_par_epoch": 0.0, "cout_total": 0.0}

Note : pour les petits datasets, le coût arrondi sera souvent 0. C'est normal. En production, on travaille avec des milliers d'exemples.

Tests (4/5)

Calcul de base

data = [{'messages': [{'role': 'user', 'content': 'a' * 400}, {'role': 'assistant', 'content': 'b' * 400}]}]
r = calculer_cout(data, prix_par_million=3.0, epochs=3)
assert r['total_caracteres'] == 800
assert r['tokens_estimes'] == 200

Coût avec gros dataset

data = [{'messages': [{'role': 'user', 'content': 'x' * 4000}, {'role': 'assistant', 'content': 'y' * 4000}]}] * 100
r = calculer_cout(data, prix_par_million=3.0, epochs=3)
assert r['tokens_estimes'] == 200000
assert r['cout_par_epoch'] == 0.6
assert r['cout_total'] == 1.8

Dataset vide

r = calculer_cout([], prix_par_million=3.0, epochs=3)
assert r['total_caracteres'] == 0
assert r['tokens_estimes'] == 0
assert r['cout_total'] == 0

Un seul epoch

data = [{'messages': [{'role': 'user', 'content': 'a' * 4000000}]}]
r = calculer_cout(data, prix_par_million=3.0, epochs=1)
assert r['tokens_estimes'] == 1000000
assert r['cout_total'] == 3.0

+ 0 tests cachés

Indices (3 disponibles)

Solution officielle

def calculer_cout(exemples, prix_par_million=3.0, epochs=3):
    total_caracteres = 0
    for ex in exemples:
        for msg in ex["messages"]:
            total_caracteres += len(msg["content"])

    tokens_estimes = total_caracteres // 4
    prix_par_token = prix_par_million / 1_000_000
    cout_par_epoch = round(tokens_estimes * prix_par_token, 4)
    cout_total = round(cout_par_epoch * epochs, 4)

    return {
        "total_caracteres": total_caracteres,
        "tokens_estimes": tokens_estimes,
        "cout_par_epoch": cout_par_epoch,
        "cout_total": cout_total,
    }

← Nettoyer les données d'entraînement Splitter train et validation →

solution.py

Bravo!

Calculer le coût du fine-tuning

Tests (4/5)

Indices (3 disponibles)

Solution officielle