Classement des résultats

Septieme étape : classer les documents par pertinence, exactement comme Google le fait.

Écris une fonction classer_resultats(documents, requête) qui :
1. Calcule l'IDF sur toute la collection de documents
2. Score chaque document avec TF-IDF pour la requête donnee
3. Retourne une liste de tuples (indice, score) tries par score decroissant
4. Exclut les documents avec un score de 0

Exemple :
docs = ['python est simple', 'java est verbeux', 'python machine learning']
classer_resultats(docs, 'python')
renvoie [(0, ...), (2, ...)] ou [(2, ...), (0, ...)]
(les deux documents contenant 'python', tries par pertinence)
Le document 1 n apparait pas car il ne contient pas 'python'.

Tests (2/4)

Python plus pertinent

docs = ['python est simple', 'java est verbeux', 'python machine learning']
résultats = classer_resultats(docs, 'python')
indices = [r[0] for r in résultats]
assert 1 not in indices

Tri decroissant

docs = ['python est simple', 'java est verbeux', 'python machine learning']
résultats = classer_resultats(docs, 'python')
if len(résultats) >= 2:
    assert résultats[0][1] >= résultats[1][1]

+ 0 tests cachés

Indices (3 disponibles)

Solution officielle

import re
import math
from collections import Counter, defaultdict

def tokeniser(texte):
    mots = re.findall(r'[a-zA-ZÀ-ÿ0-9]+', texte.lower())
    return [mot for mot in mots if len(mot) > 1]

def calculer_tf(document):
    mots = tokeniser(document)
    if not mots:
        return {}
    total = len(mots)
    compteur = Counter(mots)
    return {mot: count / total for mot, count in compteur.items()}

def calculer_idf(documents):
    N = len(documents)
    if N == 0:
        return {}
    df = defaultdict(int)
    for doc in documents:
        for mot in set(tokeniser(doc)):
            df[mot] += 1
    return {mot: math.log(N / freq) for mot, freq in df.items()}

def scorer_document(document, requête, idf):
    tf = calculer_tf(document)
    tfidf = {mot: tf_val * idf.get(mot, 0) for mot, tf_val in tf.items()}
    return sum(tfidf.get(mot, 0) for mot in tokeniser(requête))

def classer_resultats(documents, requête):
    idf = calculer_idf(documents)
    scores = []
    for i, doc in enumerate(documents):
        score = scorer_document(doc, requête, idf)
        if score > 0:
            scores.append((i, score))
    return sorted(scores, key=lambda x: x[1], reverse=True)

← Score TF-IDF Moteur de recherche complet →

solution.py

Bravo!

Classement des résultats

Tests (2/4)

Indices (3 disponibles)

Solution officielle