Tokenisation de documents

On commence un projet fil rouge : construire un moteur de recherche de A a Z. A la fin de cette série d'exercices, tu auras un vrai moteur de recherche fonctionnel avec TF-IDF.

Première étape : la tokenisation. C'est le fait de decouper un texte en unites élémentaires (les tokens, généralement des mots).

Ta fonction tokeniser(texte) doit :
Convertir le texte en minuscules
Extraire les mots (sequences de lettres, chiffres, caracteres accentues)
Supprimer les mots d'un seul caractere (ils ne sont pas informatifs)

Exemple :
tokeniser('Bonjour, le monde!') renvoie ['bonjour', 'le', 'monde']
tokeniser('Python est super.') renvoie ['python', 'est', 'super']

Utilise le module re (expressions regulieres) pour extraire les mots proprement.

Tests (2/4)

Tokenisation basique

assert tokeniser('Bonjour, le monde!') == ['bonjour', 'le', 'monde']

Ponctuation

assert tokeniser('Python est super.') == ['python', 'est', 'super']

+ 0 tests cachés

Indices (3 disponibles)

Solution officielle

import re

def tokeniser(texte):
    mots = re.findall(r'[a-zA-ZÀ-ÿ0-9]+', texte.lower())
    return [mot for mot in mots if len(mot) > 1]

← E-commerce #13 : Assemblage final Index inverse →

solution.py

Bravo!

Tokenisation de documents

Tests (2/4)

Indices (3 disponibles)

Solution officielle