Exercices Projets guidés Tokenisation de documents
🎉

Bravo!

Intermédiaire 🧠 Fondamentaux 20 XP 0 personnes ont réussi

Tokenisation de documents

On commence un projet fil rouge : construire un moteur de recherche de A a Z. A la fin de cette série d'exercices, tu auras un vrai moteur de recherche fonctionnel avec TF-IDF.

Première étape : la tokenisation. C'est le fait de decouper un texte en unites élémentaires (les tokens, généralement des mots).

Ta fonction tokeniser(texte) doit :
Convertir le texte en minuscules
Extraire les mots (sequences de lettres, chiffres, caracteres accentues)
Supprimer les mots d'un seul caractere (ils ne sont pas informatifs)

Exemple :
tokeniser('Bonjour, le monde!') renvoie ['bonjour', 'le', 'monde']
tokeniser('Python est super.') renvoie ['python', 'est', 'super']

Utilise le module re (expressions regulieres) pour extraire les mots proprement.

Tests (2/4)

Tokenisation basique
assert tokeniser('Bonjour, le monde!') == ['bonjour', 'le', 'monde']
Ponctuation
assert tokeniser('Python est super.') == ['python', 'est', 'super']

+ 0 tests cachés

Indices (3 disponibles)

solution.py