Intermédiaire
🧠 Fondamentaux
20 XP
0 personnes ont réussi
Tokenisation de documents
On commence un projet fil rouge : construire un moteur de recherche de A a Z. A la fin de cette série d'exercices, tu auras un vrai moteur de recherche fonctionnel avec TF-IDF.
Première étape : la tokenisation. C'est le fait de decouper un texte en unites élémentaires (les tokens, généralement des mots).
Ta fonction tokeniser(texte) doit : Convertir le texte en minuscules Extraire les mots (sequences de lettres, chiffres, caracteres accentues) Supprimer les mots d'un seul caractere (ils ne sont pas informatifs)
Exemple : tokeniser('Bonjour, le monde!') renvoie ['bonjour', 'le', 'monde'] tokeniser('Python est super.') renvoie ['python', 'est', 'super']
Utilise le module re (expressions regulieres) pour extraire les mots proprement.
Tests (2/4)
Tokenisation basique
assert tokeniser('Bonjour, le monde!') == ['bonjour', 'le', 'monde']
Ponctuation
assert tokeniser('Python est super.') == ['python', 'est', 'super']
+ 0 tests cachés
Indices (3 disponibles)
Solution officielle
import re
def tokeniser(texte):
mots = re.findall(r'[a-zA-ZÀ-ÿ0-9]+', texte.lower())
return [mot for mot in mots if len(mot) > 1]