Débutant
🧠 Fondamentaux
10 XP
0 personnes ont réussi
Detecter et supprimer les doublons
Quand tu fusionnes plusieurs fichiers CSV ou que tu recois des donnees d'un formulaire bugge, tu te retrouves souvent avec des lignes en double. Un client compte deux fois dans tes statistiques, un produit apparait en double dans tes predictions... Les doublons faussent tout, il faut les eliminer.
Pandas te donne : df.duplicated() renvoie True pour chaque ligne qui est un doublon (la première occurrence est gardee) df.duplicated().sum() compte le nombre de doublons df.drop_duplicates() renvoie le DataFrame sans les doublons
Écris une fonction nettoyer_doublons(df) qui renvoie un dictionnaire avec : 'nb_doublons' : le nombre de lignes en doublon 'df_propre' : le DataFrame sans doublons