Pratique Python, IA Engineering et bien plus avec des exercices interactifs et des tests automatiques.
En data science, la premiere chose que tu fais avec un nouveau dataset c'est l'explorer. Combien de lignes ? Quelles colonnes ? Quels types de …
Tu recois un dataset du service marketing et surprise : il est plein de trous. Un client qui n'a pas renseigne son email, un capteur …
Tu as repere les trous dans tes donnees, maintenant il faut les boucher. Impossible de les laisser : la plupart des algorithmes de ML plantent …
Quand tu fusionnes plusieurs fichiers CSV ou que tu recois des donnees d'un formulaire bugge, tu te retrouves souvent avec des lignes en double. Un …
Avant d'entrainer un modele, tu dois savoir ce que tu as sous les yeux. L'age et le salaire sont des nombres, la ville et la …
Un algorithme de ML ne sait pas ce que veut dire 'rouge' ou 'bleu'. Il ne comprend que les nombres. Si tu as une colonne …
Le LabelEncoder a un probleme : il cree un ordre artificiel. Si 'bleu' vaut 0 et 'vert' vaut 2, le modele pourrait croire que 'vert' …
Tu as deux features : l'age (entre 18 et 80) et le salaire (entre 20000 et 200000). Sans normalisation, des algorithmes comme KNN ou SVM …
Le StandardScaler centre les donnees autour de 0, mais parfois tu preferes que tout soit entre 0 et 1. C'est ce que fait le MinMaxScaler, …
C'est LA regle d'or du machine learning : ne jamais evaluer un modele sur les donnees qui ont servi a l'entrainer. Sinon, c'est comme reviser …
C'est le moment d'entrainer ton premier modele de ML. La regression logistique est le choix classique pour commencer : rapide, interpretable, et souvent un bon …
Ton modele est entraine, il fait des predictions. Mais sont-elles bonnes ? L'accuracy est la metrique la plus intuitive : le pourcentage de bonnes reponses. …
L'accuracy te dit 'tu as 90% de bonnes reponses', mais elle ne te dit pas OU tu te trompes. La matrice de confusion, si. Elle …
Tu entraines ton modele, tu obtiens 92% d'accuracy. Tu changes le random_state, tu obtiens 85%. Le probleme avec un seul split train/test, c'est que le …
Predire le prix d'un appartement en fonction de sa surface, de son etage et de son quartier. Estimer le salaire d'un candidat selon son experience. …
Tu predis que l'appartement vaut 250 000 euros, il en vaut 280 000. C'est grave ? Ca depend de la metrique. En regression, tu ne …
L'arbre de decision est le modele le plus intuitif qui existe. Pense a un jeu de 20 questions : le modele pose une serie de …
Le Random Forest est souvent le premier modele qu'on teste sur des donnees tabulaires, et pour cause : il marche tres bien out-of-the-box. L'idee est …
Si tu regardes les solutions gagnantes sur Kaggle pour les donnees tabulaires, tu verras presque toujours du Gradient Boosting. XGBoost, LightGBM, CatBoost : ces noms …
Tu normalises tes donnees, tu selectionnes les features, tu entraines le modele, et a chaque etape tu risques d'introduire un bug subtil : appliquer le …
Un Random Forest avec 50 arbres et max_depth=3, ou 200 arbres et max_depth=10 ? C'est le genre de choix qui peut faire passer ton accuracy …
C'est le projet final. Tu vas construire un pipeline ML complet de A a Z, exactement comme tu le ferais en entretien technique ou sur …