Pratique Python, IA Engineering et bien plus avec des exercices interactifs et des tests automatiques.
Quand on decoupe un texte en chunks, on veut garder la trace de l'origine de chaque morceau. RécursiveCharacterTextSplitter a une méthode split_documents qui prend une …
Pour comparer des textes entre eux, il faut les transformer en nombres. TF-IDF (Term Frequency - Inverse Document Frequency) est une méthode classique qui donne …
Une fois les textes transformes en vecteurs, on peut mesurer leur ressemblance. La similarite cosinus mesure l'angle entre deux vecteurs : si deux textes parlent …
Le coeur du RAG, c'est la recherche : etant donne une question, trouver le document le plus pertinent dans une base. On va combiner TF-IDF …
En RAG, on ne veut pas juste le meilleur document, on veut souvent les K meilleurs. Ca permet de donner plus de contexte au modèle …
Quand on a des milliers de documents, calculer la similarite avec chacun devient lent. FAISS (Facebook AI Similarity Search) est une librairie optimisee pour la …
Maintenant on va assembler les briques : TF-IDF pour créer les vecteurs et FAISS pour les stocker et faire la recherche rapide. C'est un vrai …
En RAG, le pipeline classique c'est : charger les documents, les decouper en chunks, les vectoriser, puis les indexer. On va assembler les étapes de …
En RAG, on ne veut pas toujours chercher dans tous les documents. Parfois on veut filtrer par source, par date, par catégorie. C'est le concept …
BM25 est un algorithme de recherche textuelle classique, utilise par les moteurs de recherche bien avant l'arrivee des embeddings. Il fonctionne par correspondance de mots-cles …
La similarite cosinus est LA metrique de base pour comparer des vecteurs dans un système RAG. Elle mesure l'angle entre deux vecteurs, independamment de leur …
LangGraph est la librairie de LangChain pour construire des agents et des workflows complexes sous forme de graphes. Au lieu d'enchainer des appels de fonctions …
La vraie puissance de LangGraph, c'est les transitions conditionnelles. Au lieu d'un pipeline lineaire, tu peux diriger le flux vers differents noeuds selon le contenu …
Un Knowledge Graph (graphe de connaissances) représente des informations sous forme de triplets : (sujet, relation, objet). Par exemple : (Python, est_un, langage), (Django, utilise, …