RAG multimodal en 30 minutes : Gemini Embedding 2 + Claude Code

Le premier embedding nativement multimodal

Google vient de sortir Gemini Embedding 2. C’est leur premier modèle d’embedding qui comprend nativement le texte, les images, la vidéo et l’audio. Pas un modèle texte avec un wrapper image par dessus. Un seul modèle, un seul espace vectoriel, toutes les modalités.

Concrètement, ça veut dire que vous pouvez stocker un PDF de 68 pages, des photos, des vidéos et des fichiers audio dans la même base de données vectorielle. Et quand vous posez une question, le modèle comprend les relations sémantiques entre ces différents types de média.

Ce n’est pas juste un incrément technique. C’est le genre de changement qui simplifie radicalement des pipelines qui prenaient des jours à construire.

RAG en 30 secondes

Pour ceux qui débarquent : RAG signifie Retrieval Augmented Generation. Le concept est simple.

Votre modèle d’IA a des connaissances limitées à ses données d’entraînement. Si vous lui posez une question sur vos données privées (documents internes, historique client, base de connaissances), il ne sait pas. Le RAG résout ce problème : avant de répondre, le modèle va chercher l’information pertinente dans votre base de données, puis l’intègre dans sa réponse.

Le workflow classique :

Vos documents sont découpés en chunks
Chaque chunk passe dans un modèle d’embedding qui le transforme en vecteur
Les vecteurs sont stockés dans une base vectorielle (Pinecone, Weaviate, etc.)
Quand vous posez une question, elle est aussi convertie en vecteur
On cherche les vecteurs les plus proches (= le contenu le plus pertinent)
Le modèle génère une réponse basée sur ce contenu

Jusqu’ici, chaque type de média nécessitait son propre pipeline. Un pour le texte, un pour les images (avec description textuelle intermédiare), un pour l’audio (avec transcription). Gemini Embedding 2 unifie tout ça.

Ce que j’ai construit en 30 minutes

J’ai voulu tester la promesse. Résultat : deux démos fonctionnelles, chacune construite en moins de 15 minutes avec Claude Code.

Démo 1 : chatbot sur un PDF technique

J’ai pris un PDF de 68 pages (un manuel d’aspirateur, pour le côté pratique). Du texte dense, des diagrammes techniques, des images d’assemblage, plusieurs langues.

Le prompt à Claude Code :

Voici ce PDF. Je veux pouvoir chatter avec en utilisant le nouveau modèle d’embedding de Google. Construis-moi le pipeline complet.

Claude Code a :

Analysé le PDF
Découpé le contenu en chunks intelligents (texte + images séparément)
Créé l’index Pinecone avec la bonne dimension
Ingéré tout le contenu avec les embeddings Gemini
Construit une web app de chat en local

Question test : “Comment nettoyer le filtre ?”

Réponse : instructions étape par étape + les diagrammes techniques correspondants, extraits directement du PDF. Pas une description du diagramme. Le diagramme lui-même, affiché dans le chat.

Question test : “Quelles sont les pièces ?”

Réponse : composants principaux (page 6), contenu de la boîte (page 7), accessoires disponibles. Trois images différentes, chacune avec son score de confiance.

Démo 2 : recherche d’images par similarité

Cas d’usage : une entreprise de toiture avec un historique de projets photographiés. Vous recevez une photo d’un nouveau toit à réparer, vous voulez retrouver les projets similaires dans votre base.

13 images de toits avec métadonnées (coût, durée, taille d’équipe). Claude Code a tout ingéré, construit l’app, et en quelques secondes je pouvais :

Uploader une photo de toit
Obtenir les 5 projets les plus similaires avec score de similarité
Voir les métadonnées de chaque projet (fourchette de prix, type de toit, etc.)
Poser des questions de suivi (“Parle-moi du projet de Richmond”)

Le modèle d’embedding comprend visuellement ce qui se ressemble. Un toit avec des dégâts d’eau est matché avec d’autres dégâts d’eau, pas juste “des photos de toits”.

Comment reproduire ça

Prérequis

Trois clés API :

Pinecone : base vectorielle (plan starter gratuit suffisant)
Google AI Studio : accès à Gemini Embedding 2
OpenRouter (ou Anthropic/OpenAI) : pour le modèle de chat

Le build avec Claude Code

Ouvrez Claude Code dans un dossier vide. Passez en mode plan :

Je veux utiliser Gemini Embedding 2 pour créer une base vectorielle
Pinecone multimodale. Le pipeline doit supporter texte, images et vidéos.
Crée un .env avec les placeholders et un plan d'implémentation.

Claude Code génère la structure du projet, les dépendances, et un plan étape par étape. Vous remplissez le .env avec vos clés, vous validez le plan, et il construit tout.

Ensuite, déposez vos fichiers dans le dossier data/ :

Les médias sont dans data/. Ingère tout dans Pinecone puis
construis-moi une app de chat en localhost pour tester.

Claude Code crée l’index, embedd tout le contenu, et construit l’interface. Vous n’avez touché aucune configuration Pinecone, aucun code d’embedding, aucune logique de chunking.

Ce que Claude Code fait sous le capot

C’est là que ça devient intéressant. Claude Code gère :

Le chunking intelligent du PDF (découpage par page, extraction d’images)
L’appel à l’API Gemini Embedding 2 pour chaque chunk
La création et configuration de l’index Pinecone
L’upsert des vecteurs avec métadonnées
La construction de l’app web (frontend + backend + logique RAG)
La gestion des différents types de médias (texte vs image vs vidéo)

En n8n, ce même pipeline m’aurait pris plusieurs heures, voire plusieurs jours. Il faut configurer chaque noeud, gérer les formats intermédiaires, débugger les connecteurs. Le pipeline est fragile : un changement dans le format d’entrée casse tout.

Avec Claude Code, vous décrivez l’objectif et il s’adapte. Si le PDF a un format bizarre, il ajuste son parsing. Si une image est en résolution trop faible, il le détecte et vous prévient.

Limites actuelles

Soyons honnêtes sur ce qui ne marche pas encore parfaitement.

Vidéos : max 120 secondes, uniquement mp4 et mov. C’est suffisant pour des clips courts mais pas pour des vidéos longues. La description textuelle accompagnant la vidéo est cruciale pour la qualité de la recherche.

Images : 6 par requête max, png et jpeg uniquement. Pour un catalogue produit massif, il faudra batcher.

Descriptions : le modèle d’embedding est puissant, mais la qualité de la recherche dépend fortement des métadonnées que vous associez à chaque média. Un expert métier qui décrit précisément ses images obtiendra de bien meilleurs résultats qu’un ingénieur qui laisse les descriptions par défaut.

Coût : l’embedding multimodal consomme plus de tokens que le texte seul. Pour une grosse base (milliers de documents), le coût d’ingestion initial peut être significatif.

Pourquoi c’est un game changer

Ce qui me frappe, ce n’est pas le modèle en lui-même. C’est la combinaison Claude Code + embedding multimodal.

Avant : construire un pipeline RAG multimodal necessitait de l’expertise en ML, une bonne compréhension des architectures de vector stores, et beaucoup de code glue. Vous pouviez y passer une semaine.

Maintenant : vous décrivez votre use case en français, vous donnez vos fichiers, et en 30 minutes vous avez un prototype fonctionnel. La barrière d’entrée a chuté de manière spectaculaire.

Les cas d’usage concrets :

Support technique : chatbot sur votre documentation produit (texte + schémas)
Immobilier : recherche de biens similaires par photo
Medical : recherche dans des archives de radiographies/scans
E-commerce : “trouve-moi des produits qui ressemblent à ça”
Formation : chatbot sur vos vidéos de cours
Juridique : recherche dans des archives de contrats et documents scannés

La compétence qui compte maintenant, ce n’est plus de savoir coder un pipeline d’embedding. C’est de comprendre profondément votre domaine métier pour structurer les bonnes descriptions et les bonnes métadonnées.

Les benchmarks de Gemini Embedding 2 sont disponibles sur la documentation Google AI. Le code des démos est reproductible en suivant les étapes décrites ci-dessus avec Claude Code.