How do I start building a YouTube research agent with Claude Code?

Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

What libraries are best for a YouTube research agent?

Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

How do I ensure accurate citations and timestamps?

Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Can I use this agent for private or unlisted videos?

Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

How can I scale this YouTube research agent for teams?

Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.

Étape par étape : Création d'un agent de recherche YouTube avec le code Claude

Si vous avez déjà passé un après-midi à vous perdre sur YouTube, pour ensuite oublier quelles vidéos valaient la peine d'être sauvegardées, vous n'êtes pas seul. Imaginez maintenant un assistant infatigable capable de trouver les meilleures vidéos, d'en extraire des résumés, de récupérer des citations clés, d'horodater les informations et de renvoyer les sources sur demande, rapidement. C'est exactement ce que peut faire un agent de recherche YouTube. Dans ce guide étape par étape, nous allons créer un agent de recherche YouTube pratique avec le code Claude, conçu pour les créateurs, les analystes, les étudiants et les apprenants passionnés qui veulent du signal et non du bruit.

Nous adopterons une approche pratique et directe : architecture, code, invites et garde-fous. En cours de route, nous ferons des choix tranchés que vous pourrez modifier plus tard. À la fin, vous aurez un agent opérationnel capable de rechercher sur YouTube, de recueillir des transcriptions, de raisonner à partir de plusieurs vidéos et de produire des notes de recherche claires.

Ce que nous construisons (et pourquoi c'est important)

Objectif : Un agent de recherche YouTube capable de :

Rechercher sur YouTube par requête

Classer les résultats par pertinence/engagement

Récupérer les transcriptions (sous-titres automatiques ou tiers)

Découper et intégrer le contenu pour la récupération

Utiliser le code Claude pour synthétiser des informations provenant de plusieurs vidéos

Produire des notes structurées : résumé, affirmations, horodatages, citations et références

Mot-clé principal : "Création d'un agent de recherche YouTube avec le code Claude"

Format : Tutoriel étape par étape avec code et invites exécutables

Sorties : Bref de recherche Markdown + JSON pour une utilisation programmatique

Pourquoi c'est important : YouTube est la plus grande base de connaissances publique de conférences, de leçons, de démonstrations et de débats. Mais c'est bruyant. La création d'un agent de recherche YouTube avec le code Claude vous donne un avantage : vous pouvez agréger des informations provenant de dizaines de vidéos en quelques minutes, et non en quelques heures.

Architecture en un coup d'œil

Nous garderons la première version simple et robuste.

Entrées : une requête de recherche (par exemple, "architectures d'agents LLM 2025"), des contraintes facultatives (plage de dates, chaîne, durée)

Recherche YouTube : API YouTube Data v3 (ou solution de repli SerpAPI)

Transcriptions : API YouTube Transcript ; solution de repli vers ASR (par exemple, Whisper) lorsqu'elle n'est pas disponible

Découpage : Segmentation sensible aux phrases (environ 800 à 1 200 jetons)

Intégrations : Utiliser un modèle d'intégration local ou hébergé (par exemple, text-embedding-3-large, nomic-embed-text, ou bge-large)

Magasin de vecteurs : FAISS local pour la vitesse ; peut être remplacé par Pinecone, Weaviate, ou Qdrant

Raisonnement : Code Claude pour l'orchestration, l'utilisation d'outils, la synthèse et l'exécution de code à l'intérieur d'une boucle contrôlée

Sorties : Rapport Markdown + index JSON avec citations, horodatages et scores

Flux de données : Requête → Recherche → Récupération des métadonnées → Transcription → Découpage → Intégration → Récupération des K premiers → Synthèse du code Claude → Rapport.

Prérequis et configuration

Python 3.10+

Clés API : YOUTUBE_API_KEY, ANTHROPIC_API_KEY (pour le code Claude)

Facultatif : OPENAI_API_KEY ou intégrations locales

Bibliothèques :

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (ou sentencepiece)

requests, pydantic, tenacity

anthropic (API Claude)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

Variables d'environnement :

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Étape 1 : Recherche YouTube avec filtres

Nous allons effectuer une recherche sur YouTube et renvoyer des métadonnées structurées : titre, chaîne, date de publication, durée, vues (si disponibles) et videoId.

# fichier : yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

Conseils d'invite lors de la création d'un agent de recherche YouTube avec le code Claude :

Demandez des sorties structurées dans des formats lisibles par l'homme et par la machine

Appliquez les citations horodatées

Encouragez la divulgation des incertitudes et des contradictions

Étape 6 : Tout assembler

Connectons requête → recherche → transcriptions → découpages → intégrations → récupération → synthèse.

# fichier : run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

Cette version de base d'un agent de recherche YouTube avec le code Claude permettra de rechercher, de récupérer et de synthétiser des informations provenant de plusieurs vidéos avec des citations. Mettez à niveau les intégrations et ajoutez la mise en cache pour qu'il soit prêt pour la production.

Sept améliorations pour le rendre excellent

De meilleures intégrations et une recherche hybride

Remplacez les intégrations de haute qualité et ajoutez la recherche de mots-clés BM25. L'hybride offre plus de rappel sur les termes de niche et une meilleure précision sur les sujets abstraits.

Développez les outils pour des métadonnées plus riches

Extrayez les commentaires, le rapport likes/dislikes et l'autorité de la chaîne. Ajoutez un re-classeur (cross-encoder) pour les 100 meilleurs candidats.

Planification de la recherche en plusieurs étapes

Utilisez le code Claude pour proposer un plan de recherche : sous-questions, hypothèses et vérifications de la couverture. Exécutez de manière itérative jusqu'à ce que les seuils de couverture soient atteints.

Suivi des preuves et contre-preuves

Pour chaque affirmation, enregistrez les extraits de soutien et de contradiction. Présentez les deux dans les rapports ; ajoutez des scores de confiance.

Stratégies pour les vidéos longues

Utilisez la détection de scène via les sous-titres ou les minutages des mots de Whisper. Résumez par section avant la synthèse globale pour éviter la dilution du contexte.

Mise en cache et persistance

Stockez les transcriptions, les intégrations et les rapports par requête. Réutilisez-les lorsque les utilisateurs modifient les filtres. Ajoutez la déduplication par ID vidéo.

Formats d'exportation et de livraison

Exportez Markdown, PDF et JSON. Livraison par e-mail ou Slack. Affichez les horodatages sous forme de liens cliquables ?t=mmss.

Invites que vous pouvez réutiliser

Utilisez ces modèles lors de la création d'un agent de recherche YouTube avec le code Claude.

Système : Vous êtes un agent de recherche méticuleux. Synthétisez à partir de plusieurs transcriptions YouTube. Citez en ligne avec [vID @ mm:ss] et incluez une section Sources avec les URL. Renvoyez à la fois un bref Markdown et une charge utile JSON d'affirmations avec un support horodaté.

Utilisateur : Objectif de la recherche : {topic}
Contraintes : concentrez-vous sur {audience or scope} ; préférez les sources dans {date range} ; incluez les désaccords.
Passages candidats (classés) :
{retrieved_passages}
Sortie : Résumé → Principales informations (puces) → Citations notables (avec horodatages) → Contradictions & Lacunes → Sources. Ensuite JSON {"claims": ...}

Garde-fous et éthique

Respectez les droits des créateurs : Créez un lien vers les vidéos originales et évitez de publier de grandes transcriptions textuelles.

Soyez transparent : Montrez d'où viennent les affirmations en utilisant les horodatages et les ID des vidéos.

Évitez la sur-synthèse : Préservez les nuances ; signalez lorsque les légendes sont générées automatiquement et probablement bruyantes.

Traitez les sujets sensibles avec soin : Soulignez l'incertitude et recherchez des sources diverses.

Dépannage : Problèmes courants et solutions

"Aucune transcription trouvée"

Revenez à Whisper ; essayez différentes langues ; vérifiez si la vidéo est bloquée dans la région.

Mauvaise qualité de récupération

Mettez à niveau les intégrations ; ajoutez BM25 ; augmentez le chevauchement des découpages ; réglez les paramètres de top-K.

Citations hallucinées

Forcez un schéma de citation strict ; pénalisez les affirmations non étayées ; exigez des horodatages exacts présents dans les découpages récupérés.

Limites du quota de l'API

Mettez en cache de manière agressive ; réduisez max_results ; regroupez les requêtes ; ajoutez un back-off avec tenacity.

Dérive de forme longue

Résumez par section ; contraignez le nombre maximal de jetons ; utilisez des invites de planification avec un plan explicite.

Mesurer la qualité

Précision@K des découpages récupérés par rapport à un ensemble étiqueté

Taux de fidélité : proportion d'affirmations avec un support horodaté vérifiable

Couverture : nombre de vidéos pertinentes uniques citées

Latence : temps entre la requête et le rapport

Exemple : Recherche sur "Bases de données vectorielles expliquées"

Requête : "bases de données vectorielles expliquées pour les développeurs 2025"

Filtres : vidéos après 2023, durée 6-30 minutes

Résultat : L'agent cite 6 vidéos, met en évidence les compromis entre HNSW et IVF-PQ, discute du coût/rappel et renvoie vers des benchmarks. La section Contradictions compare les affirmations des fournisseurs aux résultats open source.

Au fait : Automatiser cela dans votre flux de travail

Si vous travaillez sur des documents et du code, il vaut la peine d'automatiser le dernier kilomètre. Une petite interface de ligne de commande peut exécuter des requêtes nocturnes et déposer des briefs Markdown dans votre base de connaissances. Vous pouvez également la connecter à des modèles de problèmes pour la recherche de sprint.

Il est intéressant de noter que si votre flux de travail se trouve déjà dans une barre latérale de navigateur ou un assistant d'IA, des outils comme Sider.AI peuvent rationaliser la boucle de recherche : sélectionnez un sujet, effectuez une recherche, capturez des transcriptions et rédigez un résumé alimenté par Claude directement là où vous travaillez. Cela peut éviter les changements de contexte et rendre la création d'un agent de recherche YouTube avec le code Claude encore plus pratique pour les équipes.

Principaux points à retenir

La création d'un agent de recherche YouTube avec le code Claude est un moyen très efficace de transformer les vidéos en briefs exploitables.

La pile minimale : API YouTube + transcriptions + découpage + intégrations + FAISS + synthèse Claude.

Chemins de mise à niveau : recherche hybride, re-classement, boucles de planification et suivi strict des citations.

Commencez simple, mesurez la fidélité et itérez vers la fiabilité.

Prochaines étapes

Implémentez un modèle d'intégration réel et une récupération hybride

Ajoutez une étape de re-classement et des métriques de qualité

Créez une tâche planifiée pour actualiser les sujets chaque semaine

Empaquetez-le en tant qu'interface de ligne de commande et interface utilisateur Web légère

FAQ

Q1 : Comment commencer à créer un agent de recherche YouTube avec le code Claude ? Commencez par la recherche YouTube, récupérez les transcriptions, découpez le contenu, intégrez-le dans un magasin de vecteurs et utilisez le code Claude pour synthétiser les résultats. Le guide ci-dessus fournit un code étape par étape pour assembler un pipeline fonctionnel.

Q2 : Quelles sont les meilleures bibliothèques pour un agent de recherche YouTube ? Utilisez l'API YouTube Data pour la recherche, youtube-transcript-api pour les légendes, FAISS pour la recherche vectorielle et le SDK Anthropic pour appeler le code Claude. Vous pouvez échanger des intégrations avec OpenAI, Nomic ou BGE.

Q3 : Comment puis-je garantir des citations et des horodatages précis ? Conservez les horodatages de début/fin pendant le découpage et demandez au code Claude de citer [video_id @ mm:ss]. Validez que les horodatages cités existent dans les découpages récupérés avant de publier.

Q4 : Puis-je utiliser cet agent pour des vidéos privées ou non répertoriées ? Oui, si vous avez accès et que vous pouvez récupérer des transcriptions ou exécuter ASR local (par exemple, Whisper). Respectez toujours les autorisations et évitez de distribuer du contenu protégé par le droit d'auteur.

Q5 : Comment puis-je mettre à l'échelle cet agent de recherche YouTube pour les équipes ? Ajoutez la mise en cache, un magasin de vecteurs partagé, des files d'attente de tâches et des exécutions planifiées. Intégrez-le à Slack ou à un wiki, et envisagez un assistant basé sur un navigateur comme Sider.AI pour rationaliser les flux de travail des chercheurs.