How do I start building a YouTube research agent with Claude Code?

Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

What libraries are best for a YouTube research agent?

Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

How do I ensure accurate citations and timestamps?

Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Can I use this agent for private or unlisted videos?

Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

How can I scale this YouTube research agent for teams?

Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.

Pas a pas: construint un agent de recerca de YouTube amb codi Claude

Si alguna vegada has passat una tarda navegant per YouTube, només per oblidar quins vídeos valia la pena desar, no ets l'únic. Ara imagina't un assistent incansable que pugui trobar els millors vídeos, extreure resums, obtenir cites clau, marcar amb horaris les idees i retornar les fonts a petició, i tot ràpidament. Això és exactament el que pot fer un agent de recerca de YouTube. En aquesta guia pas a pas, construirem un agent de recerca de YouTube pràctic amb codi Claude, dissenyat per a creadors, analistes, estudiants i aprenents obsessionats que volen senyal per sobre de soroll.

Seguirem una ruta pràctica i directa: arquitectura, codi, indicacions i proteccions. Al llarg del camí, prendrem decisions subjectives que pots canviar més tard. Al final, tindràs un agent funcional que pot cercar a YouTube, recopilar transcripcions, raonar sobre diversos vídeos i produir informes de recerca clars.

Què estem construint (i per què és important)

Objectiu: un agent de recerca de YouTube que pugui:

Cercar a YouTube per consulta

Classificar els resultats per rellevància/compromís

Obtenir transcripcions (subtítols automàtics o de tercers)

Dividir i incrustar contingut per a la recuperació

Utilitzar codi Claude per sintetitzar coneixements de diversos vídeos

Produir notes estructurades: resum, afirmacions, horaris, cites i citacions

Paraula clau principal: "Construint un agent de recerca de YouTube amb codi Claude"

Format: Tutorial pas a pas amb codi i indicacions executables

Resultats: Informe de recerca en Markdown + JSON per a ús programàtic

Per què és important: YouTube és la base de coneixement públic més gran de xerrades, lliçons, demostracions i debats. Però és sorollós. Construir un agent de recerca de YouTube amb codi Claude et dona un avantatge: pots agregar coneixements de desenes de vídeos en minuts, no en hores.

Arquitectura d'un cop d'ull

Mantindrem la primera versió senzilla i robusta.

Entrades: una consulta de recerca (p. ex., "arquitectures d'agents LLM 2025"), restriccions opcionals (interval de dates, canal, durada)

Cerca de YouTube: API de dades de YouTube v3 (o SerpAPI com a alternativa)

Transcripcions: API de transcripció de YouTube; alternativa a ASR (p. ex., Whisper) quan no estigui disponible

Divisió: Segmentació conscient de les frases (aproximadament 800–1.200 tokens)

Incrustacions: Utilitza un model d'incrustació local o allotjat (p. ex., text-embedding-3-large, nomic-embed-text o bge-large)

Magatzem vectorial: FAISS local per a la velocitat; es pot canviar a Pinecone, Weaviate o Qdrant

Raonament: Codi Claude per a l'orquestració, l'ús d'eines, la síntesi i l'execució de codi dins d'un bucle controlat

Resultats: Informe Markdown + índex JSON amb citacions, horaris i puntuacions

Flux de dades: Consulta → Cerca → Obtenir metadades → Transcripció → Divisió → Incrustació → Recuperar els K millors → Síntesi de codi Claude → Informe.

Requisits previs i configuració

Python 3.10+

Claus API: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (per a codi Claude)

Opcional: OPENAI_API_KEY o incrustacions locals

Biblioteques:

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (o sentencepiece)

requests, pydantic, tenacity

anthropic (API de Claude)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

Variables d'entorn:

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Pas 1: Cerca de YouTube amb filtres

Cercarem a YouTube i retornarem metadades estructurades: títol, canal, data de publicació, durada, visualitzacions (si estan disponibles) i videoId.

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

Consells per a les indicacions quan es construeix un agent de recerca de YouTube amb codi Claude:

Demana sortides estructurades tant en formats llegibles per humans com en formats llegibles per màquines

Aplica citacions amb horaris

Fomenta les divulgacions d'incertesa i les contradiccions

Pas 6: Ajuntant-ho tot

Connectem consulta → cerca → transcripcions → divisions → incrustacions → recuperar → sintetitzar.

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"]
"title": r["title"]
"channel": r["channel"]
"url": r["url"]
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

Aquesta versió de línia de base d'un agent de recerca de YouTube amb codi Claude cercarà, recuperarà i sintetitzarà coneixements de diversos vídeos amb citacions. Actualitza les incrustacions i afegeix la memòria cau per preparar-lo per a la producció.

Set actualitzacions per fer-lo genial

Millors incrustacions i cerca híbrida

Canvia les incrustacions d'alta qualitat i afegeix la cerca de paraules clau BM25. L'híbrid ofereix més recuperació en termes específics i una millor precisió en temes abstractes.

Amplia les eines per obtenir metadades més completes

Obté comentaris, relació m'agrada/no m'agrada i autoritat del canal. Afegeix un reclassificador (codificador creuat) per als 100 candidats principals.

Planificació de la recerca en diversos torns

Utilitza el codi Claude per proposar un pla de recerca: subpreguntes, hipòtesis i comprovacions de cobertura. Executa iterativament fins que s'assoleixin els llindars de cobertura.

Seguiment de proves i contraproves

Per a cada afirmació, registra fragments de suport i contradicció. Presenta'ls tots dos als informes; afegeix puntuacions de confiança.

Estratègies de vídeo llarg

Utilitza la detecció d'escenes mitjançant subtítols o temps de paraules de Whisper. Resumeix per secció abans de la síntesi global per evitar la dilució del context.

Emmagatzematge a la memòria cau i persistència

Emmagatzema les transcripcions, les incrustacions i els informes per consulta. Reutilitza quan els usuaris modifiquin els filtres. Afegeix la desduplicació per ID de vídeo.

Formats d'exportació i lliurament

Exporta Markdown, PDF i JSON. Lliurament per correu electrònic o Slack. Representa els horaris com a enllaços ?t=mmss en què es pot fer clic.

Indicacions que pots reutilitzar

Utilitza aquestes plantilles mentre construeixes un agent de recerca de YouTube amb codi Claude.

Sistema: ets un agent de recerca meticulós. Sintetitza a partir de diverses transcripcions de YouTube. Cita en línia amb [vID @ mm:ss] i inclou una secció de fonts amb URL. Retorna tant un informe de Markdown com una càrrega útil JSON d'afirmacions amb suport amb horaris.

Usuari: Objectiu de la recerca: {topic}
Restriccions: centra't en {audience or scope}; prefereix les fonts dins de {date range}; inclou els desacords.
Fragments candidats (classificats):
{retrieved_passages}
Sortida: Resum → Idees clau (vinyetes) → Cites notables (amb horaris) → Contradiccions i llacunes → Fonts. A continuació, JSON {"claims": ...}

Proteccions i ètica

Respecta els drets del creador: enllaça als vídeos originals i evita publicar grans transcripcions textuals.

Sigues transparent: mostra d'on provenen les afirmacions mitjançant horaris i ID de vídeo.

Evita la sobresimplificació: preserva els matisos; indica quan els subtítols es generen automàticament i és probable que siguin sorollosos.

Gestiona els temes sensibles amb cura: destaca la incertesa i busca fonts diverses.

Resolució de problemes: problemes i solucions habituals

"No s'ha trobat cap transcripció"

Recorre a Whisper; prova idiomes diferents; comprova si el vídeo està bloquejat per regió.

Mala qualitat de recuperació

Actualitza les incrustacions; afegeix BM25; augmenta la superposició de fragments; ajusta el paràmetre top-K.

Citacions al·lucinades

Força un esquema de citació estricte; penalitza les afirmacions no admeses; requereix que els horaris exactes estiguin presents als fragments recuperats.

Límits de quota de l'API

Emmagatzema a la memòria cau de manera agressiva; redueix max_results; sol·licituds per lots; afegeix una còpia de seguretat amb tenacity.

Deriva de format llarg

Resumeix per secció; restringeix el nombre màxim de tokens; utilitza indicacions de planificació amb un esquema explícit.

Mesura de la qualitat

Precisió@K de fragments recuperats vs. un conjunt etiquetat

Taxa de fidelitat: proporció d'afirmacions amb suport verificable amb horaris

Cobertura: nombre de vídeos rellevants únics citats

Latència: temps des de la consulta fins a l'informe

Exemple: recerca sobre "Bases de dades vectorials explicades"

Consulta: "bases de dades vectorials explicades per a desenvolupadors 2025"

Filtres: vídeos posteriors al 2023, durada de 6 a 30 minuts

Resultat: l'agent cita 6 vídeos, destaca les compensacions de HNSW vs. IVF-PQ, parla del cost/recuperació i enllaça a referències. La secció de contradiccions compara les afirmacions del proveïdor amb els resultats de codi obert.

Per cert: automatitzant això dins del teu flux de treball

Si treballes amb documents i codi, val la pena automatitzar l'última milla. Un petit CLI pot executar consultes nocturnes i deixar informes de Markdown a la teva base de coneixement. També pots connectar-lo a plantilles d'incidències per a la recerca d'esprints.

Val la pena assenyalar: si el teu flux de treball ja es troba a la barra lateral d'un navegador o a un assistent d'IA, eines com Sider.AI poden agilitzar el bucle de recerca: selecciona un tema, executa una cerca, captura transcripcions i redacta un resum impulsat per Claude just on treballes. Això pot estalviar el canvi de context i fer que la construcció d'un agent de recerca de YouTube amb codi Claude sigui encara més pràctica per als equips.

Conclusions clau

Construir un agent de recerca de YouTube amb codi Claude és una manera d'alt avantatge de convertir vídeos en informes accionables.

La pila mínima: API de YouTube + transcripcions + divisió + incrustacions + FAISS + síntesi de Claude.

Rutes d'actualització: cerca híbrida, reclassificació, bucles de planificació i seguiment estricte de citacions.

Comença senzill, mesura la fidelitat i itera cap a la fiabilitat.

Passos següents

Implementa un model d'incrustació real i una recuperació híbrida

Afegeix un pas de reclassificació i mètriques de qualitat

Crea un treball programat per actualitzar els temes setmanalment

Empaqueta com a CLI i una IU web lleugera

PMF

P1: Com puc començar a construir un agent de recerca de YouTube amb codi Claude? Comença amb la cerca de YouTube, obtén transcripcions, divideix el contingut, incrusta'l en un magatzem vectorial i utilitza el codi Claude per sintetitzar els resultats. La guia anterior proporciona codi pas a pas per muntar una pipeline funcional.

P2: Quines biblioteques són millors per a un agent de recerca de YouTube? Utilitza l'API de dades de YouTube per a la cerca, youtube-transcript-api per als subtítols, FAISS per a la cerca vectorial i l'SDK d'Anthropic per trucar al codi Claude. Pots canviar les incrustacions per OpenAI, Nomic o BGE.

P3: Com puc garantir citacions i horaris precisos? Mantén els horaris d'inici/final durant la divisió i exigeix que el codi Claude citi [video_id @ mm:ss]. Valida que els horaris citats existeixin als fragments recuperats abans de publicar.

P4: Puc utilitzar aquest agent per a vídeos privats o no llistats? Sí, si hi tens accés i pots obtenir transcripcions o executar ASR local (p. ex., Whisper). Respecta sempre els permisos i evita distribuir contingut protegit per drets d'autor.

P5: Com puc escalar aquest agent de recerca de YouTube per a equips? Afegeix memòria cau, un magatzem vectorial compartit, cues de treball i execucions programades. Integra't amb Slack o una wiki i considera un assistent basat en navegador com Sider.AI per agilitzar els fluxos de treball dels investigadors.