Stap voor stap: Een YouTube-onderzoeksagent bouwen met Claude Code

Als je ooit een middag hebt besteed aan het verdwalen op YouTube, om vervolgens te vergeten welke video's de moeite waard waren om op te slaan, ben je niet de enige. Stel je nu een onvermoeibare assistent voor die de beste video's kan vinden, samenvattingen kan extraheren, belangrijke citaten kan verzamelen, tijdstempelinzichten kan geven en bronnen op aanvraag kan retourneren - snel. Dat is precies wat een YouTube-onderzoeksagent kan doen. In deze stapsgewijze handleiding bouwen we een praktische YouTube-onderzoeksagent met Claude Code, ontworpen voor makers, analisten, studenten en geobsedeerde leerlingen die op zoek zijn naar bruikbare informatie in plaats van ruis.

We volgen een praktische en directe route: architectuur, code, prompts en guardrails. Onderweg maken we uitgesproken keuzes die je later kunt aanpassen. Aan het einde heb je een werkende agent die YouTube kan doorzoeken, transcripten kan verzamelen, meerdere video's kan analyseren en duidelijke onderzoeksrapporten kan produceren.

Wat we bouwen (en waarom het belangrijk is)

Doel: Een YouTube-onderzoeksagent die het volgende kan:

YouTube doorzoeken op basis van een zoekopdracht

Resultaten rangschikken op relevantie/betrokkenheid

Transcripten ophalen (automatische ondertiteling of van derden)

Inhoud segmenteren en insluiten voor retrieval

Claude Code gebruiken om inzichten uit meerdere video's te synthetiseren

Gestructureerde notities uitvoeren: samenvatting, beweringen, tijdstempels, citaten en bronvermeldingen

Primaire zoekwoord: "Een YouTube-onderzoeksagent bouwen met Claude Code"

Formaat: Stapsgewijze tutorial met uitvoerbare code en prompts

Output: Markdown-onderzoeksrapport + JSON voor programmatisch gebruik

Waarom het belangrijk is: YouTube is de grootste openbare kennisbank van lezingen, lessen, demo's en debatten. Maar het is ook lawaaierig. Het bouwen van een YouTube-onderzoeksagent met Claude Code geeft je een voorsprong: je kunt inzichten uit tientallen video's in enkele minuten verzamelen, in plaats van uren.

Architectuur in een oogopslag

We houden de eerste versie simpel en robuust.

Inputs: een zoekopdracht (bijv. "LLM agent architectures 2025"), optionele beperkingen (datumbereik, kanaal, duur)

YouTube Search: YouTube Data API v3 (of SerpAPI-fallback)

Transcripten: YouTube Transcript API; fallback naar ASR (bijv. Whisper) indien niet beschikbaar

Chunking: Zinsbewuste segmentatie (ongeveer 800-1.200 tokens)

Embeddings: Gebruik een lokaal of gehost embedding model (bijv. text-embedding-3-large, nomic-embed-text, of bge-large)

Vector Store: Lokale FAISS voor snelheid; kan worden verwisseld met Pinecone, Weaviate, of Qdrant

Reasoning: Claude Code voor orkestratie, toolgebruik, synthese en code-executie binnen een gecontroleerde loop

Outputs: Markdown-rapport + JSON-index met citaten, tijdstempels en scores

Data flow: Query → Search → Fetch metadata → Transcript → Chunk → Embed → Retrieve top‑K → Claude Code synthesis → Report.

Vereisten en Setup

Python 3.10+

API keys: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (voor Claude Code)

Optioneel: OPENAI_API_KEY of lokale embeddings

Bibliotheken:

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (of sentencepiece)

requests, pydantic, tenacity

anthropic (Claude API)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

Omgevingsvariabelen:

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Stap 1: YouTube Search met filters

We doorzoeken YouTube en retourneren gestructureerde metadata: titel, kanaal, publicatiedatum, duur, views (indien beschikbaar) en videoId.

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

Prompttips bij het bouwen van een YouTube-onderzoeksagent met Claude Code:

Vraag om gestructureerde outputs in zowel menselijk leesbare als machineleesbare formaten

Forceer tijdstempel-bronvermeldingen

Moedig de openbaarmaking van onzekerheden en tegenstrijdigheden aan

Stap 6: Alles samenvoegen

Laten we query → search → transcripts → chunks → embeddings → retrieve → synthesize met elkaar verbinden.

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

Deze basisversie van een YouTube-onderzoeksagent met Claude Code zal inzichten uit meerdere video's zoeken, ophalen en synthetiseren met bronvermeldingen. Upgrade de embeddings en voeg caching toe om het productie-klaar te maken.

Zeven upgrades om het geweldig te maken

Betere embeddings en hybride zoekopdracht

Vervang door hoogwaardige embeddings en voeg BM25-zoekwoordzoekopdracht toe. Hybride geeft meer recall op niche-termen en betere precisie op abstracte onderwerpen.

Breid tools uit voor rijkere metadata

Haal reacties, likes/dislikes ratio en kanaalautoriteit op. Voeg een re-ranker (cross-encoder) toe voor de top 100 kandidaten.

Meerfasen onderzoeksplanning

Gebruik Claude Code om een onderzoeksplan voor te stellen: subvragen, hypotheses en dekking controles. Voer iteratief uit totdat de dekkingsdrempels zijn bereikt.

Bewijs tracking en tegenbewijs

Log voor elke bewering ondersteunende en tegenstrijdige fragmenten. Presenteer beide in rapporten; voeg betrouwbaarheidsscores toe.

Strategieën voor lange video's

Gebruik scènedetectie via ondertitels of Whisper-woordtimings. Vat per sectie samen vóór globale synthese om contextverwatering te voorkomen.

Caching en persistentie

Sla transcripten, embeddings en rapporten per zoekopdracht op. Hergebruik wanneer gebruikers filters aanpassen. Voeg deduplicatie toe op video-ID.

Exportformaten en levering

Exporteer Markdown, PDF en JSON. E-mail- of Slack-levering. Render tijdstempels als klikbare ?t=mmss links.

Prompts die u kunt hergebruiken

Gebruik deze templates bij het bouwen van een YouTube-onderzoeksagent met Claude Code.

System: You are a meticulous research agent. Synthesize across multiple YouTube transcripts. Cite inline with [vID @ mm:ss], and include a Sources section with URLs. Return both a Markdown brief and a JSON payload of claims with timestamped support.

User: Research goal: {topic}
Constraints: focus on {audience or scope}; prefer sources within {date range}; include disagreements.
Candidate passages (ranked):
{retrieved_passages}
Output: Summary → Key Insights (bullets) → Notable Quotes (with timestamps) → Contradictions & Gaps → Sources. Then JSON {"claims": ...}

Guardrails en ethiek

Respecteer de rechten van de maker: Link naar de originele video's en vermijd het publiceren van grote letterlijke transcripten.

Wees transparant: Laat zien waar beweringen vandaan komen met behulp van tijdstempels en video-ID's.

Vermijd over‑summarisatie: Behoud nuance; geef aan wanneer bijschriften automatisch worden gegenereerd en waarschijnlijk ruis bevatten.

Ga zorgvuldig om met gevoelige onderwerpen: Benadruk onzekerheid en zoek naar diverse bronnen.

Probleemoplossing: veelvoorkomende problemen en oplossingen

"Geen transcript gevonden"

Fallback naar Whisper; probeer verschillende talen; controleer of de video regio-geblokkeerd is.

Slechte retrieval kwaliteit

Upgrade embeddings; voeg BM25 toe; verhoog chunk overlap; parameter-tune top-K.

Gehallucineerde citaten

Forceer strikt citatieschema; bestraf niet-ondersteunde beweringen; vereisen exacte tijdstempels die aanwezig zijn in opgehaalde chunks.

API quotum limieten

Cache agressief; verminder max_results; batch verzoeken; voeg back-off toe met tenacity.

Long-form drift

Vat per sectie samen; beperk max tokens; gebruik planning prompts met expliciete outline.

Kwaliteit meten

Precision@K van opgehaalde chunks versus een gelabelde set

Faithfulness rate: percentage beweringen met verifieerbare tijdstempel-ondersteuning

Coverage: aantal unieke relevante video's geciteerd

Latency: tijd van query tot rapport

Voorbeeld: Onderzoek naar "Vector Databases Explained"

Query: "vector databases explained for developers 2025"

Filters: video's na 2023, duur 6-30 minuten

Outcome: Agent citeert 6 video's, benadrukt trade‑offs van HNSW vs. IVF‑PQ, bespreekt kosten/recall en linkt naar benchmarks. De sectie Contradictions vergelijkt vendor claims vs. open‑source resultaten.

Tussen haakjes: Dit automatiseren binnen uw workflow

Als je met documenten en code werkt, is het de moeite waard om de laatste stap te automatiseren. Een kleine CLI kan 's nachts queries uitvoeren en Markdown-rapporten in uw kennisbank plaatsen. Je kunt het ook aansluiten op issue templates voor sprintonderzoek.

Vermeldenswaardig: als je workflow al in een browserzijbalk of AI-assistent staat, kunnen tools zoals Sider.AI de onderzoeksloop stroomlijnen - selecteer een onderwerp, voer een zoekopdracht uit, leg transcripten vast en stel een Claude-aangedreven samenvatting op, rechtstreeks waar je werkt. Dit kan context switching besparen en het bouwen van een YouTube-onderzoeksagent met Claude Code nog praktischer maken voor teams.

Belangrijkste punten

Het bouwen van een YouTube-onderzoeksagent met Claude Code is een manier met een hoge hefboomwerking om video's om te zetten in bruikbare rapporten.

De minimale stack: YouTube API + transcripten + chunking + embeddings + FAISS + Claude synthese.

Upgrade paden: hybride zoekopdracht, re‑ranking, planning loops en strikte citatie tracking.

Begin simpel, meet faithfulness en itereer naar betrouwbaarheid.

Volgende stappen

Implementeer een echt embedding model en hybride retrieval

Voeg een re‑ranking stap en kwaliteit metrics toe

Maak een scheduled job om wekelijks topics te refreshen

Package als een CLI en een lightweight web UI

FAQ

Q1:How do I start building a YouTube research agent with Claude Code? Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

Q2:What libraries are best for a YouTube research agent? Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

Q3:How do I ensure accurate citations and timestamps? Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Q4:Can I use this agent for private or unlisted videos? Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

Q5:How can I scale this YouTube research agent for teams? Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.