Schritt-für-Schritt: Entwicklung eines YouTube-Rechercheagenten mit Claude Code

Wenn Sie schon einmal einen Nachmittag damit verbracht haben, sich auf YouTube zu verlieren, nur um zu vergessen, welche Videos es wert waren, gespeichert zu werden, sind Sie nicht allein. Stellen Sie sich nun einen unermüdlichen Assistenten vor, der die besten Videos finden, Zusammenfassungen extrahieren, wichtige Zitate herausziehen, Erkenntnisse mit Zeitstempeln versehen und bei Bedarf schnell Quellen zurückgeben kann. Genau das kann ein YouTube-Rechercheagent leisten. In dieser Schritt-für-Schritt-Anleitung entwickeln wir einen praktischen YouTube-Rechercheagenten mit Claude Code, der für Ersteller, Analysten, Studenten und besessene Lernende entwickelt wurde, die Wert auf Information statt Rauschen legen.

Wir wählen einen praktischen und direkten Weg: Architektur, Code, Prompts und Schutzmaßnahmen. Auf dem Weg dorthin treffen wir voreingenommene Entscheidungen, die Sie später ändern können. Am Ende verfügen Sie über einen funktionierenden Agenten, der YouTube durchsuchen, Transkripte sammeln, mehrere Videos analysieren und saubere Rechercheberichte erstellen kann.

Was wir entwickeln (und warum es wichtig ist)

Ziel: Ein YouTube-Rechercheagent, der Folgendes kann:

YouTube nach Suchanfrage durchsuchen

Ergebnisse nach Relevanz/Engagement ordnen

Transkripte abrufen (automatische Untertitel oder von Drittanbietern)

Inhalte für den Abruf in Blöcke aufteilen und einbetten

Claude Code verwenden, um Erkenntnisse aus mehreren Videos zu synthetisieren

Strukturierte Notizen ausgeben: Zusammenfassung, Behauptungen, Zeitstempel, Zitate und Quellenangaben

Primäres Keyword: "Entwicklung eines YouTube-Rechercheagenten mit Claude Code"

Format: Schritt-für-Schritt-Tutorial mit ausführbarem Code und Prompts

Ausgaben: Markdown-Recherchebericht + JSON für programmatische Verwendung

Warum es wichtig ist: YouTube ist die größte öffentliche Wissensdatenbank für Vorträge, Lektionen, Demos und Debatten. Aber es ist auch viel Rauschen dabei. Die Entwicklung eines YouTube-Rechercheagenten mit Claude Code verschafft Ihnen einen Vorteil: Sie können Erkenntnisse aus Dutzenden von Videos in Minuten statt in Stunden zusammenfassen.

Architektur auf einen Blick

Wir halten die erste Version einfach und robust.

Eingaben: Eine Suchanfrage (z. B. "LLM-Agentenarchitekturen 2025"), optionale Einschränkungen (Datumsbereich, Kanal, Dauer)

YouTube-Suche: YouTube Data API v3 (oder SerpAPI-Fallback)

Transkripte: YouTube Transcript API; Fallback auf ASR (z. B. Whisper), wenn nicht verfügbar

Chunking: Satzweise Segmentierung (ca. 800–1.200 Token)

Embeddings: Verwenden Sie ein lokales oder gehostetes Embedding-Modell (z. B. text-embedding-3-large, nomic-embed-text oder bge-large)

Vektor-Store: Lokales FAISS für Geschwindigkeit; kann zu Pinecone, Weaviate oder Qdrant gewechselt werden

Reasoning: Claude Code für Orchestrierung, Tool-Nutzung, Synthese und Codeausführung innerhalb einer kontrollierten Schleife

Ausgaben: Markdown-Bericht + JSON-Index mit Zitaten, Zeitstempeln und Bewertungen

Datenfluss: Abfrage → Suche → Metadaten abrufen → Transkript → Chunk → Einbetten → Top-K abrufen → Claude Code-Synthese → Bericht.

Voraussetzungen und Einrichtung

Python 3.10+

API-Schlüssel: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (für Claude Code)

Optional: OPENAI_API_KEY oder lokale Embeddings

Bibliotheken:

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (oder sentencepiece)

requests, pydantic, tenacity

anthropic (Claude API)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

Umgebungsvariablen:

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Schritt 1: YouTube-Suche mit Filtern

Wir durchsuchen YouTube und geben strukturierte Metadaten zurück: Titel, Kanal, Veröffentlichungsdatum, Dauer, Aufrufe (falls verfügbar) und VideoId.

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

Prompt-Tipps für die Entwicklung eines YouTube-Rechercheagenten mit Claude Code:

Fordern Sie strukturierte Ausgaben sowohl in menschenlesbaren als auch in maschinenlesbaren Formaten an

Erzwingen Sie Zitate mit Zeitstempeln

Fördern Sie die Offenlegung von Unsicherheiten und Widersprüchen

Schritt 6: Alles zusammenfügen

Verbinden wir Abfrage → Suche → Transkripte → Chunks → Embeddings → Abrufen → Synthetisieren.

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

Diese Basisversion eines YouTube-Rechercheagenten mit Claude Code sucht, ruft ab und synthetisiert Erkenntnisse aus mehreren Videos mit Zitaten. Rüsten Sie die Embeddings auf und fügen Sie Caching hinzu, um sie produktionsreif zu machen.

Sieben Upgrades, um es großartig zu machen

Bessere Embeddings und hybride Suche

Tauschen Sie hochwertige Embeddings aus und fügen Sie die BM25-Keyword-Suche hinzu. Hybrid bietet mehr Recall bei Nischenthemen und eine bessere Präzision bei abstrakten Themen.

Erweitern Sie die Tools für umfassendere Metadaten

Ziehen Sie Kommentare, Like-/Dislike-Verhältnis und Kanalautorität heran. Fügen Sie einen Re-Ranker (Cross-Encoder) für die Top 100-Kandidaten hinzu.

Multi-Turn-Forschungsplanung

Verwenden Sie Claude Code, um einen Forschungsplan vorzuschlagen: Unterfragen, Hypothesen und Abdeckungsprüfungen. Führen Sie dies iterativ aus, bis die Abdeckungsschwellenwerte erreicht sind.

Evidenzverfolgung und Gegenbeweise

Protokollieren Sie für jede Behauptung unterstützende und widersprüchliche Snippets. Präsentieren Sie beides in Berichten; fügen Sie Konfidenzwerte hinzu.

Strategien für lange Videos

Verwenden Sie die Szenenerkennung über Untertitel oder Whisper-Wort-Timings. Fassen Sie jede Sektion vor der globalen Synthese zusammen, um eine Kontextverdünnung zu vermeiden.

Caching und Persistenz

Speichern Sie Transkripte, Embeddings und Berichte pro Abfrage. Verwenden Sie sie wieder, wenn Benutzer Filter optimieren. Fügen Sie eine Deduplizierung nach Video-ID hinzu.

Exportformate und -bereitstellung

Exportieren Sie Markdown, PDF und JSON. E-Mail- oder Slack-Zustellung. Rendern Sie Zeitstempel als anklickbare ?t=mmss-Links.

Prompts, die Sie wiederverwenden können

Verwenden Sie diese Vorlagen, während Sie einen YouTube-Rechercheagenten mit Claude Code entwickeln.

System: Sie sind ein sorgfältiger Rechercheagent. Synthetisieren Sie über mehrere YouTube-Transkripte hinweg. Zitieren Sie inline mit [vID @ mm:ss] und fügen Sie einen Quellenbereich mit URLs hinzu. Geben Sie sowohl eine Markdown-Kurzbeschreibung als auch eine JSON-Nutzlast von Behauptungen mit Zeitstempelunterstützung zurück.

User: Forschungsziel: {topic}
Constraints: focus on {audience or scope}; prefer sources within {date range}; include disagreements.
Candidate passages (ranked):
{retrieved_passages}
Output: Summary → Key Insights (bullets) → Notable Quotes (with timestamps) → Contradictions & Gaps → Sources. Then JSON {"claims": ...}

Schutzmaßnahmen und Ethik

Respektieren Sie die Rechte der Ersteller: Verlinken Sie zu den Originalvideos und vermeiden Sie die Veröffentlichung großer, wortwörtlicher Transkripte.

Seien Sie transparent: Zeigen Sie anhand von Zeitstempeln und Video-IDs, woher Behauptungen stammen.

Vermeiden Sie Überzusammenfassungen: Bewahren Sie Nuancen; kennzeichnen Sie, wenn Untertitel automatisch generiert und wahrscheinlich verrauscht sind.

Gehen Sie sorgfältig mit sensiblen Themen um: Heben Sie Unsicherheiten hervor und suchen Sie nach vielfältigen Quellen.

Fehlerbehebung: Häufige Probleme und Lösungen

"Kein Transkript gefunden"

Fallback auf Whisper; versuchen Sie es mit anderen Sprachen; prüfen Sie, ob das Video regionsgesperrt ist.

Schlechte Abrufqualität

Rüsten Sie Embeddings auf; fügen Sie BM25 hinzu; erhöhen Sie die Chunk-Überlappung; parametrieren Sie Top-K.

Halluzinierte Zitate

Erzwingen Sie ein striktes Zitierschema; bestrafen Sie nicht unterstützte Behauptungen; fordern Sie genaue Zeitstempel an, die in den abgerufenen Chunks vorhanden sind.

API-Kontingentgrenzen

Aggressives Caching; reduzieren Sie max_results; Batch-Anfragen; fügen Sie Back-off mit tenacity hinzu.

Long-Form-Drift

Fassen Sie pro Sektion zusammen; beschränken Sie die maximale Anzahl an Token; verwenden Sie Planungs-Prompts mit expliziter Gliederung.

Qualität messen

Precision@K der abgerufenen Chunks im Vergleich zu einem beschrifteten Satz

Faithfulness Rate: Anteil der Behauptungen mit überprüfbarer, mit Zeitstempel versehener Unterstützung

Abdeckung: Anzahl der zitierten, eindeutigen, relevanten Videos

Latenz: Zeit von der Abfrage bis zum Bericht

Beispiel: Recherche zu "Vektordatenbanken erklärt"

Abfrage: "Vektordatenbanken für Entwickler 2025 erklärt"

Filter: Videos nach 2023, Dauer 6–30 Minuten

Ergebnis: Der Agent zitiert 6 Videos, hebt die Kompromisse von HNSW vs. IVF-PQ hervor, erörtert Kosten/Recall und verlinkt zu Benchmarks. Der Abschnitt "Widersprüche" vergleicht Anbieterangaben mit Open-Source-Ergebnissen.

Übrigens: Dies in Ihrem Workflow automatisieren

Wenn Sie über Dokumente und Code hinweg arbeiten, lohnt es sich, die letzte Meile zu automatisieren. Eine kleine CLI kann nächtliche Abfragen ausführen und Markdown-Kurzbeschreibungen in Ihre Wissensdatenbank einfügen. Sie können sie auch in Problemvorlagen für die Sprint-Recherche einbinden.

Erwähnenswert: Wenn sich Ihr Workflow bereits in einer Browser-Sidebar oder einem KI-Assistenten befindet, können Tools wie Sider.AI die Forschungsschleife optimieren – wählen Sie ein Thema aus, führen Sie eine Suche aus, erfassen Sie Transkripte und entwerfen Sie eine Claude-gestützte Zusammenfassung direkt dort, wo Sie arbeiten. Dies kann Kontextwechsel sparen und die Entwicklung eines YouTube-Rechercheagenten mit Claude Code für Teams noch praktischer machen.

Wichtige Erkenntnisse

Die Entwicklung eines YouTube-Rechercheagenten mit Claude Code ist eine Möglichkeit mit hohem Hebel, Videos in umsetzbare Kurzbeschreibungen zu verwandeln.

Der minimale Stack: YouTube API + Transkripte + Chunking + Embeddings + FAISS + Claude-Synthese.

Upgrade-Pfade: hybride Suche, Re-Ranking, Planungsschleifen und strenge Zitationsverfolgung.

Beginnen Sie einfach, messen Sie die Richtigkeit und iterieren Sie in Richtung Zuverlässigkeit.

Nächste Schritte

Implementieren Sie ein echtes Embedding-Modell und einen hybriden Abruf

Fügen Sie einen Re-Ranking-Schritt und Qualitätsmetriken hinzu

Erstellen Sie einen geplanten Job, um Themen wöchentlich zu aktualisieren

Verpacken Sie es als CLI und eine schlanke Web-UI

FAQ

Q1:How do I start building a YouTube research agent with Claude Code? Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

Q2:What libraries are best for a YouTube research agent? Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

Q3:How do I ensure accurate citations and timestamps? Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Q4:Can I use this agent for private or unlisted videos? Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

Q5:How can I scale this YouTube research agent for teams? Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.