How do I start building a YouTube research agent with Claude Code?

Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

What libraries are best for a YouTube research agent?

Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

How do I ensure accurate citations and timestamps?

Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Can I use this agent for private or unlisted videos?

Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

How can I scale this YouTube research agent for teams?

Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.

Krok za krokom: Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude

Ak ste niekedy strávili popoludnie bezcieľnym preklikávaním sa na YouTube a potom ste zabudli, ktoré videá stálo za to uložiť, nie ste sami. Teraz si predstavte neúnavného asistenta, ktorý dokáže rýchlo nájsť najlepšie videá, extrahovať súhrny, získať kľúčové citáty, časové značky a na požiadanie vrátiť zdroje. Presne to dokáže YouTube vyhľadávací agent. V tomto podrobnom sprievodcovi vytvoríme praktického YouTube vyhľadávacieho agenta s kódom Claude, určeného pre tvorcov, analytikov, študentov a posadnutých študentov, ktorí chcú uprednostniť relevantné informácie pred hlukom.

Pôjdeme praktickou a priamou cestou: architektúra, kód, výzvy a ochranné mechanizmy. Počas toho urobíme subjektívne rozhodnutia, ktoré môžete neskôr zmeniť. Na konci budete mať funkčného agenta, ktorý dokáže vyhľadávať na YouTube, zhromažďovať prepisy, vyhodnocovať viaceré videá a vytvárať prehľadné výskumné správy.

Čo vytvárame (a prečo je to dôležité)

Cieľ: YouTube vyhľadávací agent, ktorý dokáže:

Vyhľadávať na YouTube podľa dopytu

Hodnotiť výsledky podľa relevantnosti/angažovanosti

Získať prepisy (automatické titulky alebo od tretích strán)

Rozdeľovať a vkladať obsah pre vyhľadávanie

Používať Claude Code na syntézu poznatkov z viacerých videí

Vytvárať štruktúrované poznámky: súhrn, tvrdenia, časové značky, citáty a citácie

Primárne kľúčové slovo: "Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude"

Formát: Podrobný návod so spustiteľným kódom a výzvami

Výstupy: Výskumná správa vo formáte Markdown + JSON pre programové použitie

Prečo je to dôležité: YouTube je najväčšia verejná znalostná báza prednášok, lekcií, ukážok a diskusií. Ale je v nej veľa hluku. Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude vám dáva výhodu: môžete agregovať poznatky z desiatok videí v priebehu niekoľkých minút, nie hodín.

Architektúra v skratke

Prvú verziu ponecháme jednoduchú a robustnú.

Vstupy: vyhľadávací dopyt (napr. "architektúry LLM agentov 2025"), voliteľné obmedzenia (rozsah dátumov, kanál, trvanie)

YouTube Search: YouTube Data API v3 (alebo náhradné riešenie SerpAPI)

Prepisy: YouTube Transcript API; náhradné riešenie ASR (napr. Whisper), ak nie sú k dispozícii

Rozdelenie: Segmentácia s ohľadom na vety (približne 800 – 1 200 tokenov)

Vkladanie: Použite lokálny alebo hostovaný model vkladania (napr. text-embedding-3-large, nomic-embed-text alebo bge-large)

Vector Store: Lokálny FAISS pre rýchlosť; možno zameniť za Pinecone, Weaviate alebo Qdrant

Usudzovanie: Claude Code pre orchestráciu, použitie nástrojov, syntézu a vykonávanie kódu v rámci kontrolovaného cyklu

Výstupy: Správa vo formáte Markdown + index JSON s citáciami, časovými značkami a skóre

Tok dát: Dopyt → Vyhľadávanie → Získanie metadát → Prepis → Rozdelenie → Vloženie → Získanie top‑K → Syntéza kódu Claude → Správa.

Predpoklady a nastavenie

Python 3.10+

API kľúče: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (pre Claude Code)

Voliteľné: OPENAI_API_KEY alebo lokálne vkladanie

Knižnice:

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (alebo sentencepiece)

requests, pydantic, tenacity

anthropic (Claude API)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

Premenné prostredia:

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Krok 1: Vyhľadávanie na YouTube s filtrami

Vyhľadáme na YouTube a vrátime štruktúrované metadáta: názov, kanál, dátum zverejnenia, trvanie, zobrazenia (ak sú k dispozícii) a videoId.

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

Tipy pre výzvy pri vytváraní YouTube vyhľadávacieho agenta pomocou kódu Claude:

Žiadajte štruktúrované výstupy vo formáte čitateľnom pre ľudí aj stroje

Vynucujte citácie s časovou značkou

Podporujte zverejňovanie neistoty a protirečení

Krok 6: Spojenie všetkého

Prepojme dopyt → vyhľadávanie → prepisy → časti → vkladanie → získanie → syntéza.

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

Táto základná verzia YouTube vyhľadávacieho agenta s kódom Claude bude vyhľadávať, získavať a syntetizovať poznatky z viacerých videí s citáciami. Upgradujte vkladanie a pridajte ukladanie do vyrovnávacej pamäte, aby bol pripravený na produkciu.

Sedem vylepšení, ktoré ho vylepšia

Lepšie vkladanie a hybridné vyhľadávanie

Vymeňte kvalitné vkladanie a pridajte vyhľadávanie kľúčových slov BM25. Hybridné vyhľadávanie poskytuje lepšie vyhľadávanie v špecializovaných termínoch a lepšiu presnosť v abstraktných témach.

Rozšírte nástroje pre bohatšie metadáta

Získajte komentáre, pomer páči sa mi/nepáči sa mi a autoritu kanála. Pridajte re‑ranker (cross‑encoder) pre top 100 kandidátov.

Viac‑kolové plánovanie výskumu

Použite Claude Code na navrhnutie plánu výskumu: podotázky, hypotézy a kontroly pokrytia. Vykonávajte iteratívne, kým sa nedosiahnu prahové hodnoty pokrytia.

Sledovanie dôkazov a protidôkazov

Pre každé tvrdenie zaznamenajte podporné a protirečivé úryvky. Uveďte obe v správach; pridajte skóre spoľahlivosti.

Stratégie pre dlhé videá

Použite detekciu scén prostredníctvom titulkov alebo časovania slov Whisper. Zhrňte každú sekciu pred globálnou syntézou, aby ste sa vyhli riedeniu kontextu.

Ukladanie do vyrovnávacej pamäte a perzistencia

Ukladajte prepisy, vkladanie a správy pre každý dopyt. Opätovne použite, keď používatelia upravia filtre. Pridajte deduplikáciu podľa ID videa.

Formáty exportu a doručenie

Exportujte Markdown, PDF a JSON. Doručenie e-mailom alebo cez Slack. Vykreslite časové značky ako klikateľné prepojenia ?t=mmss.

Výzvy, ktoré môžete znova použiť

Použite tieto šablóny pri vytváraní YouTube vyhľadávacieho agenta pomocou kódu Claude.

Systém: Ste dôkladný výskumný agent. Syntetizujte viaceré prepisy YouTube. Citujte priebežne s [vID @ mm:ss] a uveďte časť Zdroje s adresami URL. Vráťte stručný prehľad vo formáte Markdown a dátovú časť JSON s tvrdeniami s podporou s časovou značkou.

Používateľ: Výskumný cieľ: {topic}
Obmedzenia: zamerajte sa na {audience or scope}; uprednostňujte zdroje v rámci {date range}; zahrňte nezhody.
Kandidátske pasáže (zoradené):
{retrieved_passages}
Výstup: Súhrn → Kľúčové poznatky (odrážky) → Pozoruhodné citáty (s časovými značkami) → Protirečenia a medzery → Zdroje. Potom JSON {"claims": ...}

Ochranné mechanizmy a etika

Rešpektujte práva tvorcov: Odkazujte na pôvodné videá a vyhýbajte sa publikovaniu rozsiahlych doslovných prepisov.

Buďte transparentní: Ukážte, odkiaľ tvrdenia pochádzajú, pomocou časových značiek a ID videí.

Vyhýbajte sa nadmernému zjednodušovaniu: Zachovajte nuansy; označte, kedy sú titulky automaticky generované a pravdepodobne obsahujú chyby.

Zaobchádzajte s citlivými témami opatrne: Zdôraznite neistotu a vyhľadajte rôznorodé zdroje.

Riešenie problémov: Bežné problémy a opravy

"Nenašiel sa žiadny prepis"

Použite náhradné riešenie Whisper; vyskúšajte rôzne jazyky; skontrolujte, či video nie je regionálne blokované.

Zlá kvalita získavania

Upgradujte vkladanie; pridajte BM25; zvýšte prekrytie častí; dolaďte parameter top‑K.

Halucinované citácie

Vynúťte prísnu schému citácií; penalizujte nepodporované tvrdenia; vyžadujte presné časové značky prítomné v získaných častiach.

Limity kvóty API

Agresívne ukladajte do vyrovnávacej pamäte; znížte max_results; dávkové požiadavky; pridajte odstup s tenacity.

Drift dlhých foriem

Zhrňte každú sekciu; obmedzte maximálny počet tokenov; použite výzvy na plánovanie s explicitným prehľadom.

Meranie kvality

Precision@K získaných častí vs. označená množina

Miera vernosti: podiel tvrdení s overiteľnou podporou s časovou značkou

Pokrytie: počet jedinečných relevantných citovaných videí

Latencia: čas od dopytu po správu

Príklad: Výskum "Vysvetlenie vektorových databáz"

Dopyt: "vektorové databázy vysvetlené pre vývojárov 2025"

Filtre: videá po roku 2023, trvanie 6 – 30 minút

Výsledok: Agent cituje 6 videí, zdôrazňuje kompromisy HNSW vs. IVF‑PQ, diskutuje o nákladoch/vyhľadávaní a odkazuje na benchmarky. Sekcia Protirečenia porovnáva tvrdenia dodávateľov s výsledkami open‑source.

Mimochodom: Automatizácia tohto v rámci vášho pracovného postupu

Ak pracujete s dokumentmi a kódom, stojí za to automatizovať posledný krok. Malý CLI môže spúšťať nočné dopyty a ukladať stručné prehľady vo formáte Markdown do vašej znalostnej bázy. Môžete ho tiež prepojiť so šablónami problémov pre výskum sprintu.

Stojí za zmienku: ak už váš pracovný postup prebieha na bočnom paneli prehliadača alebo v AI asistentovi, nástroje ako Sider.AI môžu zefektívniť výskumný cyklus – vyberte tému, spustite vyhľadávanie, zachyťte prepisy a vytvorte koncept súhrnu pomocou Claude priamo tam, kde pracujete. To môže ušetriť prepínanie kontextu a urobiť z vytvorenia YouTube vyhľadávacieho agenta pomocou kódu Claude ešte praktickejšie pre tímy.

Kľúčové poznatky

Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude je vysoko efektívny spôsob, ako premeniť videá na akčné prehľady.

Minimálny zásobník: YouTube API + prepisy + rozdelenie + vkladanie + FAISS + syntéza Claude.

Cesty upgradu: hybridné vyhľadávanie, prehodnocovanie, plánovacie cykly a prísne sledovanie citácií.

Začnite jednoducho, merajte vernosť a iterujte smerom k spoľahlivosti.

Ďalšie kroky

Implementujte skutočný model vkladania a hybridné vyhľadávanie

Pridajte krok prehodnocovania a metriky kvality

Vytvorte naplánovanú úlohu na týždenné obnovovanie tém

Zabalte ako CLI a odľahčené webové používateľské rozhranie

FAQ

Q1:Ako začať s vytváraním YouTube vyhľadávacieho agenta pomocou kódu Claude? Začnite s vyhľadávaním na YouTube, získajte prepisy, rozdeľte obsah, vložte do vektorového úložiska a použite Claude Code na syntetizáciu výsledkov. Vyššie uvedený sprievodca poskytuje podrobný kód na zostavenie funkčného potrubia.

Q2:Aké knižnice sú najlepšie pre YouTube vyhľadávacieho agenta? Použite YouTube Data API na vyhľadávanie, youtube-transcript-api na titulky, FAISS na vektorové vyhľadávanie a Anthropic SDK na volanie Claude Code. Vkladanie môžete zameniť za OpenAI, Nomic alebo BGE.

Q3:Ako zabezpečiť presné citácie a časové značky? Počas rozdeľovania uchovávajte počiatočné/koncové časové značky a vyžadujte, aby Claude Code citoval [video_id @ mm:ss]. Pred publikovaním overte, či existujú citované časové značky v získaných častiach.

Q4:Môžem použiť tohto agenta pre súkromné alebo neuvedené videá? Áno, ak máte prístup a môžete získať prepisy alebo spustiť lokálne ASR (napr. Whisper). Vždy rešpektujte povolenia a vyhýbajte sa distribúcii obsahu chráneného autorskými právami.

Q5:Ako môžem škálovať tohto YouTube vyhľadávacieho agenta pre tímy? Pridajte ukladanie do vyrovnávacej pamäte, zdieľané vektorové úložisko, fronty úloh a naplánované spustenia. Integrujte so Slackom alebo wiki a zvážte asistenta založeného na prehliadači, ako je Sider.AI, na zefektívnenie pracovných postupov výskumníkov.