Krok za krokom: Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude
Ak ste niekedy strávili popoludnie bezcieľnym preklikávaním sa na YouTube a potom ste zabudli, ktoré videá stálo za to uložiť, nie ste sami. Teraz si predstavte neúnavného asistenta, ktorý dokáže rýchlo nájsť najlepšie videá, extrahovať súhrny, získať kľúčové citáty, časové značky a na požiadanie vrátiť zdroje. Presne to dokáže YouTube vyhľadávací agent. V tomto podrobnom sprievodcovi vytvoríme praktického YouTube vyhľadávacieho agenta s kódom Claude, určeného pre tvorcov, analytikov, študentov a posadnutých študentov, ktorí chcú uprednostniť relevantné informácie pred hlukom.
Pôjdeme praktickou a priamou cestou: architektúra, kód, výzvy a ochranné mechanizmy. Počas toho urobíme subjektívne rozhodnutia, ktoré môžete neskôr zmeniť. Na konci budete mať funkčného agenta, ktorý dokáže vyhľadávať na YouTube, zhromažďovať prepisy, vyhodnocovať viaceré videá a vytvárať prehľadné výskumné správy.
Čo vytvárame (a prečo je to dôležité)
- Cieľ: YouTube vyhľadávací agent, ktorý dokáže:
- Vyhľadávať na YouTube podľa dopytu
- Hodnotiť výsledky podľa relevantnosti/angažovanosti
- Získať prepisy (automatické titulky alebo od tretích strán)
- Rozdeľovať a vkladať obsah pre vyhľadávanie
- Používať Claude Code na syntézu poznatkov z viacerých videí
- Vytvárať štruktúrované poznámky: súhrn, tvrdenia, časové značky, citáty a citácie
- Primárne kľúčové slovo: "Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude"
- Formát: Podrobný návod so spustiteľným kódom a výzvami
- Výstupy: Výskumná správa vo formáte Markdown + JSON pre programové použitie
Prečo je to dôležité: YouTube je najväčšia verejná znalostná báza prednášok, lekcií, ukážok a diskusií. Ale je v nej veľa hluku. Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude vám dáva výhodu: môžete agregovať poznatky z desiatok videí v priebehu niekoľkých minút, nie hodín.
Architektúra v skratke
Prvú verziu ponecháme jednoduchú a robustnú.
- Vstupy: vyhľadávací dopyt (napr. "architektúry LLM agentov 2025"), voliteľné obmedzenia (rozsah dátumov, kanál, trvanie)
- YouTube Search: YouTube Data API v3 (alebo náhradné riešenie SerpAPI)
- Prepisy: YouTube Transcript API; náhradné riešenie ASR (napr. Whisper), ak nie sú k dispozícii
- Rozdelenie: Segmentácia s ohľadom na vety (približne 800 – 1 200 tokenov)
- Vkladanie: Použite lokálny alebo hostovaný model vkladania (napr.
text-embedding-3-large, nomic-embed-text alebo bge-large)
- Vector Store: Lokálny
FAISS pre rýchlosť; možno zameniť za Pinecone, Weaviate alebo Qdrant
- Usudzovanie: Claude Code pre orchestráciu, použitie nástrojov, syntézu a vykonávanie kódu v rámci kontrolovaného cyklu
- Výstupy: Správa vo formáte Markdown + index JSON s citáciami, časovými značkami a skóre
Tok dát: Dopyt → Vyhľadávanie → Získanie metadát → Prepis → Rozdelenie → Vloženie → Získanie top‑K → Syntéza kódu Claude → Správa.
Predpoklady a nastavenie
- API kľúče:
YOUTUBE_API_KEY, ANTHROPIC_API_KEY (pre Claude Code)
- Voliteľné:
OPENAI_API_KEY alebo lokálne vkladanie
google-api-python-client, youtube-transcript-api
faiss-cpu, numpy, pandas, tiktoken (alebo sentencepiece)
requests, pydantic, tenacity
pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken
Premenné prostredia:
export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY
Krok 1: Vyhľadávanie na YouTube s filtrami
Vyhľadáme na YouTube a vrátime štruktúrované metadáta: názov, kanál, dátum zverejnenia, trvanie, zobrazenia (ak sú k dispozícii) a videoId.
# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text
Tipy pre výzvy pri vytváraní YouTube vyhľadávacieho agenta pomocou kódu Claude:
- Žiadajte štruktúrované výstupy vo formáte čitateľnom pre ľudí aj stroje
- Vynucujte citácie s časovou značkou
- Podporujte zverejňovanie neistoty a protirečení
Krok 6: Spojenie všetkého
Prepojme dopyt → vyhľadávanie → prepisy → časti → vkladanie → získanie → syntéza.
# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))
Táto základná verzia YouTube vyhľadávacieho agenta s kódom Claude bude vyhľadávať, získavať a syntetizovať poznatky z viacerých videí s citáciami. Upgradujte vkladanie a pridajte ukladanie do vyrovnávacej pamäte, aby bol pripravený na produkciu.
Sedem vylepšení, ktoré ho vylepšia
- Lepšie vkladanie a hybridné vyhľadávanie
- Vymeňte kvalitné vkladanie a pridajte vyhľadávanie kľúčových slov BM25. Hybridné vyhľadávanie poskytuje lepšie vyhľadávanie v špecializovaných termínoch a lepšiu presnosť v abstraktných témach.
- Rozšírte nástroje pre bohatšie metadáta
- Získajte komentáre, pomer páči sa mi/nepáči sa mi a autoritu kanála. Pridajte re‑ranker (cross‑encoder) pre top 100 kandidátov.
- Viac‑kolové plánovanie výskumu
- Použite Claude Code na navrhnutie plánu výskumu: podotázky, hypotézy a kontroly pokrytia. Vykonávajte iteratívne, kým sa nedosiahnu prahové hodnoty pokrytia.
- Sledovanie dôkazov a protidôkazov
- Pre každé tvrdenie zaznamenajte podporné a protirečivé úryvky. Uveďte obe v správach; pridajte skóre spoľahlivosti.
- Použite detekciu scén prostredníctvom titulkov alebo časovania slov Whisper. Zhrňte každú sekciu pred globálnou syntézou, aby ste sa vyhli riedeniu kontextu.
- Ukladanie do vyrovnávacej pamäte a perzistencia
- Ukladajte prepisy, vkladanie a správy pre každý dopyt. Opätovne použite, keď používatelia upravia filtre. Pridajte deduplikáciu podľa ID videa.
- Formáty exportu a doručenie
- Exportujte Markdown, PDF a JSON. Doručenie e-mailom alebo cez Slack. Vykreslite časové značky ako klikateľné prepojenia
?t=mmss.
Výzvy, ktoré môžete znova použiť
Použite tieto šablóny pri vytváraní YouTube vyhľadávacieho agenta pomocou kódu Claude.
Systém: Ste dôkladný výskumný agent. Syntetizujte viaceré prepisy YouTube. Citujte priebežne s [vID @ mm:ss] a uveďte časť Zdroje s adresami URL. Vráťte stručný prehľad vo formáte Markdown a dátovú časť JSON s tvrdeniami s podporou s časovou značkou.
Používateľ: Výskumný cieľ: {topic}
Obmedzenia: zamerajte sa na {audience or scope}; uprednostňujte zdroje v rámci {date range}; zahrňte nezhody.
Kandidátske pasáže (zoradené):
{retrieved_passages}
Výstup: Súhrn → Kľúčové poznatky (odrážky) → Pozoruhodné citáty (s časovými značkami) → Protirečenia a medzery → Zdroje. Potom JSON {"claims": ...}
Ochranné mechanizmy a etika
- Rešpektujte práva tvorcov: Odkazujte na pôvodné videá a vyhýbajte sa publikovaniu rozsiahlych doslovných prepisov.
- Buďte transparentní: Ukážte, odkiaľ tvrdenia pochádzajú, pomocou časových značiek a ID videí.
- Vyhýbajte sa nadmernému zjednodušovaniu: Zachovajte nuansy; označte, kedy sú titulky automaticky generované a pravdepodobne obsahujú chyby.
- Zaobchádzajte s citlivými témami opatrne: Zdôraznite neistotu a vyhľadajte rôznorodé zdroje.
Riešenie problémov: Bežné problémy a opravy
- "Nenašiel sa žiadny prepis"
- Použite náhradné riešenie Whisper; vyskúšajte rôzne jazyky; skontrolujte, či video nie je regionálne blokované.
- Upgradujte vkladanie; pridajte BM25; zvýšte prekrytie častí; dolaďte parameter top‑K.
- Vynúťte prísnu schému citácií; penalizujte nepodporované tvrdenia; vyžadujte presné časové značky prítomné v získaných častiach.
- Agresívne ukladajte do vyrovnávacej pamäte; znížte
max_results; dávkové požiadavky; pridajte odstup s tenacity.
- Zhrňte každú sekciu; obmedzte maximálny počet tokenov; použite výzvy na plánovanie s explicitným prehľadom.
Meranie kvality
- Precision@K získaných častí vs. označená množina
- Miera vernosti: podiel tvrdení s overiteľnou podporou s časovou značkou
- Pokrytie: počet jedinečných relevantných citovaných videí
- Latencia: čas od dopytu po správu
Príklad: Výskum "Vysvetlenie vektorových databáz"
- Dopyt: "vektorové databázy vysvetlené pre vývojárov 2025"
- Filtre: videá po roku 2023, trvanie 6 – 30 minút
- Výsledok: Agent cituje 6 videí, zdôrazňuje kompromisy HNSW vs. IVF‑PQ, diskutuje o nákladoch/vyhľadávaní a odkazuje na benchmarky. Sekcia Protirečenia porovnáva tvrdenia dodávateľov s výsledkami open‑source.
Mimochodom: Automatizácia tohto v rámci vášho pracovného postupu
Ak pracujete s dokumentmi a kódom, stojí za to automatizovať posledný krok. Malý CLI môže spúšťať nočné dopyty a ukladať stručné prehľady vo formáte Markdown do vašej znalostnej bázy. Môžete ho tiež prepojiť so šablónami problémov pre výskum sprintu.
Stojí za zmienku: ak už váš pracovný postup prebieha na bočnom paneli prehliadača alebo v AI asistentovi, nástroje ako Sider.AI môžu zefektívniť výskumný cyklus – vyberte tému, spustite vyhľadávanie, zachyťte prepisy a vytvorte koncept súhrnu pomocou Claude priamo tam, kde pracujete. To môže ušetriť prepínanie kontextu a urobiť z vytvorenia YouTube vyhľadávacieho agenta pomocou kódu Claude ešte praktickejšie pre tímy. Kľúčové poznatky
- Vytvorenie YouTube vyhľadávacieho agenta pomocou kódu Claude je vysoko efektívny spôsob, ako premeniť videá na akčné prehľady.
- Minimálny zásobník: YouTube API + prepisy + rozdelenie + vkladanie + FAISS + syntéza Claude.
- Cesty upgradu: hybridné vyhľadávanie, prehodnocovanie, plánovacie cykly a prísne sledovanie citácií.
- Začnite jednoducho, merajte vernosť a iterujte smerom k spoľahlivosti.
Ďalšie kroky
- Implementujte skutočný model vkladania a hybridné vyhľadávanie
- Pridajte krok prehodnocovania a metriky kvality
- Vytvorte naplánovanú úlohu na týždenné obnovovanie tém
- Zabalte ako CLI a odľahčené webové používateľské rozhranie
FAQ
Q1:Ako začať s vytváraním YouTube vyhľadávacieho agenta pomocou kódu Claude?
Začnite s vyhľadávaním na YouTube, získajte prepisy, rozdeľte obsah, vložte do vektorového úložiska a použite Claude Code na syntetizáciu výsledkov. Vyššie uvedený sprievodca poskytuje podrobný kód na zostavenie funkčného potrubia.
Q2:Aké knižnice sú najlepšie pre YouTube vyhľadávacieho agenta?
Použite YouTube Data API na vyhľadávanie, youtube-transcript-api na titulky, FAISS na vektorové vyhľadávanie a Anthropic SDK na volanie Claude Code. Vkladanie môžete zameniť za OpenAI, Nomic alebo BGE.
Q3:Ako zabezpečiť presné citácie a časové značky?
Počas rozdeľovania uchovávajte počiatočné/koncové časové značky a vyžadujte, aby Claude Code citoval [video_id @ mm:ss]. Pred publikovaním overte, či existujú citované časové značky v získaných častiach.
Q4:Môžem použiť tohto agenta pre súkromné alebo neuvedené videá?
Áno, ak máte prístup a môžete získať prepisy alebo spustiť lokálne ASR (napr. Whisper). Vždy rešpektujte povolenia a vyhýbajte sa distribúcii obsahu chráneného autorskými právami.
Q5:Ako môžem škálovať tohto YouTube vyhľadávacieho agenta pre tímy?
Pridajte ukladanie do vyrovnávacej pamäte, zdieľané vektorové úložisko, fronty úloh a naplánované spustenia. Integrujte so Slackom alebo wiki a zvážte asistenta založeného na prehliadači, ako je Sider.AI, na zefektívnenie pracovných postupov výskumníkov.