How do I start building a YouTube research agent with Claude Code?

Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

What libraries are best for a YouTube research agent?

Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

How do I ensure accurate citations and timestamps?

Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Can I use this agent for private or unlisted videos?

Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

How can I scale this YouTube research agent for teams?

Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.

Krok po kroku: Budowanie agenta badawczego YouTube z użyciem Claude Code

Jeśli zdarzyło Ci się spędzić popołudnie na bezcelowym przeglądaniu YouTube, tylko po to, by zapomnieć, które filmy były warte zapisania, nie jesteś sam. Wyobraź sobie teraz niestrudzonego asystenta, który może znaleźć najlepsze filmy, wyodrębnić podsumowania, wydobyć kluczowe cytaty, oznaczyć znaczniki czasu i na żądanie zwrócić źródła — szybko. To właśnie potrafi agent badawczy YouTube. W tym przewodniku krok po kroku zbudujemy praktycznego agenta badawczego YouTube z użyciem Claude Code, przeznaczonego dla twórców, analityków, studentów i zapalonych uczniów, którzy chcą skupić się na wartościowych informacjach.

Wykorzystamy praktyczne i bezpośrednie podejście: architektura, kod, podpowiedzi i zabezpieczenia. Po drodze dokonamy subiektywnych wyborów, które możesz później zmienić. Na koniec będziesz mieć działającego agenta, który może przeszukiwać YouTube, gromadzić transkrypcje, analizować wiele filmów i tworzyć przejrzyste raporty badawcze.

Co budujemy (i dlaczego to ma znaczenie)

Cel: Agent badawczy YouTube, który potrafi:

Przeszukiwać YouTube za pomocą zapytania

Rankingować wyniki według trafności/zaangażowania

Pobierać transkrypcje (automatyczne napisy lub od stron trzecich)

Dzielić i osadzać treść w celu późniejszego wyszukiwania

Używać Claude Code do syntezy informacji z wielu filmów

Wyprowadzać uporządkowane notatki: podsumowanie, twierdzenia, znaczniki czasu, cytaty i odniesienia

Główne słowo kluczowe: "Building a YouTube research agent with Claude Code"

Format: Samouczek krok po kroku z działającym kodem i podpowiedziami

Wyjścia: Raport badawczy w formacie Markdown + JSON do użytku programistycznego

Dlaczego to ma znaczenie: YouTube to największa publiczna baza wiedzy zawierająca prelekcje, lekcje, demonstracje i debaty. Ale jest w niej dużo szumu. Budowanie agenta badawczego YouTube z użyciem Claude Code daje Ci przewagę: możesz agregować informacje z dziesiątek filmów w ciągu minut, a nie godzin.

Architektura w skrócie

Pierwszą wersję utrzymamy prostą i niezawodną.

Wejścia: zapytanie badawcze (np. "architektury agentów LLM 2025"), opcjonalne ograniczenia (zakres dat, kanał, czas trwania)

Wyszukiwanie w YouTube: YouTube Data API v3 (lub rezerwowo SerpAPI)

Transkrypcje: YouTube Transcript API; rezerwowo ASR (np. Whisper), gdy niedostępne

Dzielenie: Segmentacja uwzględniająca zdania (ok. 800–1200 tokenów)

Osadzanie: Użyj lokalnego lub hostowanego modelu osadzania (np. text-embedding-3-large, nomic-embed-text lub bge-large)

Baza wektorowa: Lokalny FAISS dla szybkości; można zamienić na Pinecone, Weaviate lub Qdrant

Rozumowanie: Claude Code do orkiestracji, korzystania z narzędzi, syntezy i wykonywania kodu w kontrolowanej pętli

Wyjścia: Raport w formacie Markdown + indeks JSON z odniesieniami, znacznikami czasu i wynikami

Przepływ danych: Zapytanie → Wyszukiwanie → Pobieranie metadanych → Transkrypcja → Dzielenie → Osadzanie → Pobieranie top‑K → Synteza Claude Code → Raport.

Wymagania wstępne i konfiguracja

Python 3.10+

Klucze API: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (dla Claude Code)

Opcjonalnie: OPENAI_API_KEY lub lokalne osadzanie

Biblioteki:

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (lub sentencepiece)

requests, pydantic, tenacity

anthropic (Claude API)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

Zmienne środowiskowe:

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Krok 1: Wyszukiwanie w YouTube z filtrami

Będziemy przeszukiwać YouTube i zwracać uporządkowane metadane: tytuł, kanał, datę publikacji, czas trwania, liczbę wyświetleń (jeśli dostępne) i identyfikator videoId.

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

Wskazówki dotyczące podpowiedzi podczas budowania agenta badawczego YouTube z użyciem Claude Code:

Żądaj uporządkowanych danych wyjściowych w formatach zarówno czytelnych dla człowieka, jak i dla maszyny

Wymuszaj cytowanie ze znacznikami czasu

Zachęcaj do ujawniania niepewności i sprzeczności

Krok 6: Składanie wszystkiego w całość

Połączmy zapytanie → wyszukiwanie → transkrypcje → dzielenie → osadzanie → pobieranie → syntezę.

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

Ta podstawowa wersja agenta badawczego YouTube z Claude Code będzie przeszukiwać, pobierać i syntetyzować informacje z wielu filmów z odniesieniami. Ulepsz osadzanie i dodaj buforowanie, aby przygotować go do produkcji.

Siedem ulepszeń, aby był świetny

Lepsze osadzanie i wyszukiwanie hybrydowe

Zamień na wysokiej jakości osadzanie i dodaj wyszukiwanie słów kluczowych BM25. Hybryda zapewnia lepsze przypominanie niszowych terminów i lepszą precyzję w przypadku abstrakcyjnych tematów.

Rozszerz narzędzia dla bogatszych metadanych

Pobierz komentarze, stosunek polubień/nielubień i autorytet kanału. Dodaj re‑ranker (cross‑encoder) dla 100 najlepszych kandydatów.

Wieloetapowe planowanie badań

Użyj Claude Code, aby zaproponować plan badawczy: pytania dodatkowe, hipotezy i sprawdzanie pokrycia. Wykonuj iteracyjnie, aż zostaną spełnione progi pokrycia.

Śledzenie dowodów i kontrdowodów

Dla każdego twierdzenia rejestruj fragmenty potwierdzające i zaprzeczające. Prezentuj oba w raportach; dodaj wyniki wiarygodności.

Strategie dla długich filmów

Użyj wykrywania scen za pomocą napisów lub czasów słów Whisper. Podsumuj każdą sekcję przed globalną syntezą, aby uniknąć rozcieńczenia kontekstu.

Buforowanie i trwałość

Przechowuj transkrypcje, osadzanie i raporty dla każdego zapytania. Używaj ponownie, gdy użytkownicy dostosowują filtry. Dodaj deduplikację według identyfikatora video ID.

Formaty eksportu i dostarczanie

Eksportuj Markdown, PDF i JSON. Dostarczanie e-mailem lub Slackiem. Renderuj znaczniki czasu jako klikalne linki ?t=mmss.

Podpowiedzi, których możesz użyć ponownie

Użyj tych szablonów podczas budowania agenta badawczego YouTube z użyciem Claude Code.

System: Jesteś skrupulatnym agentem badawczym. Syntetyzuj wiele transkrypcji z YouTube. Cytuj w tekście, używając [vID @ mm:ss], i dołącz sekcję Źródła z adresami URL. Zwróć zarówno raport w formacie Markdown, jak i ładunek JSON z twierdzeniami z oznaczonymi czasowo dowodami.

Użytkownik: Cel badawczy: {temat}
Ograniczenia: skup się na {odbiorcy lub zakresie}; preferuj źródła w {zakres dat}; uwzględnij niezgodności.
Kandydackie fragmenty (usankcjonowane):
{pobrane_fragmenty}
Wyjście: Podsumowanie → Kluczowe spostrzeżenia (punktory) → Znaczące cytaty (ze znacznikami czasu) → Sprzeczności i luki → Źródła. Następnie JSON {"claims": ...}

Zabezpieczenia i etyka

Szanuj prawa twórców: Linkuj do oryginalnych filmów i unikaj publikowania obszernych dosłownych transkrypcji.

Bądź transparentny: Pokazuj, skąd pochodzą twierdzenia, używając znaczników czasu i identyfikatorów wideo.

Unikaj nadmiernego podsumowywania: Zachowaj niuanse; oznaczaj, kiedy podpisy są generowane automatycznie i prawdopodobnie zawierają szumy.

Ostrożnie podchodź do wrażliwych tematów: Podkreślaj niepewność i szukaj różnorodnych źródeł.

Rozwiązywanie problemów: Typowe problemy i rozwiązania

"Nie znaleziono transkrypcji"

Wróć do Whisper; wypróbuj różne języki; sprawdź, czy film nie jest zablokowany regionalnie.

Zła jakość pobierania

Ulepsz osadzanie; dodaj BM25; zwiększ nakładanie się fragmentów; dostosuj parametr top‑K.

Halucynacje dotyczące cytowań

Wymuś ścisły schemat cytowania; karz niepotwierdzone twierdzenia; wymagaj dokładnych znaczników czasu obecnych w pobranych fragmentach.

Limity kwot API

Agresywnie buforuj; zmniejsz max_results; żądania wsadowe; dodaj wycofywanie za pomocą tenacity.

Dryf długich form

Podsumuj każdą sekcję; ogranicz maksymalną liczbę tokenów; użyj podpowiedzi planowania z wyraźnym zarysem.

Pomiar jakości

Precyzja@K pobranych fragmentów w porównaniu z oznaczonym zestawem

Współczynnik wierności: odsetek twierdzeń z weryfikowalnym poparciem ze znacznikiem czasu

Pokrycie: liczba unikalnych cytowanych filmów

Opóźnienie: czas od zapytania do raportu

Przykład: Badanie "Wyjaśnienie wektorowych baz danych"

Zapytanie: "wyjaśnienie wektorowych baz danych dla programistów 2025"

Filtry: filmy po 2023 roku, czas trwania 6–30 minut

Wynik: Agent cytuje 6 filmów, podkreśla kompromisy między HNSW a IVF‑PQ, omawia koszt/przypominanie i linkuje do punktów odniesienia. Sekcja sprzeczności porównuje twierdzenia dostawcy z wynikami open‑source.

Przy okazji: Automatyzacja tego wewnątrz Twojego przepływu pracy

Jeśli pracujesz z dokumentami i kodem, warto zautomatyzować ostatni krok. Mały CLI może uruchamiać nocne zapytania i umieszczać raporty Markdown w Twojej bazie wiedzy. Możesz również podłączyć go do szablonów zgłoszeń do badań sprintu.

Warto zauważyć: jeśli Twój przepływ pracy już istnieje na pasku bocznym przeglądarki lub asystencie AI, narzędzia takie jak Sider.AI mogą usprawnić pętlę badawczą — wybierz temat, uruchom wyszukiwanie, przechwyć transkrypcje i napisz podsumowanie zasilane przez Claude bezpośrednio tam, gdzie pracujesz. Może to zaoszczędzić przełączanie kontekstu i sprawić, że budowanie agenta badawczego YouTube z Claude Code będzie jeszcze bardziej praktyczne dla zespołów.

Kluczowe wnioski

Budowanie agenta badawczego YouTube z Claude Code to sposób na przekształcenie filmów w praktyczne raporty.

Minimalny stos: YouTube API + transkrypcje + dzielenie + osadzanie + FAISS + synteza Claude.

Ścieżki ulepszeń: wyszukiwanie hybrydowe, ponowne rankingowanie, pętle planowania i ścisłe śledzenie cytowań.

Zacznij prosto, zmierz wierność i iteruj w kierunku niezawodności.

Następne kroki

Wdróż prawdziwy model osadzania i pobieranie hybrydowe

Dodaj krok ponownego rankingu i metryki jakości

Utwórz zaplanowane zadanie, aby odświeżać tematy co tydzień

Spakuj jako CLI i lekki interfejs sieciowy

FAQ

P1:Jak zacząć budować agenta badawczego YouTube z Claude Code? Zacznij od wyszukiwania w YouTube, pobierz transkrypcje, podziel zawartość, osadź w bazie wektorowej i użyj Claude Code do syntezy wyników. Powyższy przewodnik zawiera krok po kroku kod, aby złożyć działający potok.

P2:Jakie biblioteki są najlepsze dla agenta badawczego YouTube? Użyj YouTube Data API do wyszukiwania, youtube-transcript-api do napisów, FAISS do wyszukiwania wektorowego i Anthropic SDK do wywoływania Claude Code. Możesz zamienić osadzanie na OpenAI, Nomic lub BGE.

P3:Jak zapewnić dokładne cytowania i znaczniki czasu? Zachowaj znaczniki czasu początku/końca podczas dzielenia i zażądaj od Claude Code cytowania [video_id @ mm:ss]. Sprawdź, czy cytowane znaczniki czasu istnieją w pobranych fragmentach przed publikacją.

P4:Czy mogę używać tego agenta do filmów prywatnych lub niepublicznych? Tak, jeśli masz dostęp i możesz pobierać transkrypcje lub uruchamiać lokalny ASR (np. Whisper). Zawsze szanuj uprawnienia i unikaj rozpowszechniania treści chronionych prawami autorskimi.

P5:Jak mogę skalować tego agenta badawczego YouTube dla zespołów? Dodaj buforowanie, wspólną bazę wektorową, kolejki zadań i zaplanowane uruchomienia. Zintegruj ze Slackiem lub wiki i rozważ asystenta opartego na przeglądarce, takiego jak Sider.AI, aby usprawnić przepływy pracy badaczy.