Hatua kwa Hatua: Kuunda Wakala wa Utafiti wa YouTube na Claude Code
Ikiwa umewahi kutumia mchana kutwa kwenye YouTube, halafu ukasahau ni video zipi zilistahili kuhifadhiwa, hauko peke yako. Sasa hebu wazia msaidizi asiyechoka ambaye anaweza kupata video bora, kutoa muhtasari, kutoa dondoo muhimu, kuweka alama za saa za maarifa, na kurudisha vyanzo unapohitaji—haraka. Hivyo ndivyo wakala wa utafiti wa YouTube anavyoweza kufanya. Katika mwongozo huu wa hatua kwa hatua, tutaunda wakala wa vitendo wa utafiti wa YouTube na Claude Code, iliyoundwa kwa ajili ya waundaji, wachambuzi, wanafunzi, na wanafunzi walio na shauku ambao wanataka ishara badala ya kelele.
Tutafuata njia ya moja kwa moja na ya kivitendo: usanifu, msimbo, maelekezo, na miongozo. Njiani, tutafanya chaguo zenye msimamo ambazo unaweza kubadilisha baadaye. Mwishowe, utakuwa na wakala anayefanya kazi ambaye anaweza kutafuta YouTube, kukusanya nakala, kutoa hoja katika video nyingi, na kutoa muhtasari safi wa utafiti.
Tunachounda (na Kwa Nini Ni Muhimu)
- Lengo: Wakala wa utafiti wa YouTube ambaye anaweza:
- Kutafuta YouTube kwa kutumia swali
- Kupanga matokeo kwa umuhimu/ushirikiano
- Kupata nakala (manukuu ya kiotomatiki au ya wahusika wengine)
- Kugawanya na kuweka maudhui kwa ajili ya upataji
- Kutumia Claude Code kuunganisha maarifa ya video nyingi
- Kutoa madokezo yaliyopangwa: muhtasari, madai, alama za saa, dondoo, na nukuu
- Neno kuu la msingi: "Kuunda wakala wa utafiti wa YouTube na Claude Code"
- Muundo: Mafunzo ya hatua kwa hatua na msimbo na maelekezo yanayoweza kuendeshwa
- Matokeo: Muhtasari wa utafiti wa Markdown + JSON kwa matumizi ya programu
Kwa nini ni muhimu: YouTube ndiyo hifadhi kubwa zaidi ya umma ya mazungumzo, masomo, maonyesho, na mijadala. Lakini ina kelele nyingi. Kuunda wakala wa utafiti wa YouTube na Claude Code kunakupa faida: unaweza kuunganisha maarifa kutoka kwa video nyingi kwa dakika, sio masaa.
Usanifu kwa Muhtasari
Tutaweka toleo la kwanza kuwa rahisi na imara.
- Ingizo: swali la utafiti (mfano, "usanifu wa wakala wa LLM 2025"), vikwazo vya hiari (kipindi cha tarehe, chaneli, muda)
- Utafutaji wa YouTube: YouTube Data API v3 (au hifadhi nakala ya SerpAPI)
- Nakala: YouTube Transcript API; hifadhi nakala kwa ASR (mfano, Whisper) wakati haipatikani
- Mgawanyo: Mgawanyo unaozingatia sentensi (takriban tokeni 800–1,200)
- Viwakilishi: Tumia modeli ya ndani au iliyohifadhiwa ya viwakilishi (mfano,
text-embedding-3-large, nomic-embed-text, au bge-large)
- Hifadhi ya Veta:
FAISS ya ndani kwa kasi; inaweza kubadilishwa na Pinecone, Weaviate, au Qdrant
- Utoaji Hoja: Claude Code kwa upangaji, matumizi ya zana, muunganisho, na utekelezaji wa msimbo ndani ya kitanzi kinachodhibitiwa
- Matokeo: Ripoti ya Markdown + faharasa ya JSON na nukuu, alama za saa, na alama
Mtiririko wa data: Swali → Utafutaji → Upataji metadata → Nakala → Mgawanyo → Uwekaji → Upataji wa K bora zaidi → Muunganisho wa Claude Code → Ripoti.
Mahitaji na Usanidi
- Funguo za API:
YOUTUBE_API_KEY, ANTHROPIC_API_KEY (kwa Claude Code)
- Hiari:
OPENAI_API_KEY au viwakilishi vya ndani
google-api-python-client, youtube-transcript-api
faiss-cpu, numpy, pandas, tiktoken (au sentencepiece)
requests, pydantic, tenacity
pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken
Vigezo vya mazingira:
export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY
Hatua ya 1: Utafutaji wa YouTube na Vichungi
Tutatafuta YouTube na kurudisha metadata iliyopangwa: kichwa, chaneli, tarehe ya kuchapisha, muda, idadi ya watazamaji (ikiwa inapatikana), na videoId.
# faili: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text
Vidokezo vya maelekezo wakati wa kuunda wakala wa utafiti wa YouTube na Claude Code:
- Omba matokeo yaliyopangwa katika miundo inayosomeka na binadamu na inayosomeka na mashine
- Lazimisha nukuu zenye alama za saa
- Himiza ufichuzi wa uhakika na utata
Hatua ya 6: Kuunganisha Yote Pamoja
Hebu tuunganishe swali → utafutaji → nakala → vipande → viwakilishi → upataji → muunganisho.
# faili: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "Hakuna nakala zinazopatikana."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))
Toleo hili la msingi la wakala wa utafiti wa YouTube na Claude Code litatafuta, kupata, na kuunganisha maarifa ya video nyingi na nukuu. Boresha viwakilishi na uongeze akiba ili kuifanya iwe tayari kwa uzalishaji.
Maboresho Saba ya Kuifanya Iwe Nzuri
- Viwakilishi bora na utafutaji mseto
- Badilisha na viwakilishi vya ubora wa juu na uongeze utafutaji wa maneno muhimu wa BM25. Mseto hutoa ukumbusho zaidi kuhusu maneno mahususi na usahihi bora zaidi kuhusu mada dhahania.
- Panua zana kwa metadata tajiri
- Vuta maoni, uwiano wa likes/dislikes, na mamlaka ya chaneli. Ongeza mpangaji upya (msimbaji mkuu) kwa wagombea 100 bora.
- Upangaji wa utafiti wa mizunguko mingi
- Tumia Claude Code kupendekeza mpango wa utafiti: maswali madogo, nadharia, na ukaguzi wa ufunikaji. Tekeleza mara kwa mara hadi vizingiti vya ufunikaji vikamilike.
- Ufuatiliaji wa ushahidi na ushahidi pingamizi
- Kwa kila dai, weka kumbukumbu za vipande vinavyounga mkono na vinavyopingana. Wasilisha zote mbili katika ripoti; ongeza alama za uhakika.
- Tumia utambuzi wa eneo kupitia manukuu au nyakati za neno la Whisper. Fanya muhtasari kwa kila sehemu kabla ya muunganisho wa kimataifa ili kuepuka upunguzaji wa muktadha.
- Hifadhi nakala, viwakilishi, na ripoti kwa kila swali. Tumia tena wakati watumiaji wanarekebisha vichungi. Ongeza uondoaji wa nakala kwa video ID.
- Miundo ya usafirishaji na uwasilishaji
- Safirisha Markdown, PDF, na JSON. Uwasilishaji kwa barua pepe au Slack. Toa alama za saa kama viungo vinavyoweza kubofya
?t=mmss.
Maelekezo Unayoweza Kutumia Tena
Tumia violezo hivi wakati wa kuunda wakala wa utafiti wa YouTube na Claude Code.
Mfumo: Wewe ni wakala wa utafiti makini. Unganisha nakala nyingi za YouTube. Nukuu ndani ya mstari na [vID @ mm:ss], na ujumuishe sehemu ya Vyanzo na URL. Rudisha muhtasari wa Markdown na mzigo wa JSON wa madai na usaidizi uliowekwa alama za saa.
Mtumiaji: Lengo la utafiti: {topic}
Vikwazo: zingatia {audience or scope}; pendelea vyanzo ndani ya {date range}; jumuisha kutokubaliana.
Vipande vinavyoweza kutumika (vilivyopangwa):
{retrieved_passages}
Matokeo: Muhtasari → Maarifa Muhimu (risasi) → Dondoo Mashuhuri (na alama za saa) → Utata na Mapengo → Vyanzo. Kisha JSON {"claims": ...}
Miongozo na Maadili
- Heshimu haki za waundaji: Unganisha na video asili na uepuke kuchapisha nakala kubwa za neno kwa neno.
- Kuwa mkweli: Onyesha madai yanatoka wapi kwa kutumia alama za saa na video ID.
- Epuka muhtasari kupita kiasi: Hifadhi utata; weka alama wakati manukuu yanazalishwa kiotomatiki na yana uwezekano wa kuwa na kelele.
- Shughulikia mada nyeti kwa uangalifu: Angazia kutokuwa na uhakika na utafute vyanzo mbalimbali.
Utatuzi: Masuala ya Kawaida na Marekebisho
- "Hakuna nakala iliyopatikana"
- Hifadhi nakala kwa Whisper; jaribu lugha tofauti; angalia ikiwa video imezuiwa katika eneo.
- Boresha viwakilishi; ongeza BM25; ongeza mwingiliano wa vipande; rekebisha kigezo cha K bora zaidi.
- Lazimisha schema kali ya nukuu; adhibu madai yasiyotumika; hitaji alama za saa kamili zilizopo katika vipande vilivyopatikana.
- Mipaka ya upendeleo wa API
- Hifadhi kwa nguvu; punguza
max_results; ombi la kundi; ongeza kurudi nyuma na tenacity.
- Fanya muhtasari kwa kila sehemu; zuia tokeni za juu zaidi; tumia maelekezo ya kupanga na muhtasari dhahiri.
Kupima Ubora
- Usahihi@K wa vipande vilivyopatikana dhidi ya seti iliyoandikwa
- Kiwango cha uaminifu: uwiano wa madai na usaidizi unaothibitishwa wa alama za saa
- Ufunikaji: idadi ya video za kipekee zinazofaa zilizotajwa
- Ucheleweshaji: wakati kutoka kwa swali hadi ripoti
Mfano: Utafiti wa "Hifadhidata za Veta Zimeelezwa"
- Swali: "hifadhidata za vekta zimeelezwa kwa wasanidi programu 2025"
- Vichungi: video baada ya 2023, muda wa dakika 6-30
- Matokeo: Wakala ananukuu video 6, anaangazia biashara ya HNSW dhidi ya IVF-PQ, anajadili gharama/ukumbusho, na anaunganisha na vigezo. Sehemu ya utata inalinganisha madai ya wauzaji dhidi ya matokeo ya chanzo huria.
Kwa Njia: Kuendesha Hii Kiotomatiki Ndani ya Utiririshaji Wako wa Kazi
Ikiwa unafanya kazi katika hati na msimbo, inafaa kuendesha hatua ya mwisho kiotomatiki. CLI ndogo inaweza kuendesha maswali ya kila usiku na kuacha muhtasari wa Markdown kwenye hifadhi yako ya maarifa. Unaweza pia kuiunganisha katika violezo vya suala kwa utafiti wa mbio.
Inafaa kuzingatia: ikiwa utiririshaji wako wa kazi tayari unaishi kwenye upau wa kando wa kivinjari au msaidizi wa AI, zana kama Sider.AI zinaweza kurahisisha kitanzi cha utafiti—chagua mada, endesha utafutaji, nasa nakala, na uandae muhtasari unaoendeshwa na Claude moja kwa moja mahali unapotumia. Hii inaweza kuokoa ubadilishaji wa muktadha na kufanya ujenzi wa wakala wa utafiti wa YouTube na Claude Code kuwa wa vitendo zaidi kwa timu. Mambo Muhimu ya Kuzingatia
- Kuunda wakala wa utafiti wa YouTube na Claude Code ni njia ya kiwango cha juu ya kugeuza video kuwa muhtasari unaoweza kutekelezeka.
- Msingi mdogo: YouTube API + nakala + mgawanyo + viwakilishi + FAISS + muunganisho wa Claude.
- Njia za uboreshaji: utafutaji mseto, upangaji upya, vitanzi vya upangaji, na ufuatiliaji mkali wa nukuu.
- Anza rahisi, pima uaminifu, na uelekee kwenye uaminifu.
Hatua Zinazofuata
- Tekeleza modeli halisi ya viwakilishi na upataji mseto
- Ongeza hatua ya upangaji upya na vipimo vya ubora
- Unda kazi iliyoratibiwa ya kuonyesha upya mada kila wiki
- Funga kama CLI na UI nyepesi ya wavuti
Maswali Yanayoulizwa Mara kwa Mara
Swali la 1:Ninaanzaje kuunda wakala wa utafiti wa YouTube na Claude Code?
Anza na utafutaji wa YouTube, pata nakala, gawanya maudhui, weka kwenye hifadhi ya vekta, na utumie Claude Code kuunganisha matokeo. Mwongozo hapo juu unatoa msimbo wa hatua kwa hatua ili kukusanya bomba la kazi.
Swali la 2:Ni maktaba zipi bora kwa wakala wa utafiti wa YouTube?
Tumia YouTube Data API kwa utafutaji, youtube-transcript-api kwa manukuu, FAISS kwa utafutaji wa vekta, na Anthropic SDK kupiga Claude Code. Unaweza kubadilisha viwakilishi na OpenAI, Nomic, au BGE.
Swali la 3:Ninawezaje kuhakikisha nukuu na alama za saa sahihi?
Weka alama za saa za kuanza/kumaliza wakati wa kugawanya na uhitaji Claude Code kunukuu [video_id @ mm:ss]. Thibitisha kuwa alama za saa zilizotajwa zipo katika vipande vilivyopatikana kabla ya kuchapisha.
Swali la 4:Je, ninaweza kutumia wakala huyu kwa video za kibinafsi au ambazo hazijaorodheshwa?
Ndiyo, ikiwa una ufikiaji na unaweza kupata nakala au kuendesha ASR ya ndani (mfano, Whisper). Daima heshimu ruhusa na uepuke kusambaza maudhui yenye hakimiliki.
Swali la 5:Ninawezaje kupanua wakala huyu wa utafiti wa YouTube kwa timu?
Ongeza akiba, hifadhi ya vekta iliyoshirikiwa, foleni za kazi, na uendeshaji ulioratibiwa. Unganisha na Slack au wiki, na uzingatie msaidizi wa kivinjari kama vile Sider.AI ili kurahisisha utiririshaji wa kazi wa watafiti.