Sider.ai
  • Sembang
  • Wisebase
  • Alatan
  • Sambungan
  • Pelanggan
  • penetapan harga
Muat turun sekarang
Log masuk

Belajar lebih pantas, fikir lebih mendalam, dan berkembang lebih bijak dengan Sider.

Produk
Aplikasi
  • Sambungan
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Alat
  • Pencipta WebNew
  • AI SlidesNew
  • Penulis Esei AI
  • Nano Banana Pro
  • Nano Banana Infographic
  • Penjana Imej AI
  • Generator Otak Itali
  • Penghilang Latar Belakang
  • Penukar Latar Belakang
  • Pemadam Foto
  • Penghilang Teks
  • Inpaint
  • Peningkat Resolusi Imej
  • Buat
  • Penterjemah AI
  • Penterjemah Imej
  • Penterjemah PDF
Sider
  • Hubungi Kami
  • Pusat Bantuan
  • Muat Turun
  • Harga
  • Pelan Pendidikan
  • Apa Yang Baru
  • Blog
  • Komuniti
  • Rakan Kongsi
  • Afiliasi
  • Jemput
©2026 Hak Cipta Terpelihara
Syarat Penggunaan
Dasar Privasi
  • Halaman Utama
  • Blog
  • Alat AI
  • Langkah Demi Langkah: Membina Ejen Penyelidikan YouTube dengan Kod Claude

Langkah Demi Langkah: Membina Ejen Penyelidikan YouTube dengan Kod Claude

Dikemas kini pada 19 Sep 2025

8 min


Langkah Demi Langkah: Membina Agen Penyelidikan YouTube dengan Kod Claude

Jika anda pernah menghabiskan petang dengan meneroka YouTube, hanya untuk terlupa video mana yang patut disimpan, anda tidak keseorangan. Sekarang bayangkan pembantu yang tidak mengenal penat yang boleh mencari video terbaik, mengekstrak ringkasan, mengeluarkan petikan penting, cap masa (timestamp) wawasan, dan mengembalikan sumber atas permintaan—dengan pantas. Itulah sebenarnya yang boleh dilakukan oleh agen penyelidikan YouTube. Dalam panduan langkah demi langkah ini, kita akan membina agen penyelidikan YouTube yang praktikal dengan Kod Claude, yang direka untuk pencipta kandungan, penganalisis, pelajar, dan pelajar tegar yang mahukan isyarat berbanding gangguan.
Kita akan mengambil laluan yang praktikal & langsung: seni bina, kod, gesaan (prompts), dan pagar keselamatan (guardrails). Sepanjang perjalanan, kita akan membuat pilihan yang berpendapat yang boleh anda tukar kemudian. Pada akhirnya, anda akan mempunyai agen yang berfungsi yang boleh mencari YouTube, mengumpulkan transkrip, membuat penaakulan merentasi berbilang video, dan menghasilkan ringkasan penyelidikan yang bersih.

Apa yang Kita Bina (dan Mengapa Ia Penting)

  • Matlamat: Agen penyelidikan YouTube yang boleh:
  • Cari YouTube melalui pertanyaan (query)
  • Menyusun hasil mengikut perkaitan/penglibatan
  • Dapatkan transkrip (sari kata automatik atau pihak ketiga)
  • Bahagikan (chunk) dan benamkan (embed) kandungan untuk perolehan
  • Gunakan Kod Claude untuk mensintesiskan wawasan berbilang video
  • Hasilkan nota berstruktur: ringkasan, dakwaan, cap masa, petikan, dan sitasi
  • Kata kunci utama: "Membina agen penyelidikan YouTube dengan Kod Claude"
  • Format: Tutorial langkah demi langkah dengan kod dan gesaan yang boleh dijalankan
  • Output: Ringkasan penyelidikan Markdown + JSON untuk kegunaan atur cara
Mengapa ia penting: YouTube ialah pangkalan pengetahuan awam terbesar bagi ceramah, pelajaran, demo dan perbahasan. Tetapi ia bising. Membina agen penyelidikan YouTube dengan Kod Claude memberikan anda kelebihan: anda boleh mengumpulkan wawasan merentasi berpuluh-puluh video dalam beberapa minit, bukan berjam-jam.

Seni Bina Sepintas Lalu

Kita akan memastikan versi pertama mudah dan teguh.
  • Input: pertanyaan penyelidikan (contohnya, "seni bina agen LLM 2025"), kekangan pilihan (julat tarikh, saluran, tempoh)
  • Carian YouTube: YouTube Data API v3 (atau sandaran SerpAPI)
  • Transkrip: YouTube Transcript API; sandaran kepada ASR (contohnya, Whisper) apabila tidak tersedia
  • Pembahagian (Chunking): Segmentasi sedar ayat (anggaran 800–1,200 token)
  • Pembenaman (Embeddings): Gunakan model pembenaman setempat atau dihoskan (contohnya, text-embedding-3-large, nomic-embed-text, atau bge-large)
  • Storan Vektor: FAISS setempat untuk kelajuan; boleh bertukar kepada Pinecone, Weaviate, atau Qdrant
  • Penaakulan: Kod Claude untuk orkestrasi, penggunaan alat, sintesis, dan pelaksanaan kod di dalam gelung terkawal
  • Output: Laporan Markdown + indeks JSON dengan sitasi, cap masa, dan skor
Aliran data: Pertanyaan → Carian → Dapatkan metadata → Transkrip → Bahagian (Chunk) → Benam (Embed) → Dapatkan Top‑K → Sintesis Kod Claude → Laporan.

Prasyarat dan Persediaan

  • Python 3.10+
  • Kunci API: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (untuk Kod Claude)
  • Pilihan: OPENAI_API_KEY atau pembenaman setempat
  • Pustaka:
  • google-api-python-client, youtube-transcript-api
  • faiss-cpu, numpy, pandas, tiktoken (atau sentencepiece)
  • requests, pydantic, tenacity
  • anthropic (Claude API)
pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken
Pemboleh ubah persekitaran:
export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

Langkah 1: Carian YouTube dengan Penapis

Kita akan mencari YouTube dan mengembalikan metadata berstruktur: tajuk, saluran, tarikh penerbitan, tempoh, tontonan (jika ada), dan videoId.
# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text
Petua gesaan (prompt) semasa membina agen penyelidikan YouTube dengan Kod Claude:
  • Minta output berstruktur dalam format yang boleh dibaca manusia dan mesin
  • Kuatkuasakan sitasi bercap masa
  • Menggalakkan pendedahan ketidakpastian dan percanggahan

Langkah 6: Menggabungkan Semuanya

Mari kita sambungkan pertanyaan → carian → transkrip → bahagian (chunk) → pembenaman (embeddings) → perolehan → sintesis.
# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))
Versi asas agen penyelidikan YouTube dengan Kod Claude ini akan mencari, mendapatkan dan mensintesis wawasan berbilang video dengan sitasi. Tingkatkan pembenaman (embeddings) dan tambahkan caching untuk menjadikannya sedia pengeluaran.

Tujuh Peningkatan Untuk Menjadikannya Hebat

  1. Pembenaman (embeddings) yang lebih baik dan carian hibrid
  • Tukarkan dengan pembenaman berkualiti tinggi dan tambahkan carian kata kunci BM25. Hibrid memberikan lebih banyak ingatan (recall) pada istilah khusus dan ketepatan yang lebih baik pada topik abstrak.
  1. Kembangkan alat untuk metadata yang lebih kaya
  • Tarik komen, nisbah suka/tidak suka, dan kewibawaan saluran. Tambahkan penyusun semula (cross-encoder) untuk 100 calon teratas.
  1. Perancangan penyelidikan berbilang giliran
  • Gunakan Kod Claude untuk mencadangkan pelan penyelidikan: sub-soalan, hipotesis, dan semakan liputan. Laksanakan secara berulang sehingga ambang liputan dipenuhi.
  1. Penjejakan bukti dan bukti balas
  • Untuk setiap dakwaan, log petikan sokongan dan percanggahan. Bentangkan kedua-duanya dalam laporan; tambahkan skor keyakinan.
  1. Strategi video panjang
  • Gunakan pengesanan adegan melalui sari kata atau pemasaan perkataan Whisper. Ringkaskan setiap bahagian sebelum sintesis global untuk mengelakkan pencairan konteks.
  1. Caching dan kegigihan
  • Simpan transkrip, pembenaman (embeddings) dan laporan setiap pertanyaan. Guna semula apabila pengguna mengubah suai penapis. Tambahkan penyahduplikasian mengikut ID video.
  1. Format eksport dan penghantaran
  • Eksport Markdown, PDF dan JSON. Penghantaran e-mel atau Slack. Jadikan cap masa sebagai pautan ?t=mmss yang boleh diklik.

Gesaan (Prompts) Yang Boleh Anda Guna Semula

Gunakan templat ini semasa membina agen penyelidikan YouTube dengan Kod Claude.
Sistem: Anda ialah agen penyelidikan yang teliti. Mensintesis merentasi berbilang transkrip YouTube. Petik sebaris dengan [vID @ mm:ss], dan sertakan bahagian Sumber dengan URL. Kembalikan ringkasan Markdown dan muatan JSON dakwaan dengan sokongan bercap masa.
Pengguna: Matlamat penyelidikan: {topic}
Kekangan: fokus pada {audience or scope}; lebih suka sumber dalam {date range}; sertakan perselisihan.
Petikan calon (disusun):
{retrieved_passages}
Output: Ringkasan → Wawasan Utama (mata) → Petikan Terkenal (dengan cap masa) → Percanggahan & Jurang → Sumber. Kemudian JSON {"claims": ...}

Pagar Keselamatan (Guardrails) dan Etika

  • Hormati hak pencipta: Pautkan ke video asal dan elakkan daripada menerbitkan transkrip verbatim yang besar.
  • Bersikap telus: Tunjukkan dari mana dakwaan itu datang menggunakan cap masa dan ID video.
  • Elakkan ringkasan berlebihan: Kekalkan nuansa; tandakan apabila sari kata dijana secara automatik dan mungkin bising.
  • Kendalikan topik sensitif dengan berhati-hati: Serlahkan ketidakpastian dan cari sumber yang pelbagai.

Penyelesaian Masalah: Isu dan Pembetulan Biasa

  • "Tiada transkrip ditemui"
  • Sandarkan kepada Whisper; cuba bahasa yang berbeza; semak sama ada video itu disekat mengikut rantau.
  • Kualiti perolehan yang buruk
  • Tingkatkan pembenaman (embeddings); tambahkan BM25; tingkatkan pertindihan bahagian (chunk); parameter-tune top-K.
  • Sitasi yang diada-adakan (Hallucinated)
  • Paksa skema sitasi yang ketat; hukum dakwaan yang tidak disokong; memerlukan cap masa yang tepat terdapat dalam bahagian (chunk) yang diperoleh.
  • Had kuota API
  • Cache secara agresif; kurangkan max_results; permintaan kelompok; tambahkan back-off dengan tenacity.
  • Hanyutan bentuk panjang
  • Ringkaskan setiap bahagian; kekang token maksimum; gunakan gesaan (prompts) perancangan dengan garis besar yang jelas.

Mengukur Kualiti

  • Precision@K bahagian (chunk) yang diperoleh berbanding set berlabel
  • Kadar kesetiaan: perkadaran dakwaan dengan sokongan bercap masa yang boleh disahkan
  • Liputan: bilangan video berkaitan unik yang dipetik
  • Latensi: masa daripada pertanyaan kepada laporan

Contoh: Menyelidik "Pangkalan Data Vektor Dijelaskan"

  • Pertanyaan: "pangkalan data vektor dijelaskan untuk pembangun 2025"
  • Penapis: video selepas 2023, tempoh 6–30 minit
  • Hasil: Agen memetik 6 video, menyerlahkan trade-off HNSW vs. IVF-PQ, membincangkan kos/ingatan (recall), dan memautkan ke penanda aras. Bahagian percanggahan membandingkan dakwaan vendor vs. hasil sumber terbuka.

By the Way: Mengautomasikan Ini Di Dalam Aliran Kerja Anda

Jika anda bekerja merentasi dokumen dan kod, ia berbaloi untuk mengautomasikan batu terakhir. CLI kecil boleh menjalankan pertanyaan setiap malam dan menjatuhkan ringkasan Markdown ke dalam pangkalan pengetahuan anda. Anda juga boleh menyambungkannya ke dalam templat isu untuk penyelidikan sprint.
Perlu diingatkan: jika aliran kerja anda sudah berada di bar sisi pelayar atau pembantu AI, alat seperti Sider.AI boleh menyelaraskan gelung penyelidikan—pilih topik, jalankan carian, tangkap transkrip, dan draf ringkasan yang dikuasakan oleh Claude di tempat anda bekerja. Ini boleh menjimatkan penukaran konteks dan menjadikan pembinaan agen penyelidikan YouTube dengan Kod Claude lebih praktikal untuk pasukan.

Perkara Utama

  • Membina agen penyelidikan YouTube dengan Kod Claude ialah cara berdaya tinggi untuk menukar video menjadi ringkasan yang boleh diambil tindakan.
  • Timbunan minimum: YouTube API + transkrip + pembahagian (chunking) + pembenaman (embeddings) + FAISS + sintesis Claude.
  • Laluan peningkatan: carian hibrid, penyusunan semula, gelung perancangan dan penjejakan sitasi yang ketat.
  • Mulakan dengan mudah, ukur kesetiaan, dan berulang ke arah kebolehpercayaan.

Langkah Seterusnya

  • Laksanakan model pembenaman (embedding) sebenar dan perolehan hibrid
  • Tambahkan langkah penyusunan semula dan metrik kualiti
  • Cipta kerja berjadual untuk menyegarkan topik setiap minggu
  • Pakejkan sebagai CLI dan UI web ringan

Soalan Lazim (FAQ)

S1:Bagaimana saya mula membina agen penyelidikan YouTube dengan Kod Claude? Mula dengan carian YouTube, dapatkan transkrip, bahagikan kandungan, benamkan ke dalam storan vektor, dan gunakan Kod Claude untuk mensintesiskan hasil. Panduan di atas menyediakan kod langkah demi langkah untuk memasang saluran yang berfungsi.
S2:Pustaka manakah yang terbaik untuk agen penyelidikan YouTube? Gunakan YouTube Data API untuk carian, youtube-transcript-api untuk sari kata, FAISS untuk carian vektor, dan Anthropic SDK untuk memanggil Kod Claude. Anda boleh menukar pembenaman (embeddings) dengan OpenAI, Nomic atau BGE.
S3:Bagaimana saya memastikan sitasi dan cap masa yang tepat? Kekalkan cap masa mula/tamat semasa pembahagian (chunking) dan minta Kod Claude untuk memetik [video_id @ mm:ss]. Sahkan bahawa cap masa yang dipetik wujud dalam bahagian (chunk) yang diperoleh sebelum diterbitkan.
S4:Bolehkah saya menggunakan agen ini untuk video peribadi atau tidak tersenarai? Ya, jika anda mempunyai akses dan boleh mendapatkan transkrip atau menjalankan ASR tempatan (cth. Whisper). Sentiasa hormati kebenaran dan elakkan daripada mengedarkan kandungan berhak cipta.
S5:Bagaimanakah saya boleh menskala agen penyelidikan YouTube ini untuk pasukan? Tambahkan caching, storan vektor kongsi, barisan kerja dan larian berjadual. Bersepadu dengan Slack atau wiki, dan pertimbangkan pembantu berasaskan pelayar seperti Sider.AI untuk menyelaraskan aliran kerja penyelidik.

Artikel Terkini
Cara Menguasai ChatPDF: Mendapatkan Maklumat dengan Lebih Pantas dari Dokumen Padat

Cara Menguasai ChatPDF: Mendapatkan Maklumat dengan Lebih Pantas dari Dokumen Padat

Alternatif Terbaik X Auto-Translation untuk Dokumen Cepat dan Tepat

Alternatif Terbaik X Auto-Translation untuk Dokumen Cepat dan Tepat

Terjemahan AI Samsung Tidak Tersedia di Iran? Penyelesaian Praktikal

Terjemahan AI Samsung Tidak Tersedia di Iran? Penyelesaian Praktikal

Alat Terjemahan Parsi: Panduan Praktikal untuk Kerja Lebih Cepat dan Tepat

Alat Terjemahan Parsi: Panduan Praktikal untuk Kerja Lebih Cepat dan Tepat

Alternatif Terbaik Grok untuk Penyelidikan Mendalam dan Berpautan

Alternatif Terbaik Grok untuk Penyelidikan Mendalam dan Berpautan

15 Ciri Utama Penjana Imej AI yang Anda Akan Guna

15 Ciri Utama Penjana Imej AI yang Anda Akan Guna