How do I start building a YouTube research agent with Claude Code?

Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

What libraries are best for a YouTube research agent?

Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

How do I ensure accurate citations and timestamps?

Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Can I use this agent for private or unlisted videos?

Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

How can I scale this YouTube research agent for teams?

Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.

צעד אחר צעד: בניית סוכן מחקר ל-YouTube עם קוד של Claude

אם אי פעם העברתם אחר צהריים שלם בשיטוט אקראי ב-YouTube, ורק שכחתם אילו סרטונים היו שווים שמירה, אתם לא לבד. עכשיו תארו לעצמכם עוזר חרוץ שיכול למצוא את הסרטונים הטובים ביותר, לחלץ סיכומים, לשלוף ציטוטים מרכזיים, לתת חותמות זמן לתובנות ולהחזיר מקורות לפי דרישה – במהירות. זה בדיוק מה שסוכן מחקר ל-YouTube יכול לעשות. במדריך מפורט זה, נבנה סוכן מחקר מעשי ל-YouTube עם קוד של Claude, המיועד ליוצרים, אנליסטים, סטודנטים ולומדים אובססיביים שרוצים מידע איכותי ולא רעש.

ננקוט בדרך מעשית וישירה: ארכיטקטורה, קוד, הנחיות ומגבלות. לאורך הדרך, נעשה בחירות מוטות שתוכלו להחליף בהמשך. עד הסוף, יהיה לכם סוכן עובד שיכול לחפש ב-YouTube, לאסוף תמלילים, להסיק מסקנות בין סרטונים מרובים ולהפיק תמציות מחקר נקיות.

מה אנחנו בונים (ולמה זה משנה)

מטרה: סוכן מחקר ל-YouTube שיכול:

לחפש ב-YouTube לפי שאילתה

לדרג תוצאות לפי רלוונטיות/מעורבות

לאחזר תמלילים (כתוביות אוטומטיות או של צד שלישי)

לפצל ולהטביע תוכן לאחזור

להשתמש בקוד של Claude כדי לסנתז תובנות מרובות סרטונים

להפיק הערות מובנות: סיכום, טענות, חותמות זמן, ציטוטים ואזכורים

מילת מפתח עיקרית: "בניית סוכן מחקר ל-YouTube עם קוד של Claude"

פורמט: הדרכה מפורטת עם קוד והנחיות ניתנים להרצה

תוצאות: תקציר מחקר בפורמט Markdown + JSON לשימוש תוכנתי

למה זה משנה: YouTube הוא בסיס הידע הציבורי הגדול ביותר של שיחות, שיעורים, הדגמות ודיונים. אבל הוא רועש. בניית סוכן מחקר ל-YouTube עם קוד של Claude נותנת לכם יתרון: אתם יכולים לצבור תובנות מעשרות סרטונים בדקות, לא שעות.

ארכיטקטורה במבט חטוף

נשמור על הגרסה הראשונה פשוטה וחזקה.

כניסות: שאילתת מחקר (לדוגמה, "ארכיטקטורות סוכני LLM 2025"), אילוצים אופציונליים (טווח תאריכים, ערוץ, משך)

חיפוש ב-YouTube: YouTube Data API v3 (או SerpAPI כגיבוי)

תמלילים: YouTube Transcript API; גיבוי ל-ASR (לדוגמה, Whisper) כשלא זמין

פיצול: פילוח מודע למשפט (כ-800–1,200 טוקנים)

הטבעות: השתמשו במודל הטבעה מקומי או מארח (לדוגמה, text-embedding-3-large, nomic-embed-text, או bge-large)

מאגר וקטורים: FAISS מקומי למהירות; ניתן להחליף ל-Pinecone, Weaviate, או Qdrant

הסקת מסקנות: קוד של Claude לתזמור, שימוש בכלי עבודה, סינתזה והרצת קוד בתוך לולאה מבוקרת

תוצאות: דוח Markdown + אינדקס JSON עם אזכורים, חותמות זמן וציונים

זרימת נתונים: שאילתה ← חיפוש ← אחזור מטא-נתונים ← תמלול ← פיצול ← הטבעה ← אחזור K-העליונים ← סינתזת קוד של Claude ← דוח.

דרישות מוקדמות והגדרות

Python 3.10+

מפתחות API: YOUTUBE_API_KEY, ANTHROPIC_API_KEY (לקוד של Claude)

אופציונלי: OPENAI_API_KEY או הטבעות מקומיות

ספריות:

google-api-python-client, youtube-transcript-api

faiss-cpu, numpy, pandas, tiktoken (או sentencepiece)

requests, pydantic, tenacity

anthropic (Claude API)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

משתני סביבה:

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

שלב 1: חיפוש ב-YouTube עם מסננים

נחפש ב-YouTube ונחזיר מטא-נתונים מובנים: כותרת, ערוץ, תאריך פרסום, משך, צפיות (אם זמין) ומזהה סרטון (videoId).

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

טיפים להנחיות בעת בניית סוכן מחקר ל-YouTube עם קוד של Claude:

בקשו תוצאות מובנות בפורמטים קריאים לבני אדם וגם ניתנים לקריאה על ידי מכונה

אכפו אזכורים עם חותמות זמן

עודדו גילויים של אי-ודאות וסתירות

שלב 6: חיבור הכל יחד

בואו נחבר שאילתה → חיפוש → תמלילים → פיצולים → הטבעות → אחזור → סינתזה.

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

גרסת הבסיס הזו של סוכן מחקר ל-YouTube עם קוד של Claude תחפש, תאחזר ותסנתז תובנות מרובות סרטונים עם אזכורים. שדרגו את ההטבעות והוסיפו מטמון כדי להפוך אותו למוכן לייצור.

שבעה שדרוגים כדי לשפר אותו

הטבעות טובות יותר וחיפוש היברידי

החליפו בהטבעות באיכות גבוהה והוסיפו חיפוש מילות מפתח BM25. היברידי נותן יותר היזכרות במונחי נישה ודיוק טוב יותר בנושאים מופשטים.

הרחבת כלים למטא-נתונים עשירים יותר

שלפו תגובות, יחס לייקים/דיסלייקים וסמכות ערוץ. הוסיפו דירוג מחדש (cross-encoder) עבור 100 מועמדים מובילים.

תכנון מחקר מרובה פניות

השתמשו בקוד של Claude כדי להציע תוכנית מחקר: שאלות משנה, השערות ובדיקות כיסוי. בצעו באופן איטרטיבי עד שמגיעים לספי כיסוי.

מעקב אחר ראיות וראיות נגדיות

עבור כל טענה, רשמו קטעי תמיכה וסתירה. הציגו את שניהם בדוחות; הוסיפו ציוני ביטחון.

אסטרטגיות לסרטונים ארוכים

השתמשו בזיהוי סצנות באמצעות כתוביות או תזמוני מילים של Whisper. סכמו לפי חלק לפני סינתזה גלובלית כדי למנוע דילול הקשר.

אחסון במטמון ועמידות

אחסנו תמלילים, הטבעות ודוחות לכל שאילתה. השתמשו מחדש כאשר משתמשים משנים מסננים. הוסיפו ניכוי כפילויות לפי מזהה סרטון.

פורמטי ייצוא ומסירה

ייצאו Markdown, PDF ו-JSON. מסירה בדוא"ל או ב-Slack. הדגישו חותמות זמן כקישורים ניתנים ללחיצה ?t=mmss.

הנחיות שתוכלו לעשות בהן שימוש חוזר

השתמשו בתבניות אלה בעת בניית סוכן מחקר ל-YouTube עם קוד של Claude.

מערכת: אתם סוכני מחקר קפדניים. סנתזו תמלילים מרובים של YouTube. צטטו בשורה עם [vID @ mm:ss], וכללו סעיף מקורות עם כתובות אתרים. החזירו גם תקציר Markdown וגם מטען JSON של טענות עם תמיכה עם חותמות זמן.

משתמש: מטרת מחקר: {topic}
אילוצים: התמקדו ב-{audience or scope}; העדיפו מקורות בתוך {date range}; כללו חילוקי דעות.
קטעים מועמדים (מדורגים):
{retrieved_passages}
פלט: סיכום → תובנות מפתח (תבליטים) → ציטוטים בולטים (עם חותמות זמן) → סתירות ופערים → מקורות. ואז JSON {"claims": ...}

מגבלות ואתיקה

כבדו את זכויות היוצרים: קשרו לסרטונים המקוריים והימנעו מפרסום תמלילים מילוליים גדולים.

היו שקופים: הראו מאיפה מגיעות טענות באמצעות חותמות זמן ומזהי סרטונים.

הימנעו מסיכום יתר: שמרו על ניואנסים; סמנו כאשר כתוביות נוצרו אוטומטית וסביר להניח שהן רועשות.

טפלו בנושאים רגישים בזהירות: הדגישו אי ודאות וחפשו מקורות מגוונים.

פתרון בעיות: בעיות נפוצות ותיקונים

"לא נמצא תמליל"

חזרו ל-Whisper; נסו שפות שונות; בדקו אם הסרטון חסום באזור.

איכות אחזור גרועה

שדרגו הטבעות; הוסיפו BM25; הגדילו את חפיפת הפיצולים; כוונו פרמטרים של K-העליונים.

אזכורים מהוססים

אכפו סכימת אזכורים קפדנית; הענישו טענות לא נתמכות; דרשו חותמות זמן מדויקות הקיימות בפיצולים שאוחזרו.

מגבלות מכסת API

אחסנו במטמון באגרסיביות; הפחיתו את max_results; בקשות אצווה; הוסיפו נסיגה עם tenacity.

סחיפה ארוכת טווח

סכמו לפי חלק; הגבילו את מספר הטוקנים המקסימלי; השתמשו בהנחיות תכנון עם מתאר מפורש.

מדידת איכות

Precision@K של פיצולים שאוחזרו לעומת קבוצה מתויגת

שיעור נאמנות: שיעור הטענות עם תמיכה ניתנת לאימות עם חותמת זמן

כיסוי: מספר סרטונים רלוונטיים ייחודיים שאוזכרו

השהיה: זמן משאילתה לדוח

דוגמה: מחקר על "הסבר על מסדי נתונים וקטוריים"

שאילתה: "הסבר על מסדי נתונים וקטוריים למפתחים 2025"

מסננים: סרטונים לאחר 2023, משך 6–30 דקות

תוצאה: הסוכן מצטט 6 סרטונים, מדגיש את היתרונות והחסרונות של HNSW לעומת IVF-PQ, דן בעלות/היזכרות ומקשר למדדי ביצועים. סעיף הסתירות משווה בין טענות ספקים לתוצאות קוד פתוח.

דרך אגב: אוטומציה של זה בתוך זרימת העבודה שלכם

אם אתם עובדים על פני מסמכים וקוד, כדאי להפוך את המייל האחרון לאוטומטי. CLI קטן יכול להריץ שאילתות ליליות ולהפיל תקצירי Markdown לבסיס הידע שלכם. אתם יכולים גם לחבר אותו לתבניות בעיות למחקר ספרינט.

ראוי לציין: אם זרימת העבודה שלכם כבר נמצאת בסרגל צד של דפדפן או עוזר AI, כלים כמו Sider.AI יכולים לייעל את לולאת המחקר – בחרו נושא, הפעילו חיפוש, צלמו תמלילים וערכו סיכום המופעל על ידי Claude, ממש במקום שבו אתם עובדים. זה יכול לחסוך מעבר הקשר ולהפוך את בניית סוכן מחקר ל-YouTube עם קוד של Claude ליותר מעשית עבור צוותים.

נקודות עיקריות

בניית סוכן מחקר ל-YouTube עם קוד של Claude היא דרך בעלת מינוף גבוה להפוך סרטונים לתקצירים ניתנים לפעולה.

המחסנית המינימלית: YouTube API + תמלילים + פיצול + הטבעות + FAISS + סינתזת Claude.

נתיבי שדרוג: חיפוש היברידי, דירוג מחדש, לולאות תכנון ומעקב קפדני אחר אזכורים.

התחילו פשוט, מדדו נאמנות וחזרו על עצמכם כדי להגיע לאמינות.

השלבים הבאים

יישמו מודל הטבעה אמיתי ואחזור היברידי

הוסיפו שלב דירוג מחדש ומדדי איכות

צרו משימה מתוזמנת לרענון נושאים מדי שבוע

ארזו כ-CLI וממשק משתמש קל משקל באינטרנט

שאלות נפוצות

ש1: איך אני מתחיל לבנות סוכן מחקר ל-YouTube עם קוד של Claude? התחילו בחיפוש ב-YouTube, אחזרו תמלילים, פצלו תוכן, הטביעו במאגר וקטורים והשתמשו בקוד של Claude כדי לסנתז תוצאות. המדריך לעיל מספק קוד שלב אחר שלב כדי להרכיב צינור עבודה.

ש2: אילו ספריות הן הטובות ביותר עבור סוכן מחקר ל-YouTube? השתמשו ב-YouTube Data API לחיפוש, youtube-transcript-api לכתוביות, FAISS לחיפוש וקטורים וב-Anthropic SDK כדי לקרוא לקוד של Claude. אתם יכולים להחליף הטבעות עם OpenAI, Nomic או BGE.

ש3: כיצד אוכל להבטיח אזכורים וחתימות זמן מדויקים? שמרו על חתימות זמן התחלה/סיום במהלך הפיצול ודרשו מקוד של Claude לצטט [video_id @ mm:ss]. אמת שאזכורים מצוטטים קיימים בפיצולים שאוחזרו לפני הפרסום.

ש4: האם אוכל להשתמש בסוכן זה עבור סרטונים פרטיים או לא רשומים? כן, אם יש לכם גישה ואתם יכולים לאחזר תמלילים או להריץ ASR מקומי (לדוגמה, Whisper). תמיד כבדו הרשאות והימנעו מהפצת תוכן המוגן בזכויות יוצרים.

ש5: איך אוכל להרחיב את סוכן המחקר הזה ב-YouTube עבור צוותים? הוסיפו אחסון במטמון, מאגר וקטורים משותף, תורי עבודה והפעלות מתוזמנות. שלבו עם Slack או ויקי, ושקלו עוזר מבוסס דפדפן כמו Sider.AI כדי לייעל את זרימות העבודה של החוקרים.