How do I start building a YouTube research agent with Claude Code?

Begin with YouTube search, fetch transcripts, chunk content, embed into a vector store, and use Claude Code to synthesize results. The guide above provides step-by-step code to assemble a working pipeline.

What libraries are best for a YouTube research agent?

Use the YouTube Data API for search, youtube-transcript-api for captions, FAISS for vector search, and the Anthropic SDK to call Claude Code. You can swap embeddings with OpenAI, Nomic, or BGE.

How do I ensure accurate citations and timestamps?

Keep start/end timestamps during chunking and require Claude Code to cite [video_id @ mm:ss]. Validate that cited timestamps exist in retrieved chunks before publishing.

Can I use this agent for private or unlisted videos?

Yes, if you have access and can fetch transcripts or run local ASR (e.g., Whisper). Always respect permissions and avoid distributing copyrighted content.

How can I scale this YouTube research agent for teams?

Add caching, a shared vector store, job queues, and scheduled runs. Integrate with Slack or a wiki, and consider a browser-based assistant like Sider.AI to streamline researcher workflows.

逐步指南：使用 Claude Code 构建 YouTube 研究助手

如果你曾经花费一个下午的时间在 YouTube 上漫无目的地浏览，结果却忘记了哪些视频值得保存，那么你并不孤单。现在想象一下，有一个不知疲倦的助手可以找到最好的视频，提取摘要，提取关键引言，为见解添加时间戳，并根据需要快速返回来源——这正是 YouTube 研究助手可以做到的。在本逐步指南中，我们将使用 Claude Code 构建一个实用的 YouTube 研究助手，专为创作者、分析师、学生和痴迷的学习者设计，他们想要从噪音中提取有效信息。

我们将采取一种实用且直接的方法：架构、代码、提示和防护措施。在此过程中，我们将做出一些主观的选择，你可以稍后进行更改。最后，你将拥有一个可以搜索 YouTube、收集文本记录、推理多个视频并生成清晰研究简报的工作助手。

我们正在构建什么（以及为什么它很重要）

目标：一个可以执行以下操作的 YouTube 研究助手：

按查询搜索 YouTube

按相关性/互动度对结果进行排名

获取文本记录（自动字幕或第三方字幕）

对内容进行分块和嵌入以便检索

使用 Claude Code 来综合多视频见解

输出结构化笔记：摘要、声明、时间戳、引言和引文

主要关键词：“使用 Claude Code 构建 YouTube 研究助手”

格式：带有可运行代码和提示的逐步教程

输出：Markdown 研究简报 + 用于程序化使用的 JSON

为什么它很重要：YouTube 是最大的公开知识库，包含演讲、课程、演示和辩论。但它也很嘈杂。使用 Claude Code 构建 YouTube 研究助手可以让你占据优势：你可以在几分钟内（而不是几小时）聚合数十个视频的见解。

架构概览

我们将保持第一个版本的简单性和稳健性。

输入：研究查询（例如，“2025 年 LLM 助手架构”），可选约束（日期范围、频道、时长）

YouTube 搜索：YouTube Data API v3（或 SerpAPI 后备方案）

文本记录：YouTube Transcript API；在不可用时回退到 ASR（例如，Whisper）

分块：句子感知分割（大约 800–1,200 个 token）

嵌入：使用本地或托管的嵌入模型（例如，text-embedding-3-large、nomic-embed-text 或 bge-large）

向量存储：本地 FAISS 以提高速度；可以切换到 Pinecone、Weaviate 或 Qdrant

推理：Claude Code 用于编排、工具使用、合成以及在受控循环中执行代码

输出：Markdown 报告 + 带有引文、时间戳和分数的 JSON 索引

数据流：查询 → 搜索 → 获取元数据 → 文本记录 → 分块 → 嵌入 → 检索前 K 个 → Claude Code 合成 → 报告。

先决条件和设置

Python 3.10+

API 密钥：YOUTUBE_API_KEY，ANTHROPIC_API_KEY（用于 Claude Code）

可选：OPENAI_API_KEY 或本地嵌入

库：

google-api-python-client，youtube-transcript-api

faiss-cpu，numpy，pandas，tiktoken (或 sentencepiece)

requests，pydantic，tenacity

anthropic (Claude API)

pip install google-api-python-client youtube-transcript-api faiss-cpu numpy pandas requests pydantic tenacity anthropic tiktoken

环境变量：

export YOUTUBE_API_KEY=YOUR_YT_KEY
export ANTHROPIC_API_KEY=YOUR_ANTHROPIC_KEY

步骤 1：使用过滤器搜索 YouTube

我们将搜索 YouTube 并返回结构化元数据：标题、频道、发布日期、时长、观看次数（如果可用）和 videoId。

# file: yt_search.py
from googleapiclient.discovery import build
import os
YOUTUBE_API_KEY = os.environ — channel, date\n\n"
"---\n"
"JSON schema: {\"claims\":[{\"claim\":str,\"support\":[{\"video_id\":str,\"start\":float,\"end\":float}]}]}\n"
)
def call_claude(goal: str, passages: list[dict]):
passages_str = "\n\n".join(
f"[rank {p['rank']} | score {p['score']:.3f}] (vID={p.get('video_id','?')}, {p.get('start',0):.1f}-{p.get('end',0):.1f})\n{p['text']}"
for p in passages
)
msg = client.messages.create(
model="claude-3-5-sonnet-20240620",
max_tokens=1800,
temperature=0.2,
system=SYSTEM_PROMPT,
messages=[
{"role": "user", "content": USER_TEMPLATE.format(goal=goal, passages=passages_str)}
])
return msg.content[0].text

使用 Claude Code 构建 YouTube 研究助手时的提示：

要求以人类可读和机器可读的格式输出结构化内容

强制执行带时间戳的引文

鼓励披露不确定性和矛盾

步骤 6：将所有内容整合在一起

让我们连接 query → search → transcripts → chunks → embeddings → retrieve → synthesize。

# file: run_agent.py
from yt_search import search_youtube
from transcripts import fetch_transcript
from chunking import transcript_to_docs
from embeddings import VectorStore
from orchestrator import call_claude
from datetime import datetime
def build_corpus(query: str, max_videos=8):
results = search_youtube(query, max_results=max_videos)
corpus_docs = []
for r in results:
tx = fetch_transcript(r["video_id"]) or []
if not tx:
continue
docs = transcript_to_docs(tx)
for d in docs:
d.update({
"video_id": r["video_id"],
"title": r["title"],
"channel": r["channel"],
"url": r["url"],
})
corpus_docs.extend(docs)
return corpus_docs
def research(query: str, k=12):
corpus = build_corpus(query)
if not corpus:
return "No transcripts available."
vs = VectorStore
vs.add(corpus)
passages = vs.search(query, k=k)
md = call_claude(query, passages)
timestamp = datetime.utcnow.isoformat
return f"<!-- generated {timestamp} UTC -->\n\n" + md
if __name__ == "__main__":
print(research("LLM agents for YouTube research"))

这个使用 Claude Code 的 YouTube 研究助手的基准版本将搜索、检索和综合多视频见解，并附带引文。升级嵌入并添加缓存使其可以投入生产。

使其变得出色的七个升级

更好的嵌入和混合搜索

换入高质量的嵌入并添加 BM25 关键词搜索。混合搜索可以在利基术语上提供更多的召回率，并在抽象主题上提供更高的精度。

扩展工具以获得更丰富的元数据

提取评论、点赞/不喜欢比率和频道权威。为前 100 个候选者添加一个重新排序器（交叉编码器）。

多轮研究计划

使用 Claude Code 来提出研究计划：子问题、假设和覆盖率检查。迭代执行，直到满足覆盖率阈值。

证据跟踪和反证

对于每个声明，记录支持和矛盾的片段。在报告中同时呈现；添加置信度分数。

长视频策略

使用通过字幕或 Whisper 字词时间检测的场景检测。在全球综合之前总结每个部分，以避免上下文稀释。

缓存和持久性

按查询存储文本记录、嵌入和报告。当用户调整过滤器时重复使用。按视频 ID 添加重复数据删除。

导出格式和交付

导出 Markdown、PDF 和 JSON。电子邮件或 Slack 交付。将时间戳呈现为可点击的 ?t=mmss 链接。

你可以重复使用的提示

在使用 Claude Code 构建 YouTube 研究助手时，请使用这些模板。

系统：你是一位细致的研究助手。综合多个 YouTube 文本记录。使用 [vID @ mm:ss] 进行内联引用，并包含一个带有 URL 的“来源”部分。返回 Markdown 简报和带有时间戳支持的声明的 JSON payload。

用户：研究目标：{topic}
约束：关注 {audience or scope}；首选 {date range} 内的来源；包括分歧。
候选段落（已排名）：
{retrieved_passages}
输出：摘要 → 关键见解（要点）→ 值得注意的引言（带有时间戳）→ 矛盾和差距 → 来源。然后 JSON {"claims": ...}

防护措施和伦理

尊重创作者的权利：链接到原始视频，避免发布大量的逐字文本记录。

保持透明：使用时间戳和视频 ID 显示声明的来源。

避免过度总结：保留细微差别；标记字幕是自动生成的并且可能存在噪音的情况。

小心处理敏感话题：突出显示不确定性并寻求多样化的来源。

故障排除：常见问题和修复

“未找到文本记录”

回退到 Whisper；尝试不同的语言；检查视频是否受地区限制。

糟糕的检索质量

升级嵌入；添加 BM25；增加块重叠；参数调整前 K 个。

虚构的引文

强制执行严格的引文模式；惩罚不支持的声明；要求检索到的块中存在精确的时间戳。

API 额度限制

积极缓存；减少 max_results；批量请求；使用 tenacity 添加退避。

长格式漂移

按部分总结；约束最大 token 数；使用带有明确大纲的计划提示。

衡量质量

检索到的块的 Precision@K 与标记集

忠实度：具有可验证时间戳支持的声明的比例

覆盖率：引用的唯一相关视频的数量

延迟：从查询到报告的时间

示例：研究“向量数据库解释”

查询：“2025 年面向开发人员的向量数据库解释”

过滤器：2023 年之后的视频，时长 6–30 分钟

结果：助手引用 6 个视频，突出显示 HNSW 与 IVF‑PQ 的权衡，讨论成本/召回率，并链接到基准。矛盾部分比较了供应商声明与开源结果。

顺便说一句：在你的工作流程中自动化

如果你跨文档和代码工作，则值得自动化最后一公里。一个小 CLI 可以运行夜间查询并将 Markdown 简报放入你的知识库中。你还可以将其连接到 sprint 研究的问题模板中。

值得注意的是：如果你的工作流程已经存在于浏览器侧边栏或 AI 助手中，那么像 Sider.AI 这样的工具可以简化研究循环——选择一个主题，运行搜索，捕获文本记录，并在你工作的地方起草一个由 Claude 驱动的摘要。这可以节省上下文切换，并使使用 Claude Code 构建 YouTube 研究助手对于团队来说更加实用。

主要收获

使用 Claude Code 构建 YouTube 研究助手是将视频转化为可操作简报的一种高杠杆方式。

最小堆栈：YouTube API + 文本记录 + 分块 + 嵌入 + FAISS + Claude 合成。

升级路径：混合搜索、重新排名、计划循环和严格的引文跟踪。

从简单开始，衡量忠实度，并迭代以提高可靠性。

下一步

实施一个真正的嵌入模型和混合检索

添加重新排名步骤和质量指标

创建一个计划作业以每周刷新主题

打包为 CLI 和一个轻量级 Web UI

常见问题解答

Q1：如何开始使用 Claude Code 构建 YouTube 研究助手？从 YouTube 搜索开始，获取文本记录，分块内容，嵌入到向量存储中，并使用 Claude Code 来综合结果。上面的指南提供了逐步代码来组装一个工作流水线。

Q2：哪些库最适合 YouTube 研究助手？使用 YouTube Data API 进行搜索，youtube-transcript-api 获取字幕，FAISS 进行向量搜索，以及 Anthropic SDK 调用 Claude Code。你可以使用 OpenAI、Nomic 或 BGE 交换嵌入。

Q3：如何确保准确的引文和时间戳？在分块期间保留开始/结束时间戳，并要求 Claude Code 引用 [video_id @ mm:ss]。在发布之前，验证引用的时间戳是否存在于检索到的块中。

Q4：我可以将此助手用于私有或未列出的视频吗？是的，如果你有访问权限并且可以获取文本记录或运行本地 ASR（例如，Whisper）。始终尊重权限并避免分发受版权保护的内容。

Q5：如何为团队扩展此 YouTube 研究助手？添加缓存、共享向量存储、作业队列和计划运行。与 Slack 或 Wiki 集成，并考虑使用像 Sider.AI 这样的基于浏览器的助手来简化研究人员的工作流程。