有没有想过,在你去泡咖啡的时候,让你的电脑自己去完成那些无聊的工作?不是那种有趣的无聊事——比如滚动浏览你买不起的度假租赁房——而是真正无聊的无聊事。填写表格。从三个不同的门户网站下载正确的文件。将 C 列的总数复制到 G 列,而不会不小心把猫的平均值算进去。如果你是这样,欢迎使用 Google 的 Gemini 2.5 “Computer Use”,这个功能让 AI 代理就像一个不知疲倦的小实习生一样,真正地驱动你的浏览器——而且它不会问“协同”是什么意思。
在这个友好的教程中,我们将详细介绍 Gemini 2.5 Computer Use 究竟是什么,它是如何工作的,它的优势在哪里,以及它仍然像你叔叔点击弹出广告一样点错按钮的地方。我将分享一些实际操作的例子、注意事项,以及在你把屏幕的钥匙交给它之前,你想要了解的真实技巧。
用简单的英语来说,Gemini 2.5 “Computer Use”是什么?
- 把它想象成“带有鼠标和键盘的 AI”。Gemini 2.5 Computer Use 不仅仅是用文本回答问题,还可以像你一样操作 Web 浏览器:点击链接、在字段中输入内容、滚动、复制、粘贴、下载文件,以及在不同的网站上完成多步骤的任务——所有这些都只需一条自然语言指令。这就是“告诉我怎么做”和“去做”之间的区别。
- 它专注于浏览器自动化。你给它一个目标(“找到最新的账单,下载 PDF,并通过电子邮件将总额发送给我”),它会在一个受控的浏览器会话中驱动整个过程,一次执行一个操作,并记录页面地图和到目前为止所做的事情。
为什么这很重要?因为我们的大部分工作现在都在浏览器中进行:人力资源门户、供应商仪表板、政府表格、知识库、Google Drive,等等。如果一个机器人可以像我们一样安全地点击(并且不会在此过程中删除克利夫兰),那么你就拥有了一个实用的省时工具。
Gemini 2.5 Computer Use 实际是如何工作的(不只是夸夸其谈)
想象一下,一位谨慎的司机在一个新的城市里,使用逐步导航:
- 它感知页面:该代理读取页面结构,而不仅仅是像素。它看到可点击的元素、文本字段、标签和布局,因此它可以选择正确的目标——即使两个按钮都显示“继续”。这就像拥有 DOM 的 X 射线视觉。
- 它计划下一步:从你的高级指令中,它将工作分解为微操作:点击此链接,输入该电子邮件,等待弹出窗口,滚动到表格,提取数据。如果你曾经录制过宏,这会让你感到熟悉——除非页面布局发生变化,否则它会在飞行中进行调整。
- 它行动并检查:每次行动后,它都会进行健全性检查:预期的元素是否出现?按钮现在是否被禁用?如果没有,它会尝试不同的路径。当页面加载缓慢或字段需要不同的格式时,这种反馈循环可以避免它驶下悬崖。
- 它记录自己:大多数运行都会产生可见的痕迹——它点击了什么,它输入了什么,它下载了什么——你可以查看。该历史记录对于调试和合规性至关重要,尤其是在你自动化一些敏感内容(如财务或 HR 数据)时。
是的,它可以一次跨多个站点导航——例如,登录到供应商仪表板,收集价格,将结果粘贴到 Google Sheet 中,并通过电子邮件将链接发送给你的团队。这让人感觉不像一个“聊天机器人”,而更像一个助手——不像真正的助手——不会在你的显示器上留下带有攻击性的便条。
快速的现实检查:它的优点和缺点
首先是有趣的部分:Gemini 2.5 Computer Use 可以处理:
- 重复性的 Web 事务:填写表格、上传文件、下载报表,以及通过那些似乎专门为浪费星期二而构建的管理门户。
- 浏览器中的数据整理:在选项卡之间复制粘贴,清理表格,将内容移动到文档或表格中,并以你的老板喜欢的方式(也就是唯一正确的方式)格式化。
- 多步骤工作流程:从“查找”到“格式化”再到“共享”,无需你照看点击。
但让我们保持理智。像所有早期的 AI 代理一样,它在以下情况下会出现问题:
- 页面非常动态:无限滚动和悬停时隐藏的弹出窗口会使它感到困惑。如果你曾经尝试点击一个像打地鼠一样移动的按钮,想象一下教机器人去做这件事。
- 出现验证码和 2FA 关卡:阻止机器人的安全功能旨在阻止机器人。你仍然需要偶尔批准登录或解决难题。
- 存在模棱两可的标签:如果一个站点有三个“提交”按钮,而中间的按钮会订购一辆叉车,你可能需要第一次验证点击路径。
生活中的一天:三个真实的用例
- 费用整理员:你说,“登录到 TravelPortal.com,获取我最近的三张旅行收据,下载 PDF,并将它们放入我 Drive 的 Expenses/2024 文件夹中。然后起草一封发给财务部门的摘要电子邮件。”该代理登录,导航到“收据”,下载文件,用“日期-行程-城市”重命名它们,上传到 Drive,创建一个带有总计的快速项目符号列表,并起草你的电子邮件。嗒哒。这样就节省了 20 分钟的管理时间。
- 供应商价格检查器:“比较供应商 A、B 和 C 的 Model Z 的当前标价。将 SKU 和价格粘贴到我的 ‘Q4 Price Watch’ Google Sheet 中,并标记任何超过 8% 的降价。”该代理访问三个站点,搜索,抓取价格模块,标准化数据,更新表格,并突出显示交易。
- HR 门户小精灵:“更新我在 HR 门户上的地址,确认福利资格,下载最新的工资单,并验证过去一个季度的 PTO 余额。”该代理尽职尽责地穿过迷宫。你监控第一次运行;之后,它就成了你的每月例行公事,而无需仪式。
那么安全、隐私以及“你确定它不会给我的前任发电子邮件吗?”
Computer Use 在一个为监督而设计的受限环境中运行。用人类的话来说:你可以观看它的工作,设置它可以访问的内容的限制,并要求批准发送电子邮件或转移资金等敏感步骤。会话历史记录可帮助你审核发生了什么以及原因。梦想是“无需干预”,但现实情况是——尤其是在早期——“第一次通过时要密切关注,然后放松束缚。”这不是一个错误;这是常识。
专业设置技巧(来自一个点击错误的人)
- 从小处着手:首先给它一些无聊但安全的任务:下载报告、重命名文件、整理电子表格。你建立信任;它构建一个强大的脚本。
- 为成功命名元素:在你控制网站或内部仪表板的地方,使用清晰的标签和 ID。该代理会像金毛猎犬抓住网球一样,抓住可预测的文本和结构。
- 首先创建一个“快乐路径”:记录它应该期望的理想点击和字段。然后给它一个难题(加载缓慢、额外的对话框),并观察它是如何恢复的。并从中改进。
- 保持 2FA 触手可及:期望批准登录或为受保护的帐户粘贴代码。这不是一个缺陷;这是一个安全功能。
- 记录一切:保存敏感工作流程的操作历史记录和屏幕截图。如果出现任何问题,你都会知道在哪里、何时以及哪个按钮。
它与其他你听说过的“AI 代理”相比如何?
如果你看过 AI 助手控制你的屏幕的演示,你就已经看到了这种类型:一个点击和输入的代理,而不仅仅是“回答”。Gemini 2.5 Computer Use 通过对页面的结构化理解、每次操作后的状态检查以及默认情况下良好的日志记录,倾向于 Web 自动化。在我的测试中,它尤其擅长“浏览器到文档”的任务——从站点提取内容,重塑它,并将其粘贴到你可以共享的文档或表格中。
它的不足之处:任何依赖于抽搐、动画繁重的 UI 或验证码的工作流程。这并非 Gemini 独有;这是该类别的当前状态。好处是:当一个站点正常时,该代理会感觉非常强大。当它不正常时,你将比你说“Cookie 横幅”的速度更快地了解哪些站点对自动化过敏。
快速演练:从提示到回报
让我们自动化一个真正的任务:从三个仪表板中提取季度指标并更新团队文档。
- 要求:“打开 Acme Analytics、BetaReports 和 GammaBoard。将 Q3 按来源的流量导出为 CSV。合并到 Google Sheets 的单个表格中,然后在 Docs 中生成一段摘要。”
- 你将看到什么:该代理登录(你批准任何 2FA),导航到每个“报告”页面,选择正确的日期范围,点击“导出”,下载 CSV,打开一个 Sheet,将每个文件导入到新选项卡中,标准化列标题,添加一个“组合”选项卡,并编写 SUMIF 公式以按来源汇总流量。然后它打开一个 Doc,放入一个带有突出显示和指向 Sheet 的链接的摘要段落。
- 整理:你浏览 Doc,调整一个句子,然后点击“发送”。十分钟的监控与一小时的苦工相比。
故障排除角:当机器人遇到混乱时
- 它点击了错误的按钮:在你的指令中添加更多上下文:“点击流量 > 来源下的蓝色 ‘下载 CSV’ 按钮,而不是顶部的白色 ‘下载 PDF’。”该代理使用你的措辞来消除目标的歧义。
- 一个弹出窗口阻止了进度:告诉它在弹出窗口上做什么:“关闭任何 ‘评价你的体验’ 模式窗口,然后继续。”第二次运行通常会顺利通过。
- 表格布局已更改:将其指向标签,而不是位置:“选择标有 ‘日期范围’ 的下拉列表,然后选择 ‘上个季度’。”避免使用“右上角”和“第三个按钮”,当设计师感到灵感时,它们会中断。
这是一个惊喜:Sider.AI(也就是你现在正在阅读的这些人)为你的浏览器配备了一个页面上的 AI 助手,它可以起草、总结和编排多步骤任务,就在你工作的地方。以我的经验,将 Gemini 2.5 Computer Use 用于繁重的浏览器驱动与 Sider 的页面内辅助功能相结合,可以产生很好的效果。你让 Gemini 进行点击马拉松,然后你使用 Sider 来润色输出、生成电子邮件或进行健全性检查,而无需离开选项卡。这不是魔法,但感觉就像聘请了一个住在你的浏览器中并且不需要钥匙卡的校对员。 何时不使用 Computer Use
- 任何违反网站条款或隐私期望的事情。“因为它能点击”并不意味着“你应该点击”。
- 不可替代的一次性操作——申请生死攸关的许可证或转移大量资金——人类必须审查每个步骤。
- 创造性的工作,瓶颈不是点击而是判断:编辑视频、设计徽标、协商价格。该代理可以获取、格式化和归档;它不会吸引供应商。
入门清单
- 选择一个你每周重复一次且位于浏览器中并且感觉是确定性的任务。“下载昨天的报告并将其放在这里。”
- 用简单的英语编写理想的脚本。包括标签,而不是位置;结果,而不是感觉。
你稍后会关心的细则
- 性能取决于站点:静态、标签良好的页面 = 厨师之吻。动态、广告飞溅、模式窗口快乐的页面 = 带上零食。
- 延迟是一回事:它是逐次点击的,并在步骤之间进行检查。这就是保持其可靠性的原因——就像一个谨慎的司机,而不是一个飙车手。
- 你负责:你可以停止运行、查看日志并设置权限。把它想象成一台带有红色停止按钮的跑步机。使用它。
底线:那么,Gemini 2.5 Computer Use 值得吗?
如果你的日常工作包括“打开五个站点,点击相同的八个按钮,获取相同的数据,然后将其放在某个地方”……那么是的,这正是那种可以为你节省实际时间的实用 AI。它不是一个科幻管家。它更像一个非常听话的实习生,从不眨眼,并且总是记录其工作。以你对待新员工的相同常识性监督来对待它,你将获得好处而不会产生戏剧性。
我的建议:从一个无聊的家务开始,自动化它,并每周节省 20 分钟。一个月后,你会想知道为什么你曾经手动下载任何东西。一年后,你会忘记你有多少密码——因为你不会是那个输入它们的人。
最后一件事:计算机做计算机的事情是未来——但你的判断是秘诀。将你的手放在红色按钮上,并将你的目光放在奖品上。AI 可以点击。你来决定在哪里。
更多阅读和实践指南
- Gemini 2.5 Computer Use 实际能做什么的友好解释,并附有任务和保障措施的具体示例。
- 务实的评论,包括它的优点和缺点,以及与类似工具的比较。
- 关于构建浏览器自动化工作流程的指南,该工作流程无需离开你的椅子即可聚合、清理和共享数据。
FAQ
Q1:用简单的话来说,什么是 Google Gemini 2.5 Computer Use?
它是一种可以为你控制浏览器的 AI——点击、输入、下载和导航以完成你用简单的英语描述的任务。把它想象成一个小心翼翼的助手,一步一步地按照你的指示行事,而不是一个自由奔放的机器人霸主。
Q2:Gemini 2.5 Computer Use 最擅长处理哪些类型的任务?
它擅长重复的、基于规则的浏览器家务:登录门户、导出报告、复制数据以及更新文档或表格。如果你每周可以通过点击相同的按钮来完成,那么 Computer Use 非常适合。
Q3:Gemini 2.5 Computer Use 对于敏感的工作流程是否安全?
如果使用得当,是的——它在受控环境中运行,你可以在其中观看、设置权限并查看操作日志。对于登录、付款或电子邮件等敏感步骤,请保持批准状态,并在让其漫游之前测试第一次运行。
Q4:如何使 Gemini 的 Computer Use 更加可靠?
具体说明标签(而不是位置),定义快乐路径,并添加弹出窗口和下载的说明。从小处着手,在第一次运行后进行迭代,并为受保护的帐户保持 2FA 触手可及。
Q5:Gemini 2.5 Computer Use 在哪里遇到困难?
具有移动元素、侵略性弹出窗口、验证码或多个相同按钮的动态页面可能会使其绊倒。在这些情况下,添加更清晰的说明,将任务分解为更小的步骤,或手动处理棘手的部分。