简介:当你的浏览器变得过于忙碌
你是否也曾发现自己每天早上都在重复相同的五个点击动作——打开销售仪表盘,导出 CSV 文件,将其粘贴到电子表格中,然后通过电子邮件发送给老板——并且心想,“电脑一定在嘲笑我”?我也是。我们已经被承诺自动化很久了,“一劳永逸”听起来像是科技界的减肥广告。
进入 ChatGPT Atlas 的 Agent Mode——这个功能声称它可以真正为你完成网络上的琐事,就像一个住在你浏览器中的礼貌的机器人助手。这不是科幻幻想;而是一个真实的、略带魔力、有时又有些挑剔的助手,它可以填写表格、抓取页面、交叉引用数据,甚至可以在你啜饮咖啡并假装努力工作于“战略”时循环执行任务。
在本指南中,我将引导你了解如何在 ChatGPT Atlas 中使用 Agent Mode 来自动化你的网络任务——以及它的优点、缺点,以及你可能需要采用的一些小习惯,以保持其顺利运行。可以把它看作是你非常聪明的司机的驾驶课程。
ChatGPT Atlas 中的 Agent Mode 到底是什么?
Agent Mode 是 ChatGPT Atlas 中一个连接浏览器的功能,它可以将高级指令——“登录我的分析网站,获取每周流量,并将重点内容发布到 Slack”——转化为一系列动作:导航、点击、键入、抓取、保存和重复。Agent Mode 取代了你像实验室里的老鼠一样为了获得食物而按下杠杆的行为,它变成了按下杠杆的人。
- 它可以读取页面、点击按钮、填写表格、跟踪分页和导出文件。
- 它可以记住步骤(在会话或保存的工作流程中)并按计划运行它们。
- 它可以将数据从一个步骤传递到下一步——就像复制/粘贴一样,但没有手腕的劳损。
如果你曾经尝试录制宏或编写 Selenium 脚本,并且心想,“我可没打算搞到这种程度的极客”,那么 Agent Mode 就是那个在搬家那天真正出现的非代码表亲。
谁应该使用 Agent Mode(以及谁不应该)
- 你:重复性的网络任务、清晰的模式、简单的决策分支。
- 也是你:用于报告的轻量级数据抓取;表单提交;多步骤序列。
- 可能不是你(目前):每毫秒重新渲染的高度动态应用程序;积极阻止自动化的网站;任何涉及超出你舒适区范围的敏感凭据。
是的,它很强大。不,它不是巫师。它更像是一个非常有能力的实习生——快速、热情,偶尔会被名为“提交”的相同按钮搞糊涂。
速查表概述 ()
- 在 ChatGPT Atlas 中打开 Agent Mode。
如果你什么都不记得,请记住:监督第一次运行。这是赛季前的春季训练。
分步指南:如何在 ChatGPT Atlas 中使用 Agent Mode 来自动化网络任务
1) 打开 Agent Mode 并连接你的浏览器
- 打开 ChatGPT Atlas 并找到 Agent Mode(通常在左侧边栏或“工具/自动化”下)。
- 授予必要的权限,以便它可以查看和与你的浏览器标签页交互。
- 如果你的任务涉及登录,请决定如何处理凭据:密码管理器注入、临时令牌或一个专用的低权限帐户,即使出现问题你也不会心痛。
专家提示:从一个非敏感的站点开始,以建立你的信心。没有人希望他们的第一次自动化尝试涉及到工资单。
2) 描述结果,而不是点击
Agent Mode 理解诸如此类的目标:“每个星期一上午 9 点,登录 Acme Analytics,下载‘每周访客’ CSV 文件,将其上传到 Google Drive 中的‘Reports/2025’文件夹中,然后将摘要发布到 #marketing Slack 频道。”
关键是描述你想要完成的事情——就像你向一个聪明但没有看到你的屏幕的朋友解释一样。Atlas 将会提出一个计划:导航到这里,点击那里,提取这个,等等。
理智地检查计划。如果它说“打开 Twitter”而你要求的是“发票 PDF”,则立即停止。
3) 进行受监督的试运行
这里是奇迹发生的地方。在你预览窗格(或你的实时浏览器)中观看时,Atlas 开始执行步骤。它会突出显示它打算点击的元素,显示它找到的 DOM 选择器,并记录每个步骤。
- 如果它错误地识别了一个按钮,请纠正它:“使用标记为‘导出为 CSV’的按钮——而不是‘导出为 PDF’。”
- 如果它错过了一个步骤,请插入一个:“登录后,在导出之前导航到‘报告 > 每周’。”
- 如果该站点使用无限滚动或分页,请教导它:“滚动加载 50 个项目,然后点击‘下一步’,直到没有下一页为止。”
把它想象成教青少年开车。你的手始终放在方向盘附近,你指出停止标志在哪里,并且你希望没有松鼠出现。
4) 标记、命名和参数化你的步骤
当试运行成功时,抵制住喊“发布!”的冲动。相反,添加防护措施:
- 清晰地命名步骤:“登录”、“导航到每周”、“导出 CSV”、“上传到 Drive”、“发布到 Slack”。未来的你将会感谢过去的你。
- 引入变量:{week_start}、{folder_path}、{channel_name}。现在你的工作流程不是一次性的;它是一个模板。
- 保存一个带有版本注释的副本:“v1.2 – 处理分页和双因素延迟。”你会惊讶地发现,注释比记忆更可靠。
5) 教导它处理现实世界中的烦恼
网络是一个混乱的汤。按钮会移动。站点会注销你。一个弹出窗口会询问你是否想要 cookie(不是那种有趣的)。增加弹性:
- 超时和重试:“等待‘导出’按钮最多 10 秒;在升级之前重试两次。”
- 条件分支:“如果出现 2FA,暂停并通知我;否则继续。”
- CSS/XPath 回退:“首先尝试 aria-label;如果失败,则使用 role/button 文本组合。”
- 结构化提取:“抓取表格,转换为 CSV,并在保存之前验证列标题。”
Atlas 很好,但“有缓冲器”更好。
6) 保存、测试和安排你的自动化
- 使用友好的名称保存工作流程:“每周 Web 分析导出”。
- 进行第二次运行,无人监督,但你在旁边待命。检查输出文件夹、文件大小、Slack 帖子。
- 安排它:星期一,上午 9 点。有意识地设置时区——如果 Atlas 认为你住在雷克雅未克,“纽约上午 9 点”的含义会非常不同。
- 添加成功和失败通知:成功时发送电子邮件,错误时发送 SMS。是的,你可以让失败消息说“Womp womp”。
7) 密切关注日志(未来的你将会拥抱你)
Atlas 记录每个操作的时间戳、选择器和屏幕截图(如果你启用它们)。当出现问题时——而且它会的,因为网站——这些日志就是你的黑匣子记录器。
那十分钟的日志探查可以为你节省数小时的时间。
真实案例演练:从仪表盘到 Drive 再到 Slack
让我们运行一个你可以适应的具体场景。
目标:从 Acme Analytics 中提取每周流量,上传到 Google Drive,并将摘要发布到 Slack。
- 提示:“每个星期一,登录 Acme Analytics,打开‘报告 > 每周流量’,导出为 CSV,另存为‘traffic-{week_start}.csv’到 Google Drive 中的‘/Reports/2025’,然后将‘每周访客:X;热门引荐来源:Y’发布到 #marketing。”
- 试运行:它成功登录,但选择了‘导出为 PDF’。你纠正它并标记 CSV 按钮。你添加一个条件:“如果打开带有格式选择的模态框,则选择 CSV。”
- 数据提取:你预览表格。标题显示为 [Date, Visitors, Source]。你告诉它计算 sum(Visitors) 和 top Source。
- 上传:你连接你的 Drive,批准访问,并指定文件夹路径变量。
- Slack:你粘贴一个 webhook 或应用程序令牌。你使用变量格式化消息。
- 测试:CSV 落在正确的文件夹中。Slack 消息:“每周访客:32,481;热门引荐来源:organic。”你进行了胜利的庆祝。
现在你有一个每周机器人。你可以添加第二个机器人来生成每月摘要,并添加第三个机器人来提醒 Gary from Sales,当他忘记再次标记活动时。(对不起,Gary。)
节省时间的智能技巧
- 记录备用选择器:如果一个站点同时具有“导出”和“下载”,请按优先级顺序捕获两者。
- 通过文本和位置进行锚定:“点击‘每周流量’右侧的按钮。”当类更改时,它非常强大。
- 使用有意义的等待:“等到表格行数 > 0”胜过“等待 4 秒”。
- 验证输出:文件是否为空?列名是否匹配?行数是否在预期范围内?快速失败胜过稍后失败。
- 构建一个小型数据字典:每一列的含义、可接受的范围、日期格式。你会在中断期间感谢自己。
- 拍摄关键页面的快照:当选择器中断时,屏幕截图可帮助你进行修复,而无需重新运行整个流程。
常见陷阱(以及如何避免它们)
- 隐藏元素:如果 Atlas 尝试点击它看不到的内容,请先滚动到视图中,或切换到可见的副本。
- 过于聪明的 CSS:避免脆弱的选择器,例如“div:nth-child(42)”。偏爱 ID、角色和文本。
- 弹出窗口阻止程序:如果一个站点在新标签页中生成一个下载,请让 Atlas 为该站点打开弹出窗口。
- 会话超时:在操作步骤附近安排登录;保持运行时间短;处理“你已被注销”。
- 反机器人墙:有些站点不希望自动化。保持人为的速度和道德。尊重 robots.txt 和服务条款。
数据处理:成为房间里的成年人
- 凭据:使用最小权限帐户。定期轮换令牌。不要在提示中硬编码密码。
- 敏感数据:在日志中屏蔽它。为 PII 字段启用编辑。
- 存储:将导出内容保存在安全、备份的位置。在重要的地方加密。
- 合规性:如果你在医疗保健、金融或教育领域,请在自动化之前与首字母缩略词人员(HIPAA、SOC 2、FERPA)核实。
是的,安全性增加了步骤。但身份盗窃也是如此。
扩大规模:从一个 Agent 到一个小团队
一旦你获得了一个 Agent Mode 工作流程,你就会想要更多。通过采用一些轻量级的结构来避免意大利面条式的混乱:
- 命名约定:“部门-任务-频率”,例如“Mktg-WeeklyTraffic-Mon0900”。
- 可重用的模块:创建一个“登录 Acme”的迷你工作流程,你可以在其他地方导入。
- 中心变量:将共享位——Slack 频道、Drive 根目录——存储在一个地方。
- 版本控制:“v1.4 添加双因素暂停。”在工作流程注释中保留更改日志。
- 运行状况仪表板:一个单页显示上次运行状态、持续时间和下一次计划。即使是电子表格也可以。
你未来的综合自动化平台可能很花哨。你的第一个平台可以整洁而乏味。乏味是好事。
故障排除侧边栏
- “它点击了错误的按钮。”
通过文本、aria-label 或相邻元素添加消除歧义。或者添加一个先前的步骤:“打开‘每周流量’旁边的 kebab 菜单,然后选择‘导出 CSV’。”
- “页面不断重新渲染。”
将等待切换为基于事件的触发器:“等待 role=progressbar 的元素消失”或“等待 XHR ‘/api/report’ 完成。”
- “下载是空的。”
在导出之前验证表格行数;如果为零,则重试。有些站点需要“刷新”或日期范围填充才能填充数据。
- “2FA 毁了一切。”
对于高安全性站点,请考虑受监督的步骤、特定于应用程序的令牌或有时限的会话。或者接受某些任务仍然最好由碳基生命形式完成。
这是一个惊喜:Sider.AI 在这个沙箱中运行良好。如果你的日常工作在浏览器内部——研究供应商、提取竞争情报、总结长页面——Sider 的侧边栏可以在你将其交给 ChatGPT Atlas 中的 Agent Mode 之前,起草提示、总结页面和构建抓取的内容。我最喜欢的技巧:使用 Sider 生成干净的提取规则(“查找 H2‘定价’,然后捕获第一个表格”)并将这些规则直接粘贴为步骤指导。它并不完美,但是当你将其指向它所构建的内容时——整理混乱的网络信息——感觉就像为你机器人聘请了一位编辑。 高级操作:分支、循环和数据连接
一旦你感到舒适,你就可以变得花哨——而无需成为完整的程序员。
- 分支:“如果报告类型为‘每月’,则应用不同的日期范围。”
- 循环:“对于此表中的每一行,打开详细信息,复制 ID,并附加到电子表格。”
- 连接:“针对 Google Sheet 交叉检查抓取的 SKU;跳过已经看到的项目。”
- 限制:“限制为每分钟 30 个操作。”让你对速率限制和站点管理员保持友好。
这些听起来很技术性。它们实际上只是配方:“如果这样,就那样做,重复直到完成。”
何时 Agent Mode 是错误的工具
- 一次性研究,其中每个页面都不同?手动加上 Sider 的摘要器可能会更快。
- 任何需要判断的事情,例如“这看起来像垃圾评论吗?”——你可以自动化分类,但在循环中保留一个人来进行最终调用。
选择你的战斗。在模式枯燥且可重复的地方使用自动化。为你自己保留有趣、灵活、人为的东西。
安全网:让失败也变得乏味
- 断路器:如果在 15 分钟内发生超过 3 次失败,则暂停计划并提醒你。
- 回滚:如果上传失败,则删除部分文件;如果发布失败,则避免重复发布。
- 心跳:每天“我还活着”的 ping,以便你知道你的机器人已唤醒——即使无事可做。
你不需要控制室。你需要一些好的习惯。
你可以窃取的快速入门模板
将此提示框架复制到 ChatGPT Atlas Agent Mode 中,并填写空白:
“目标:每个[weekday]在[time zone/time],登录[site URL],导航到[path],将日期范围设置为[range],导出[format],验证是否存在[columns]并且行数 > [N],然后上传到[storage]在[folder],命名为[filename pattern]。如果导出失败,则重试[count];如果仍然失败,则通过[channel]发出警报。使用首选 aria-label、role 和可见文本的选择器。在继续之前,请等待[spinner/element]消失。在日志中编辑任何 [PII]。”
带着辅助轮运行一次。修复摆动。保存它。安排它。微笑。
总结:你的浏览器,现在有对生拇指
ChatGPT Atlas 中的 Agent Mode 不会帮你报税或遛狗。但它绝对会消除无聊的网络琐事带来的痛苦:导出、上传、复制粘贴、“点击下一步 17 次”之类的废话会偷走你的早晨。从小处开始,描述结果,监督第一次运行,并添加足够的防护措施以保持其弹性。
不久之后,你将拥有一支整洁的浏览器机器人小队。他们不会要求加薪。他们不会请病假。他们会让你有更多的时间来做真正需要你大脑的工作。
最后一件事:为你向团队展示每周报告现在如何自动生成的日子保留一份甜甜圈预算。你将成为英雄。机器人一点也不介意。
常见问题解答
Q1:如何在 ChatGPT Atlas 中启动 Agent Mode 以进行 Web 自动化?
打开 ChatGPT Atlas,启用 Agent Mode,并授予浏览器权限。用简单的英语(而不是每次点击)描述你的目标,然后进行受监督的试运行以纠正步骤,然后再保存工作流程。
Q2:ChatGPT Atlas 中的 Agent Mode 可以处理登录和 2FA 吗?
是的,Agent Mode 可以执行登录并等待页面,但 2FA 通常需要人工操作或应用程序令牌。添加一个条件步骤:在 2FA 上暂停并通知你,然后在你批准后继续。
Q3:哪些类型的 Web 任务最适合 ChatGPT Atlas 中的 Agent Mode?
重复的、可预测的工作流程:导出报告、填写表格、抓取表格和发布摘要。如果站点布局稳定并且你的步骤每周重复,则 Agent Mode 会发光发热。
Q4:如何使我的 Agent Mode 工作流程更可靠?
使用强大的选择器(aria-label、角色、可见文本)、基于事件的等待、重试和明确的验证,例如检查列名或行数。保留日志和版本注释,以便修复只需几分钟,而不是几小时。
Q5:Sider.AI 在 ChatGPT Atlas 的 Agent Mode 中有用吗?
是的——Sider.AI 的侧边栏非常适合起草提示词、总结长页面以及在将任务交给 Agent Mode 之前生成清晰的提取规则。它不是魔法,但对于处理混乱的 Web 信息来说,它是一个有用的副驾驶。