是否曾希望你的浏览器可以自动帮你填写表格?
想象一下:现在是晚上 11:58。你已经承诺要提交公司自 Netscape 流行以来就一直在使用的费用报销单。你眯着眼睛看着 17 个框——姓名、地址、日期、日期(两种格式!),一个只有精确点击三角形才能工作的下拉菜单。你嘟囔着。你的咖啡叹了口气。你想知道互联网是否已经长大,却忘记带上你。
隆重推出 Gemini 2.5 Computer Use——Google 的模型,在正确的设置下,它可以像一位耐心的助手一样操作你的电脑,它不介意代表你点击、输入、滚动和上传。不仅仅是回答问题,不仅仅是建议按键。我们说的是:它实际上会移动光标,打开网站,登录并填充 Web 表单。
这是否感觉像把你的车钥匙交给一个刚学会开手动挡的朋友?是的。当它工作时,是否会感到奇怪的兴奋?也是的。这就是今天的旅程:如何在 Gemini 2.5 Computer Use 的实际操作中自动化 Web 表单——安全、理智,并且在它认为“提交”按钮实际上是一个装饰性徽标时,会发出一些笑声。
在本实用指南中,我将引导你完成以下内容:
- “Computer Use”对于 Gemini 2.5 实际意味着什么
- 处理棘手字段的技巧(验证码、日期选择器、多步骤向导)
全部用通俗易懂的语言。绕道而行,解决你在路上遇到的实际问题。
什么是 Gemini 2.5 Computer Use?把它想象成一个细心的机器人实习生
“Computer Use”是一种模式,其中 Gemini 2.5 不仅仅是生成文本,它还在你的监督下控制浏览器和你的桌面。它可以:
- 输入到输入字段和文本区域(即使是在三个模态框之后弹出的那些)
在实际应用中,Gemini 2.5 Computer Use 可以端到端地自动化 Web 表单。你描述任务(“转到此 URL,登录,提交此员工列表的每周里程表”),提供数据,然后它会进行点击和输入。吸引力是什么?不再有来回切换的自动化——从电子表格复制并粘贴到字段中,直到你的灵魂出窍。
但是——这是一个名人级别的“但是”——Web 是一个动物园。表单差异很大。有些需要一位数的月份;另一些则需要挪威语的完整月份名称。这就是为什么你需要一些最佳实践和一个地图,以应对机器人实习生感到困惑的情况。
Gemini 2.5 的正确工作:自动化何时闪耀(以及何时不闪耀)
使用 Gemini 2.5 Computer Use 处理:
- 重复的内部表单(费用报告、HR 更新、入职、差旅报销)
- 数据输入迁移(CSV 到 Web 表单,数据库到 SaaS 应用程序)
避免(或准备更多帮助),当:
- 可访问性差(未标记的字段,可点击但不是按钮的东西)
经验法则:如果一个细心的人可以有节奏地完成它,那么 Gemini 2.5 通常可以学会它。如果一个细心的人需要猜测每个步骤,那么该模型可能会花费大量时间点击装饰性花纹。
你的入门工具包:工具和准备工作
你将需要:
- Gemini 可以控制的浏览器(通常是通过安全自动化层控制的 Chrome/Chromium)
- 一个干净的测试帐户或沙盒环境(这样你就不会意外订购 12,000 个小部件)
- 你的数据采用整洁的格式(CSV、JSON 或 Google Sheet),其标题与表单标签匹配
可选但非常有用:
- 表单的屏幕截图,其中标签像教练绘制比赛图一样被圈起来
- 一个日志文件,你在其中记录每次运行的状态和任何错误
演练:Gemini 2.5 Computer Use 填写示例费用表
我们将像烹饪节目一样进行此操作。到最后,你已经提交了 40 份表格,并且没有蛋奶酥塌陷。
场景:你的团队提交每周里程报销。Web 表单具有:
你的数据存在于 CSV 中:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
步骤 1:使用上下文启动 Gemini 2.5
- 提供站点 URL、任何登录步骤以及页面上编写的确切标签。
- 包括 CSV 标题以及如何将它们映射到字段的说明。
- 说明当字段缺失或被阻止时该怎么做(例如,跳过行,记录错误)。
示例指令片段:
“打开 {URL}。使用测试帐户登录。对于每个 CSV 行,输入 Name → Employee Name,week_ending → Week Ending (YYYY-MM-DD),total_miles → Total Miles,rate → Rate 下拉菜单,notes → Notes,receipt_path → Upload。提交。提交后,复制确认码并将其记录在该行旁边。”
步骤 2:使用一行进行一次试运行
- 要求 Gemini 缓慢地执行单个记录,并叙述每个动作。像鹰一样注视着它。
- 确认它选择了正确的下拉菜单,并且没有将备注输入到“总里程”字段中(这种情况会发生!)。
- 如果日期选择器打开一个日历小部件,请指示:“以 YYYY-MM-DD 格式直接在字段中输入日期;不要单击日历。”
步骤 3:添加防护栏
- 告诉它如何检测成功:例如,查找“Confirmation”一词和一个像 EXP-#### 这样的代码模式。
- 告诉它如何检测失败:如果出现“Error”或“Try again”,则截取屏幕截图并跳到下一行。
- 限制速度:“每次页面加载后等待 500–800 毫秒。如果按钮被禁用,请重新检查必填字段。”
步骤 4:批处理模式
- 现在你说:“处理接下来的五行。”观察。如果它表现良好,则增加到 20。
步骤 5:总结
- 将日志导出为 CSV。让 Gemini 将其粘贴回去或将其保存在你的文件夹中。在门户上抽查几个提交。
你所做的是教会 Gemini 2.5 Computer Use 一种仪式。与脆弱的脚本不同,它看到页面,适应小的 UI 变化,并继续前进。这就像与一位细心的助手一起工作;你展示,然后信任——但你仍然检查工作。
棘手的部分:日期选择器、文件上传、多步骤向导
如何处理 Web 表单中常见的“恶棍”:
- 日期选择器:指示 Gemini 使用站点接受的格式在输入框中输入日期。如果站点禁止输入,请说:“打开日历,使用左/右箭头导航到正确的月份,然后单击日期。”包括示例:“对于 2025-10-03,选择 2025 年 10 月 3 日。”
- 数字验证:某些字段拒绝逗号或超过两位小数。澄清:“输入总里程,不带逗号的整数。”如果你看到红色错误文本,请告诉 Gemini 如何清除它。
- 下拉菜单:许多都是带有隐藏列表的自定义小部件。说:“单击 Rate 下拉菜单;如果选项未打开,请单击 Chevron 图标。选择文本“0.58”。如果不可见,请在下拉列表中滚动。”
- 文件上传:将 Gemini 指向确切的文件路径。如果出现操作系统对话框,请告诉它在文件名字段中输入路径并按 Enter。如果允许多个文件,请指定它是否应在一个文件后停止。
- 多步骤表单:告诉 Gemini 等待“Next”按钮变为启用状态。如果页面更改,请通过查找像“Step 2: Details”这样的标题来确认。
- 验证码和 MFA:你放弃的提示。要求暂停,以便人工可以执行验证码或批准推送通知。然后让 Gemini 恢复。
- 自动完成弹出窗口:如果浏览器建议气泡与该字段重叠,请指示 Gemini 在输入之前按 Escape。
对速度和准确性的现实检查
Gemini 2.5 Computer Use 不是赛车——它更像是一个非常耐心的骑自行车者,他遵守每一个停车标志。它不会击败一个埋头苦干的人类速度恶魔,但它可以节省你的注意力。更重要的是,它不会在第十个相同的表格上变得马虎。
准确性提示:
- 在每次提交后添加“健全性检查”:确认总计,验证新行是否出现在门户的历史记录页面中。
安全第一:权限、隐私和边界
将浏览器的控制权交给 AI 就像在杂货店里给你的孩子信用卡一样。设置规则。
- 使用具有有限的 cookie 和权限的单独浏览器配置文件。
- 创建一个“最小权限”测试用户——没有管理员访问权限,范围有限。
- 切勿在提示中以明文形式存储真实密码。如果可用,请使用安全密钥管理器。
- 如果流程涉及个人数据(SSN、健康详细信息),请首先与你的合规团队清除它。
- 在测试运行期间记录屏幕或拍摄定期屏幕截图以进行审核。
- 构建一个大的红色“停止”按钮:该模型始终服从的指令,或者可以停止控制的键盘快捷键。
从电子表格到表单:可重用的提示模板
这是一个可重用的模板,你可以针对 Gemini 2.5 Computer Use 进行调整。复制、调整并保存它以供你的下一个批处理。
“任务:从附件的 CSV 提交费用报销单,网址为 {URL}。
规则:
- 映射:name → Employee Name;week_ending → Week Ending (直接输入 YYYY-MM-DD);total_miles → Total Miles (整数);rate → Rate 下拉菜单;notes → Notes;receipt_path → Upload。
- 成功检查:提交后,捕获确认码(模式 EXP-####)。失败检查:如果出现“Error”或“Try again”,则截取屏幕截图,记录行号和错误文本,然后跳过。
- 速度:一次处理 5 行。在每个批处理之后,输出一个 CSV 日志,其中包含列:row、status、confirmation_code、screenshot_path、notes。
- 安全:如果要求 MFA 或验证码,请暂停并提醒我。不要继续。
从单个记录开始,并在继续之前等待我的确认。”
这一个提示将 90 分钟的苦工减少到 15 分钟的深思熟虑的监督。
故障排除旁注(因为某些事情会出错)
- 它在错误的字段中输入:告诉它通过文本邻近性来引用字段标签:“输入到标签“Employee Name”右侧的输入中。”如果缺少标签,请通过占位符文本引用。
- 按钮不会启用:通常,必填字段为空或空格。告诉 Gemini 验证每个必填字段是否具有非空值,并模糊输入 (Tab) 以触发验证。
- 今天的页面看起来不同:要求 Gemini 通过扫描标题和常用关键字来重新检测表单。如果布局差异很常见,请为每个版本维护一个简短的“表单配置文件”。
- 下载空白收据:确保上传步骤在提交之前完成;等待文件名芯片或“uploaded”标签。
- 门户网站注销你:在记录之间添加一个“keepalive”步骤——刷新会话页面或在 cookie 过期时重新登录。
比较方法:Gemini 2.5 vs 脚本 vs RPA
- 传统脚本(Selenium、Playwright):速度极快,非常精确,非常脆弱。一个更改的 CSS 类,整个多米诺骨牌运行就会倒塌。非常适合受控应用程序。
- RPA 平台:功能强大,具有可视化流程图和企业管理。设置可能是一个项目。如果你每天都会使用它,那就太棒了。
- Gemini 2.5 Computer Use:灵活,关注页面推理。较慢,但不太脆弱。非常适合临时运行、混乱的第三方门户和一次性迁移。
将 Gemini 视为一个多才多艺的零工,他可以走进一个新的办公室,并弄清楚哪个抽屉里藏着回形针——在稍微指导下。
Sider.AI 在哪里适用(并且实际上有所帮助)
这是一个惊喜:Sider.AI 作为这些工作流程的指挥中心,表现非常出色。你可以将你的提示模板、CSV、日志和屏幕截图保存在一个地方——并要求助手将这些步骤拼接在一起。它不会取代 Gemini 2.5 Computer Use 的手动页面控制,但它可以: - 将运行日志总结为简单的“谁成功,谁失败,下一步是什么”报告
- 帮助你将混乱的电子表格转换为干净的、可用于自动化的 CSV
一起使用时,Sider.AI 是剪贴板和剧本;Gemini 2.5 是现场四分卫。 高级操作:条件逻辑、分支和验证
一旦你信任基础知识,就添加智能:
- 分支:“如果 Rate 下拉菜单缺少所需的选项,请选择最接近的匹配项≥请求费率;否则,标记该行。”
- 条件附件:“仅当 total_miles ≥ 50 时才上传收据;否则,留空。”
- 派生字段:“计算报销 = total_miles × rate;验证门户网站的计算总计是否在 0.01 美元范围内匹配;如果不匹配,则屏幕截图并跳过。”
- 跨页面验证:提交后,打开“历史记录”,找到今天的条目,并验证姓名和总计是否与 CSV 匹配。
这些检查将一个有趣的演示转变为你的经理认可的东西。
一个快速绕道:安全剧院与真正的保护
你将遇到使用难题、单击和拖动滑块或值得霍比特人的弹出谜语的门户网站。有些是真正的机器人防御;有些是页面化妆。不要与好的战斗。计划一个人在循环中暂停。让 Gemini 宣布:“检测到验证码——准备好你的帮助”,然后恢复。
真正的保护来自你的设置:单独的配置文件、有限的权限、审核日志和明确的停止条件。
衡量成功:什么是“好”的样子
使用 Gemini 2.5 Computer Use 的健康的 Web 表单自动化如下所示:
当你达到这些标记时,你已经将苦工转换为整洁、可审查的工作流程。
迷你剧本:从零到“提交”的 12 个步骤
- 在受控浏览器配置文件中打开 Gemini 2.5 Computer Use。
- 添加小的防护栏(Escape 关闭自动完成;直接输入日期)。
- 保存你的提示和数据结构以备下周使用。未来的你将给你写一张感谢信。
最后一件事:不要与页面作斗争——教页面给你
Web 喜欢保守秘密。按钮隐藏在图标后面;字段会等你单击离开时才责骂你。Gemini 2.5 Computer Use 并没有神奇地修复 Web——它耐心地学习它。胜利不是速度;它是宁静。你收回了一个小时,你曾经花在通过盒子进行制表上,而是花时间决定备注应该说“Client visits in Zone B”还是更冒险的“Zone B extravaganza”。
因此,选择一个表单。将 Gemini 2.5 Computer Use 放在驾驶员座位上——系好安全带——让它进行点击。当确认码弹出并且没有人需要摆动下拉菜单时,你会觉得互联网为 2007 年的日期选择器道歉了。
主要收获
- Gemini 2.5 Computer Use 可以通过像细心的助手一样查看和操作你的页面来自动化 Web 表单。
- 从小处着手,增加防护措施,只有在一切变得平淡无奇(以一种好的方式)时才进行扩展。
- 使用清晰的数据、明确的字段映射以及成功/失败检查。
- 与 Sider.AI 搭配使用,以管理提示、日志和清理——就像剪贴板之于Gemini的双手。
现在去教训一下那个表格,让它知道谁才是老大。或者说,谁在礼貌地委派任务。
常见问题解答
问题1:用通俗易懂的语言解释一下 Gemini 2.5 的计算机使用模式是什么?
这是一种 Gemini 能够实际控制您的浏览器的模式——点击、输入、上传——因此它可以自动化 Web 表单。把它想象成一个听从您的指示并叙述动作的小心翼翼的实习生。
问题2:Gemini 2.5 真的可以自动执行包含文件上传和日期选择器的 Web 表单吗?
是的,只要有清晰的指示。告诉它直接输入日期,明确处理“费率”下拉列表,并将文件路径粘贴到上传对话框中——这些细节至关重要。
问题3:如何确保 Web 表单自动化安全合规?
使用单独的浏览器配置文件、最小权限帐户,以及每次运行的日志。避免在提示中放入密码;暂停处理验证码和 MFA,然后继续。
问题4:Gemini 2.5 比 Selenium 等传统脚本更快吗?
通常不是,但它更适应混乱的页面和一次性作业。脚本速度更快但更脆弱;Gemini 速度较慢,但在网站 CSS 发生变化时不太可能崩溃。
问题5:Sider.AI 在此工作流程中如何提供帮助?
Sider.AI 可以存储您的提示、清理您的 CSV 文件、总结日志并生成故障排除技巧。在 Gemini 执行点击操作时,它是您自动化剧本的组织者和主编。