Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 浏览器插件
  • 客户端
  • 价格
立即下载
登录

通过Sider更快学习、更深入思考、更聪明成长。

产品
应用
  • 扩展程序
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 网站生成器New
  • AI PPTNew
  • 写作大师
  • Nano Banana Pro
  • Nano Banana Infographic
  • 图片生成
  • 意大利脑洞
  • 背景移除
  • 背景替换
  • 区域抹除
  • 文字移除
  • 局部重绘
  • 画质提升
  • 创作者
  • 文本翻译
  • 图片翻译
  • PDF翻译
Sider
  • 联系我们
  • 帮助中心
  • 下载
  • 价格
  • 教育优惠
  • 新功能
  • 博客
  • 社区
  • 合作伙伴
  • 联盟
  • 邀请
©2026 版权所有
使用条款
隐私政策
  • 首页
  • 博客
  • AI 工具
  • 观看 Gemini 2.5 自动填写表格:告别点击,轻松完成网页琐事指南

观看 Gemini 2.5 自动填写表格:告别点击,轻松完成网页琐事指南

更新于 2025年10月9日

14 分钟


是否曾希望你的浏览器可以自动帮你填写表格?

想象一下:现在是晚上 11:58。你已经承诺要提交公司自 Netscape 流行以来就一直在使用的费用报销单。你眯着眼睛看着 17 个框——姓名、地址、日期、日期(两种格式!),一个只有精确点击三角形才能工作的下拉菜单。你嘟囔着。你的咖啡叹了口气。你想知道互联网是否已经长大,却忘记带上你。
隆重推出 Gemini 2.5 Computer Use——Google 的模型,在正确的设置下,它可以像一位耐心的助手一样操作你的电脑,它不介意代表你点击、输入、滚动和上传。不仅仅是回答问题,不仅仅是建议按键。我们说的是:它实际上会移动光标,打开网站,登录并填充 Web 表单。
这是否感觉像把你的车钥匙交给一个刚学会开手动挡的朋友?是的。当它工作时,是否会感到奇怪的兴奋?也是的。这就是今天的旅程:如何在 Gemini 2.5 Computer Use 的实际操作中自动化 Web 表单——安全、理智,并且在它认为“提交”按钮实际上是一个装饰性徽标时,会发出一些笑声。
在本实用指南中,我将引导你完成以下内容:
  • “Computer Use”对于 Gemini 2.5 实际意味着什么
  • 如何设置一个可重复且不令人恐惧的表单填写工作流程
  • 一个循序渐进的演示:从 CSV 到已完成的表单
  • 处理棘手字段的技巧(验证码、日期选择器、多步骤向导)
  • 安全性、隐私以及当今 Web 自动化的真实限制
  • 像 Sider.AI 这样的工具如何成为你驯服这场马戏团的指挥中心
全部用通俗易懂的语言。绕道而行,解决你在路上遇到的实际问题。

什么是 Gemini 2.5 Computer Use?把它想象成一个细心的机器人实习生

“Computer Use”是一种模式,其中 Gemini 2.5 不仅仅是生成文本,它还在你的监督下控制浏览器和你的桌面。它可以:
  • 打开网站,导航菜单并点击
  • 输入到输入字段和文本区域(即使是在三个模态框之后弹出的那些)
  • 上传/下载文件
  • 截图并推断它所看到的内容(这就是魔力)
在实际应用中,Gemini 2.5 Computer Use 可以端到端地自动化 Web 表单。你描述任务(“转到此 URL,登录,提交此员工列表的每周里程表”),提供数据,然后它会进行点击和输入。吸引力是什么?不再有来回切换的自动化——从电子表格复制并粘贴到字段中,直到你的灵魂出窍。
但是——这是一个名人级别的“但是”——Web 是一个动物园。表单差异很大。有些需要一位数的月份;另一些则需要挪威语的完整月份名称。这就是为什么你需要一些最佳实践和一个地图,以应对机器人实习生感到困惑的情况。

Gemini 2.5 的正确工作:自动化何时闪耀(以及何时不闪耀)

使用 Gemini 2.5 Computer Use 处理:
  • 重复的内部表单(费用报告、HR 更新、入职、差旅报销)
  • 具有一致布局和可预测字段的供应商门户
  • 数据输入迁移(CSV 到 Web 表单,数据库到 SaaS 应用程序)
  • 路径相同,只有值更改的多记录更新
避免(或准备更多帮助),当:
  • 存在验证码或积极的机器人防御(带有手电筒的保镖)
  • 每次操作都需要双重身份验证
  • 每个记录的页面布局都发生根本变化
  • 可访问性差(未标记的字段,可点击但不是按钮的东西)
经验法则:如果一个细心的人可以有节奏地完成它,那么 Gemini 2.5 通常可以学会它。如果一个细心的人需要猜测每个步骤,那么该模型可能会花费大量时间点击装饰性花纹。

你的入门工具包:工具和准备工作

你将需要:
  • Gemini 可以控制的浏览器(通常是通过安全自动化层控制的 Chrome/Chromium)
  • 如果可能,目标站点的只读凭据(最小权限心态)
  • 一个干净的测试帐户或沙盒环境(这样你就不会意外订购 12,000 个小部件)
  • 你的数据采用整洁的格式(CSV、JSON 或 Google Sheet),其标题与表单标签匹配
  • 表单字段按照它们出现的顺序排列的清单
可选但非常有用:
  • 表单的屏幕截图,其中标签像教练绘制比赛图一样被圈起来
  • 一小组 3-5 个样本行,用于测试运行
  • 一个日志文件,你在其中记录每次运行的状态和任何错误

演练:Gemini 2.5 Computer Use 填写示例费用表

我们将像烹饪节目一样进行此操作。到最后,你已经提交了 40 份表格,并且没有蛋奶酥塌陷。
场景:你的团队提交每周里程报销。Web 表单具有:
  • 员工姓名(文本字段)
  • 截止日期(日期选择器)
  • 总里程(数字)
  • 费率(下拉菜单:0.50、0.58、0.62)
  • 备注(文本区域)
  • 上传:收据(PDF)
  • 提交,然后是一个确认码
你的数据存在于 CSV 中:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
步骤 1:使用上下文启动 Gemini 2.5
  • 提供站点 URL、任何登录步骤以及页面上编写的确切标签。
  • 包括 CSV 标题以及如何将它们映射到字段的说明。
  • 说明当字段缺失或被阻止时该怎么做(例如,跳过行,记录错误)。
示例指令片段: “打开 {URL}。使用测试帐户登录。对于每个 CSV 行,输入 Name → Employee Name,week_ending → Week Ending (YYYY-MM-DD),total_miles → Total Miles,rate → Rate 下拉菜单,notes → Notes,receipt_path → Upload。提交。提交后,复制确认码并将其记录在该行旁边。”
步骤 2:使用一行进行一次试运行
  • 要求 Gemini 缓慢地执行单个记录,并叙述每个动作。像鹰一样注视着它。
  • 确认它选择了正确的下拉菜单,并且没有将备注输入到“总里程”字段中(这种情况会发生!)。
  • 如果日期选择器打开一个日历小部件,请指示:“以 YYYY-MM-DD 格式直接在字段中输入日期;不要单击日历。”
步骤 3:添加防护栏
  • 告诉它如何检测成功:例如,查找“Confirmation”一词和一个像 EXP-#### 这样的代码模式。
  • 告诉它如何检测失败:如果出现“Error”或“Try again”,则截取屏幕截图并跳到下一行。
  • 限制速度:“每次页面加载后等待 500–800 毫秒。如果按钮被禁用,请重新检查必填字段。”
步骤 4:批处理模式
  • 现在你说:“处理接下来的五行。”观察。如果它表现良好,则增加到 20。
  • 保留日志:行号、状态、确认码、屏幕截图路径。
步骤 5:总结
  • 将日志导出为 CSV。让 Gemini 将其粘贴回去或将其保存在你的文件夹中。在门户上抽查几个提交。
你所做的是教会 Gemini 2.5 Computer Use 一种仪式。与脆弱的脚本不同,它看到页面,适应小的 UI 变化,并继续前进。这就像与一位细心的助手一起工作;你展示,然后信任——但你仍然检查工作。

棘手的部分:日期选择器、文件上传、多步骤向导

如何处理 Web 表单中常见的“恶棍”:
  • 日期选择器:指示 Gemini 使用站点接受的格式在输入框中输入日期。如果站点禁止输入,请说:“打开日历,使用左/右箭头导航到正确的月份,然后单击日期。”包括示例:“对于 2025-10-03,选择 2025 年 10 月 3 日。”
  • 数字验证:某些字段拒绝逗号或超过两位小数。澄清:“输入总里程,不带逗号的整数。”如果你看到红色错误文本,请告诉 Gemini 如何清除它。
  • 下拉菜单:许多都是带有隐藏列表的自定义小部件。说:“单击 Rate 下拉菜单;如果选项未打开,请单击 Chevron 图标。选择文本“0.58”。如果不可见,请在下拉列表中滚动。”
  • 文件上传:将 Gemini 指向确切的文件路径。如果出现操作系统对话框,请告诉它在文件名字段中输入路径并按 Enter。如果允许多个文件,请指定它是否应在一个文件后停止。
  • 多步骤表单:告诉 Gemini 等待“Next”按钮变为启用状态。如果页面更改,请通过查找像“Step 2: Details”这样的标题来确认。
  • 验证码和 MFA:你放弃的提示。要求暂停,以便人工可以执行验证码或批准推送通知。然后让 Gemini 恢复。
  • 自动完成弹出窗口:如果浏览器建议气泡与该字段重叠,请指示 Gemini 在输入之前按 Escape。

对速度和准确性的现实检查

Gemini 2.5 Computer Use 不是赛车——它更像是一个非常耐心的骑自行车者,他遵守每一个停车标志。它不会击败一个埋头苦干的人类速度恶魔,但它可以节省你的注意力。更重要的是,它不会在第十个相同的表格上变得马虎。
准确性提示:
  • 从五个记录开始。解决问题。然后缩放。
  • 在每次提交后添加“健全性检查”:确认总计,验证新行是否出现在门户的历史记录页面中。
  • 在源头保持数据清洁:统一日期格式;预先验证数字。
  • 记录一切。如果你无法审核它,你就无法信任它。

安全第一:权限、隐私和边界

将浏览器的控制权交给 AI 就像在杂货店里给你的孩子信用卡一样。设置规则。
  • 使用具有有限的 cookie 和权限的单独浏览器配置文件。
  • 创建一个“最小权限”测试用户——没有管理员访问权限,范围有限。
  • 切勿在提示中以明文形式存储真实密码。如果可用,请使用安全密钥管理器。
  • 如果流程涉及个人数据(SSN、健康详细信息),请首先与你的合规团队清除它。
  • 在测试运行期间记录屏幕或拍摄定期屏幕截图以进行审核。
  • 构建一个大的红色“停止”按钮:该模型始终服从的指令,或者可以停止控制的键盘快捷键。

从电子表格到表单:可重用的提示模板

这是一个可重用的模板,你可以针对 Gemini 2.5 Computer Use 进行调整。复制、调整并保存它以供你的下一个批处理。
“任务:从附件的 CSV 提交费用报销单,网址为 {URL}。
规则:
  1. 叙述行动。慢慢移动。元素最多等待 1.5 秒。
  1. 映射:name → Employee Name;week_ending → Week Ending (直接输入 YYYY-MM-DD);total_miles → Total Miles (整数);rate → Rate 下拉菜单;notes → Notes;receipt_path → Upload。
  1. 成功检查:提交后,捕获确认码(模式 EXP-####)。失败检查:如果出现“Error”或“Try again”,则截取屏幕截图,记录行号和错误文本,然后跳过。
  1. 速度:一次处理 5 行。在每个批处理之后,输出一个 CSV 日志,其中包含列:row、status、confirmation_code、screenshot_path、notes。
  1. 安全:如果要求 MFA 或验证码,请暂停并提醒我。不要继续。
从单个记录开始,并在继续之前等待我的确认。”
这一个提示将 90 分钟的苦工减少到 15 分钟的深思熟虑的监督。

故障排除旁注(因为某些事情会出错)

  • 它在错误的字段中输入:告诉它通过文本邻近性来引用字段标签:“输入到标签“Employee Name”右侧的输入中。”如果缺少标签,请通过占位符文本引用。
  • 按钮不会启用:通常,必填字段为空或空格。告诉 Gemini 验证每个必填字段是否具有非空值,并模糊输入 (Tab) 以触发验证。
  • 今天的页面看起来不同:要求 Gemini 通过扫描标题和常用关键字来重新检测表单。如果布局差异很常见,请为每个版本维护一个简短的“表单配置文件”。
  • 下载空白收据:确保上传步骤在提交之前完成;等待文件名芯片或“uploaded”标签。
  • 门户网站注销你:在记录之间添加一个“keepalive”步骤——刷新会话页面或在 cookie 过期时重新登录。

比较方法:Gemini 2.5 vs 脚本 vs RPA

  • 传统脚本(Selenium、Playwright):速度极快,非常精确,非常脆弱。一个更改的 CSS 类,整个多米诺骨牌运行就会倒塌。非常适合受控应用程序。
  • RPA 平台:功能强大,具有可视化流程图和企业管理。设置可能是一个项目。如果你每天都会使用它,那就太棒了。
  • Gemini 2.5 Computer Use:灵活,关注页面推理。较慢,但不太脆弱。非常适合临时运行、混乱的第三方门户和一次性迁移。
将 Gemini 视为一个多才多艺的零工,他可以走进一个新的办公室,并弄清楚哪个抽屉里藏着回形针——在稍微指导下。

Sider.AI 在哪里适用(并且实际上有所帮助)

这是一个惊喜:Sider.AI 作为这些工作流程的指挥中心,表现非常出色。你可以将你的提示模板、CSV、日志和屏幕截图保存在一个地方——并要求助手将这些步骤拼接在一起。它不会取代 Gemini 2.5 Computer Use 的手动页面控制,但它可以:
  • 像自动化食谱一样存储和版本控制你的提示
  • 将运行日志总结为简单的“谁成功,谁失败,下一步是什么”报告
  • 当门户更改时,生成量身定制的故障排除提示
  • 帮助你将混乱的电子表格转换为干净的、可用于自动化的 CSV
一起使用时,Sider.AI 是剪贴板和剧本;Gemini 2.5 是现场四分卫。

高级操作:条件逻辑、分支和验证

一旦你信任基础知识,就添加智能:
  • 分支:“如果 Rate 下拉菜单缺少所需的选项,请选择最接近的匹配项≥请求费率;否则,标记该行。”
  • 条件附件:“仅当 total_miles ≥ 50 时才上传收据;否则,留空。”
  • 派生字段:“计算报销 = total_miles × rate;验证门户网站的计算总计是否在 0.01 美元范围内匹配;如果不匹配,则屏幕截图并跳过。”
  • 跨页面验证:提交后,打开“历史记录”,找到今天的条目,并验证姓名和总计是否与 CSV 匹配。
这些检查将一个有趣的演示转变为你的经理认可的东西。

一个快速绕道:安全剧院与真正的保护

你将遇到使用难题、单击和拖动滑块或值得霍比特人的弹出谜语的门户网站。有些是真正的机器人防御;有些是页面化妆。不要与好的战斗。计划一个人在循环中暂停。让 Gemini 宣布:“检测到验证码——准备好你的帮助”,然后恢复。
真正的保护来自你的设置:单独的配置文件、有限的权限、审核日志和明确的停止条件。

衡量成功:什么是“好”的样子

使用 Gemini 2.5 Computer Use 的健康的 Web 表单自动化如下所示:
  • 95%+ 的行在没有手动调整的情况下进行处理
  • 错误是可预测的并且已记录(日期不匹配,缺少文件)
  • 你可以从上次失败的行重新运行,而无需触摸较早的行
  • 人类可以审核屏幕截图和日志,以准确了解发生了什么
当你达到这些标记时,你已经将苦工转换为整洁、可审查的工作流程。

迷你剧本:从零到“提交”的 12 个步骤

  1. 确定你每周执行的单个无聊表单。
  1. 清理你的数据。日期、数字、文件路径。
  1. 如果可用,创建一个测试帐户和一个沙箱。
  1. 在受控浏览器配置文件中打开 Gemini 2.5 Computer Use。
  1. 描述表单并提供字段映射。
  1. 运行一个记录——慢动作,叙述,你的眼睛盯着它。
  1. 添加成功和失败检查。
  1. 在任何异常情况下构建批处理日志和屏幕截图。
  1. 处理五个记录;然后是二十个。
  1. 添加小的防护栏(Escape 关闭自动完成;直接输入日期)。
  1. 导出日志;在门户的历史记录中进行抽查。
  1. 保存你的提示和数据结构以备下周使用。未来的你将给你写一张感谢信。

最后一件事:不要与页面作斗争——教页面给你

Web 喜欢保守秘密。按钮隐藏在图标后面;字段会等你单击离开时才责骂你。Gemini 2.5 Computer Use 并没有神奇地修复 Web——它耐心地学习它。胜利不是速度;它是宁静。你收回了一个小时,你曾经花在通过盒子进行制表上,而是花时间决定备注应该说“Client visits in Zone B”还是更冒险的“Zone B extravaganza”。
因此,选择一个表单。将 Gemini 2.5 Computer Use 放在驾驶员座位上——系好安全带——让它进行点击。当确认码弹出并且没有人需要摆动下拉菜单时,你会觉得互联网为 2007 年的日期选择器道歉了。

主要收获

  • Gemini 2.5 Computer Use 可以通过像细心的助手一样查看和操作你的页面来自动化 Web 表单。
  • 从小处着手,增加防护措施,只有在一切变得平淡无奇(以一种好的方式)时才进行扩展。
  • 使用清晰的数据、明确的字段映射以及成功/失败检查。
  • 接受验证码和MFA是人机交互的时刻。
  • 与 Sider.AI 搭配使用,以管理提示、日志和清理——就像剪贴板之于Gemini的双手。
现在去教训一下那个表格,让它知道谁才是老大。或者说,谁在礼貌地委派任务。

常见问题解答

问题1:用通俗易懂的语言解释一下 Gemini 2.5 的计算机使用模式是什么? 这是一种 Gemini 能够实际控制您的浏览器的模式——点击、输入、上传——因此它可以自动化 Web 表单。把它想象成一个听从您的指示并叙述动作的小心翼翼的实习生。
问题2:Gemini 2.5 真的可以自动执行包含文件上传和日期选择器的 Web 表单吗? 是的,只要有清晰的指示。告诉它直接输入日期,明确处理“费率”下拉列表,并将文件路径粘贴到上传对话框中——这些细节至关重要。
问题3:如何确保 Web 表单自动化安全合规? 使用单独的浏览器配置文件、最小权限帐户,以及每次运行的日志。避免在提示中放入密码;暂停处理验证码和 MFA,然后继续。
问题4:Gemini 2.5 比 Selenium 等传统脚本更快吗? 通常不是,但它更适应混乱的页面和一次性作业。脚本速度更快但更脆弱;Gemini 速度较慢,但在网站 CSS 发生变化时不太可能崩溃。
问题5:Sider.AI 在此工作流程中如何提供帮助? Sider.AI 可以存储您的提示、清理您的 CSV 文件、总结日志并生成故障排除技巧。在 Gemini 执行点击操作时,它是您自动化剧本的组织者和主编。

最近文章
如何掌握 ChatPDF:快速洞察密集文档

如何掌握 ChatPDF:快速洞察密集文档

快速、精准文档的最佳X自动翻译替代方案

快速、精准文档的最佳X自动翻译替代方案

三星AI翻译在伊朗无法使用?实用解决方法

三星AI翻译在伊朗无法使用?实用解决方法

波斯语翻译工具:实现更快更准确工作的实用指南

波斯语翻译工具:实现更快更准确工作的实用指南

深度、有引用研究的最佳Grok替代方案

深度、有引用研究的最佳Grok替代方案

你真正会用的AI图像生成器15大功能

你真正会用的AI图像生成器15大功能