Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 瀏覽器插件
  • 客户端
  • 定價
立即下載
登入

透過 Sider 更快學習、更深入思考、更聰明成長。

產品
應用程式
  • 擴充功能
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 網站產生器New
  • AI 投影片New
  • AI 論文寫作
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI 圖像生成器
  • 意大利腦洞
  • 背景移除器
  • 背景更換器
  • 照片橡皮擦
  • 文字移除器
  • 修補
  • 圖像升級器
  • 創建
  • AI 翻譯器
  • 圖像翻譯器
  • PDF 翻譯器
Sider
  • 聯絡我們
  • 幫助中心
  • 下載
  • 定價
  • 教育優惠
  • 最新消息
  • 部落格
  • 社群
  • 合作夥伴
  • 聯盟
  • 邀請
©2026 版權所有
使用條款
隱私政策
  • 首頁
  • 部落格
  • AI 工具
  • 觀看 Gemini 2.5 填寫您的表單:一個免點擊完成網頁雜務的愉快指南

觀看 Gemini 2.5 填寫您的表單:一個免點擊完成網頁雜務的愉快指南

更新於 2025年10月9日

14 分鐘


是否曾經希望您的瀏覽器可以...直接幫您填寫表單?

想像一下:現在是晚上 11:58。您已承諾提交貴公司自 Netscape 流行以來一直使用的同一份費用報銷單。您瞇著眼睛看著 17 個框格——姓名、地址、日期、再次輸入日期(兩種格式!),一個只有點擊三角形才能運作的下拉選單。您喃喃自語。您的咖啡嘆了口氣。您懷疑網際網路是否長大後忘記帶您一起走。
隆重推出 Gemini 2.5 Computer Use——Google 模型,在正確的設定下,它可以像一位有耐心的助理一樣操作您的電腦,它不介意代表您點擊、輸入、滾動和上傳。不僅僅是回答問題,不僅僅是建議按鍵。我們說的是:它實際上會移動游標、開啟網站、登入並填寫網路表單。
感覺像是把您的汽車鑰匙交給一位剛學會開手排擋的朋友嗎?是的。當它運作時是否異常令人興奮?也是的。而這就是今天的旅程:如何在 Gemini 2.5 Computer Use 的實際操作中自動化網路表單——安全、理智,並且在它認為「提交」按鈕實際上是一個裝飾性標誌時,還能發出幾聲笑聲。
在本實用指南中,我將引導您了解:
  • 「Computer Use」對 Gemini 2.5 實際意味著什麼
  • 如何設定一個可重複且不令人恐懼的表單填寫工作流程
  • 逐步示範:從 CSV 到填寫完成的表單
  • 處理棘手欄位的技巧(驗證碼、日期選擇器、多步驟精靈)
  • 安全性、隱私性以及當今網路自動化的非常真實的限制
  • 像 Sider.AI 這樣的工具如何成為您馴服這個混亂場面的指揮中心
全部以簡單易懂的方式呈現。並繞道介紹您在實際應用中會遇到的真正陷阱。

什麼是 Gemini 2.5 Computer Use?將其視為一位細心的機器人實習生

「Computer Use」是一種模式,Gemini 2.5 不僅僅是生成文字,它還會在您的監督下控制瀏覽器和您的桌面。它可以:
  • 開啟網站、瀏覽選單並點擊
  • 在輸入欄位和文字區域中輸入(即使是在彈出三個模態視窗後出現的那些)
  • 上傳/下載檔案
  • 截取螢幕截圖並推理它所看到的內容(這就是魔法)
實際上,Gemini 2.5 Computer Use 可以端到端地自動化網路表單。您描述任務(「前往此 URL,登入,提交此員工列表的每週里程表單」),給它資料,它會執行點擊和輸入。吸引力在哪裡?不再需要來回複製貼上的操作——從試算表複製並貼到欄位中,直到您的靈魂離開您的身體。
但是——這是一個非常大的但是——網路是一個動物園。表單差異很大。有些需要一位數的月份;另一些則需要挪威語的完整月份名稱。這就是為什麼您需要一些最佳實踐和一張地圖,以應對機器人實習生感到困惑的情況。

Gemini 2.5 的正確工作:自動化發光之處(以及不發光之處)

使用 Gemini 2.5 Computer Use 處理:
  • 重複的內部表單(費用報告、人力資源更新、入職、差旅報銷)
  • 具有一致佈局和可預測欄位的供應商入口網站
  • 資料輸入遷移(CSV 到網路表單,資料庫到 SaaS 應用程式)
  • 路徑相同的多記錄更新;只有值會變更
避免(或準備更多的手動操作):
  • 存在驗證碼或激進的機器人防禦(帶手電筒的保鑣)
  • 每次操作都需要雙重驗證
  • 頁面佈局根據每條記錄而發生根本性變化
  • 可訪問性差(未標記的欄位、可點擊但不是按鈕的東西)
經驗法則:如果一位細心的人可以有節奏地完成它,Gemini 2.5 通常可以學會它。如果一位細心的人需要猜測每個步驟,則該模型可能會花費大量時間點擊裝飾性花樣。

您的入門工具包:工具和準備

您會需要:
  • Gemini 可以控制的瀏覽器(通常是透過安全自動化層的 Chrome/Chromium)
  • 如果可能,目標網站的唯讀憑證(最小權限心態)
  • 一個乾淨的測試帳戶或沙箱環境(這樣您就不會意外訂購 12,000 個小部件)
  • 您的資料採用整潔的格式(CSV、JSON 或 Google Sheet),標頭與表單標籤匹配
  • 表單欄位按出現順序排列的清單
可選但非常有幫助:
  • 表單的螢幕截圖,標籤像教練繪製戰術圖一樣被圈起來
  • 一小組 3-5 個範例列以進行測試
  • 一個日誌檔案,您可以在其中記錄每次執行的狀態和任何錯誤

演練:Gemini 2.5 Computer Use 填寫範例費用表單

我們將像烹飪節目一樣進行。到最後,您已提交 40 個表單,並且沒有任何蛋奶酥塌陷。
情境:您的團隊提交每週里程報銷。網路表單具有:
  • 員工姓名(文字欄位)
  • 截止週(日期選擇器)
  • 總里程數(數字)
  • 費率(下拉選單:0.50、0.58、0.62)
  • 備註(文字區域)
  • 上傳:收據 (PDF)
  • 提交,然後是確認碼
您的資料位於 CSV 中:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
步驟 1:使用上下文啟動 Gemini 2.5
  • 提供網站 URL、任何登入步驟以及頁面上撰寫的確切標籤。
  • 包含 CSV 標頭以及如何將其對應到欄位的描述。
  • 說明在欄位遺失或被封鎖時該怎麼做(例如,跳過列、記錄錯誤)。
範例指令片段: 「開啟 使用測試帳戶登入。對於每個 CSV 列,輸入 Name → Employee Name,week_ending → Week Ending (YYYY-MM-DD),total_miles → Total Miles,rate → Rate 下拉選單,notes → Notes,receipt_path → Upload。提交。提交後,複製確認碼並將其記錄在該列旁邊。」
步驟 2:使用單一列進行一次試運行
  • 要求 Gemini 執行單一記錄,緩慢地,並敘述每個動作。像老鷹一樣盯著它。
  • 確認它選擇了正確的下拉選單,並且不會將備註輸入到「Total Miles」欄位中(這是會發生的!)。
  • 如果日期選擇器開啟了日曆小工具,請指示:「直接在欄位中輸入 YYYY-MM-DD 格式的日期;不要點擊日曆。」
步驟 3:新增防護措施
  • 告訴它如何檢測成功:例如,尋找「Confirmation」一詞和 EXP-#### 之類的代碼模式。
  • 告訴它如何檢測失敗:如果出現「Error」或「Try again」,請截取螢幕截圖並跳到下一列。
  • 限制速度:「每次頁面載入後等待 500–800 毫秒。如果按鈕被停用,請重新檢查必填欄位。」
步驟 4:批次模式
  • 現在您可以說:「處理下五列。」觀察。如果它的行為正常,則增加到 20。
  • 保留日誌:列號、狀態、確認碼、螢幕截圖路徑。
步驟 5:總結
  • 將日誌匯出為 CSV。讓 Gemini 將其貼回或將其儲存在您的資料夾中。在入口網站上抽查一些提交。
您所做的是教 Gemini 2.5 Computer Use 一種儀式。與脆弱的腳本不同,它可以查看頁面、適應小的 UI 變化並繼續執行。這就像與一位細心的助理一起工作;您展示,然後信任——但您仍然會檢查工作。

棘手的部分:日期選擇器、檔案上傳、多步驟精靈

如何處理網路表單中的常見問題:
  • 日期選擇器:指示 Gemini 使用網站接受的格式在輸入框中輸入日期。如果網站禁止輸入,請說:「開啟日曆,使用向左/向右箭頭導航到正確的月份,然後點擊日期。」包括範例:「對於 2025-10-03,選擇 2025 年 10 月 3 日。」
  • 數字驗證:某些欄位拒絕逗號或超過兩位小數。澄清:「輸入 Total Miles 作為不帶逗號的整數。」如果您看到紅色錯誤文字,請告訴 Gemini 如何清除它。
  • 下拉選單:許多是帶有隱藏列表的自訂小工具。說:「點擊 Rate 下拉選單;如果選項未開啟,請點擊 chevron 圖示。選擇文字「0.58」。如果不可見,請在下拉式清單中滾動。」
  • 檔案上傳:將 Gemini 指向確切的檔案路徑。如果出現作業系統對話方塊,請告訴它在檔案名稱欄位中輸入路徑並按 Enter。如果允許多個檔案,請指定是否應在一個檔案後停止。
  • 多步驟表單:告訴 Gemini 等待「Next」按鈕啟用。如果頁面變更,請透過尋找「Step 2: Details」之類的標題來確認。
  • 驗證碼和 MFA:是時候放棄了。要求暫停,以便人類可以執行驗證碼或批准推播通知。然後讓 Gemini 恢復。
  • 自動完成彈出視窗:如果瀏覽器建議泡泡重疊該欄位,請指示 Gemini 在輸入之前按 Escape。

對速度和準確性的現實檢查

Gemini 2.5 Computer Use 不是賽車——它更像是一位非常耐心的自行車手,他遵守每個停止標誌。它不會擊敗一位全速前進的人類,但它可以節省您的注意力。更重要的是,它不會在第十個相同的表單上變得草率。
準確性提示:
  • 從五條記錄開始。修正問題。然後縮放。
  • 在每次提交後新增「健全性檢查」:確認總數,驗證新列是否出現在入口網站的歷史記錄頁面中。
  • 保持來源資料的整潔:統一日期格式;預先驗證數字。
  • 記錄一切。如果您無法稽核它,您就無法信任它。

安全第一:權限、隱私和界限

將瀏覽器的控制權交給 AI 就像在雜貨店裡給您的孩子您的信用卡一樣。設定規則。
  • 使用具有有限 Cookie 和權限的單獨瀏覽器設定檔。
  • 建立一個「最小權限」測試使用者——沒有管理員存取權限,範圍有限。
  • 切勿在提示中以純文字儲存真實密碼。如果可用,請使用安全密碼管理器。
  • 如果流程涉及個人資料(SSN、健康詳細資訊),請先與您的合規團隊確認。
  • 在測試執行期間記錄螢幕或定期截取螢幕截圖以進行稽核。
  • 建立一個大的紅色「Stop」按鈕:模型始終遵守的指令,或停止控制的鍵盤快速鍵。

從試算表到表單:可重複使用的提示範本

這是一個可重複使用的範本,您可以針對 Gemini 2.5 Computer Use 進行調整。複製、調整並儲存它以用於您的下一個批次。
「任務:從附加的 CSV 提交費用表單,網址為
規則:
  1. 敘述動作。移動緩慢。元素最多等待 1.5 秒。
  1. 對應:name → Employee Name;week_ending → Week Ending(直接輸入 YYYY-MM-DD);total_miles → Total Miles(整數);rate → Rate 下拉選單;notes → Notes;receipt_path → Upload。
  1. 成功檢查:提交後,捕獲確認碼(模式 EXP-####)。失敗檢查:如果出現「Error」或「Try again」,請截取螢幕截圖,記錄列號和錯誤文字,然後跳過。
  1. 速度:一次處理 5 列。在每個批次之後,輸出一個 CSV 日誌,其中包含欄位:row、status、confirmation_code、screenshot_path、notes。
  1. 安全:如果要求 MFA 或驗證碼,請暫停並通知我。不要繼續。
從單一記錄開始,並在繼續之前等待我的確認。」
這一個提示可將 90 分鐘的苦工減少到 15 分鐘的周全監督。

疑難排解側邊備註(因為某些事情會出錯)

  • 它在錯誤的欄位中輸入:告訴它透過文字鄰近性來引用欄位標籤:「輸入到標籤「Employee Name」右側的輸入欄位中。」如果標籤遺失,則透過佔位符文字來引用。
  • 按鈕無法啟用:通常必填欄位為空或包含空白字元。告訴 Gemini 驗證每個必填欄位是否具有非空值,並模糊輸入(Tab)以觸發驗證。
  • 今天的頁面看起來不同:要求 Gemini 透過掃描標題和常見關鍵字來重新偵測表單。如果版面配置差異很常見,請為每個版本維護一個簡短的「表單設定檔」。
  • 下載空白收據:確保上傳步驟在提交之前完成;等待檔案名稱晶片或「已上傳」標籤。
  • 入口網站將您登出:在記錄之間新增一個「keepalive」步驟——在 Cookie 過期時重新整理工作階段頁面或重新登入。

比較方法:Gemini 2.5 vs 腳本 vs RPA

  • 傳統腳本(Selenium、Playwright):速度極快,非常精確,非常脆弱。一個變更的 CSS 類別和整個多米諾骨牌效應都會崩潰。非常適合受控應用程式。
  • RPA 平台:功能強大,具有視覺化流程圖和企業治理。設定可能是一個專案。如果您每天都會使用它,那就太棒了。
  • Gemini 2.5 Computer Use:彈性、頁面上的推理。速度較慢,但不太脆弱。非常適合臨時執行、混亂的第三方入口網站和一次性遷移。
將 Gemini 視為一位多才多藝的零工,他可以走進一家新辦公室,並在稍加指導下找出哪個抽屜裡藏著迴紋針。

Sider.AI 的作用(以及實際幫助)

這是一個驚喜:Sider.AI 作為這些工作流程的指揮中心,表現得非常出色。您可以將您的提示範本、您的 CSV、您的日誌和您的螢幕截圖保存在一個地方——並要求助手將這些步驟組合在一起。它不會取代 Gemini 2.5 Computer Use 的手動頁面控制,但它可以:
  • 像自動化食譜一樣儲存提示並進行版本控制
  • 將執行日誌摘要為簡單的「誰成功、誰失敗、下一步是什麼」報告
  • 在入口網站變更時產生量身定制的疑難排解提示
  • 幫助您將混亂的試算表轉換為乾淨、可自動化的 CSV
一起使用時,Sider.AI 是剪貼簿和劇本;Gemini 2.5 是現場四分衛。

進階動作:條件邏輯、分支和驗證

一旦您信任基本知識,請新增智慧:
  • 分支:「如果 Rate 下拉選單缺少所需的選項,請選擇最接近的符合項 ≥ 要求的費率;否則,標記該列。」
  • 條件式附件:「僅當 total_miles ≥ 50 時才上傳收據;否則,留空。」
  • 衍生欄位:「計算報銷 = total_miles × rate;驗證入口網站計算的總數是否在 $0.01 以內;如果不是,則截取螢幕截圖並跳過。」
  • 跨頁面驗證:提交後,開啟「History」,找到今天的條目,並驗證姓名和總數是否與 CSV 匹配。
這些檢查將有趣的示範轉變為您的經理批准的東西。

快速繞道:安全劇院 vs 真正的保護

您會遇到使用謎題、點擊和拖曳滑桿或值得哈比人的彈出謎語的入口網站。有些是真正的機器人防禦;有些是頁面化妝。不要與好的抗爭。規劃人類在迴圈中暫停。讓 Gemini 宣布:「已偵測到驗證碼——準備好讓您提供協助」,然後恢復。
真正的保護來自您的設定:單獨的設定檔、有限的權限、稽核日誌和清晰的停止條件。

衡量成功:什麼是「好」的

使用 Gemini 2.5 Computer Use 進行的健全的網路表單自動化如下所示:
  • 95%+ 的列在沒有手動調整的情況下處理
  • 錯誤是可預測的並且已記錄(日期不符、檔案遺失)
  • 您可以從上次失敗的列重新執行,而無需觸摸較早的列
  • 人類可以稽核螢幕截圖和日誌,以準確了解發生了什麼
當您達到這些標記時,您已將苦差事轉變為整潔、可審查的工作流程。

迷你劇本:從零到「Submit」在 12 個步驟中

  1. 確定您每週執行的一個單一、無聊的表單。
  1. 清理您的資料。日期、數字、檔案路徑。
  1. 如果可用,請建立測試帳戶和沙箱。
  1. 在受控制的瀏覽器設定檔中開啟 Gemini 2.5 Computer Use。
  1. 描述表單並提供欄位對應。
  1. 執行一條記錄——慢動作、敘述,並用您的眼睛盯著它。
  1. 新增成功和失敗檢查。
  1. 在任何異常情況下建立批次日誌並截取螢幕截圖。
  1. 處理五條記錄;然後是二十條。
  1. 新增小型防護措施(Escape 關閉自動完成;直接輸入日期)。
  1. 匯出日誌;在入口網站的歷史記錄中抽查。
  1. 儲存您的提示和資料結構以供下週使用。未來的您會寫一張感謝信給您。

最後一件事:不要與頁面抗爭——教頁面給你

網路喜歡保守秘密。按鈕隱藏在圖示後面;欄位等待著責罵您,直到您點擊離開。Gemini 2.5 Computer Use 並沒有神奇地修復網路——它耐心地學習它。獲勝不是速度;而是平靜。您可以回收一個小時,您過去常常花費一個小時在框格之間進行標記,而是花時間決定備註應該說「Client visits in Zone B」還是更冒險的「Zone B extravaganza」。
因此,選擇一個表單。將 Gemini 2.5 Computer Use 放在駕駛座上——繫好安全帶——並讓它執行點擊。當確認碼彈出並且沒有人必須擺動下拉選單時,您會感覺到網際網路為 2007 年的日期選擇器道歉。

主要重點

  • Gemini 2.5 Computer Use 可以透過查看和操作您的頁面(就像一位細心的助理一樣)來自動化網路表單。
  • 從小處著手,加入防護機制,只有在一切都變得順利時才擴大規模——以好的方式。
  • 使用乾淨的數據、明確的欄位對應,以及成功/失敗檢查。
  • 接受驗證碼和 MFA 是需要人工介入的時刻。
  • 與 Sider.AI 搭配使用,以管理提示、日誌和清理工作——就像是剪貼簿之於 Gemini 的雙手。
現在去教訓一下那個表單,讓它知道誰才是老大。或者說,誰是禮貌地委派任務的人。

常見問題解答

Q1:用簡單的英語來說,Gemini 2.5 電腦使用是什麼? 這是一種 Gemini 實際上可以控制你的瀏覽器的模式——點擊、輸入、上傳——所以它可以自動填寫網頁表單。可以把它想像成一個小心謹慎的實習生,他會按照你的指示操作並敘述他的步驟。
Q2:Gemini 2.5 真的可以自動填寫包含檔案上傳和日期選擇器的網頁表單嗎? 是的,只要有明確的指示。告訴它直接輸入日期、明確處理「費率」下拉選單,以及將檔案路徑貼到上傳對話框中——這些細節至關重要。
Q3:我如何確保網頁表單自動化的安全性和合規性? 使用單獨的瀏覽器設定檔、最小權限帳戶,並為每次運行記錄日誌。避免將密碼放入提示中;暫停處理驗證碼和 MFA,然後繼續。
Q4:Gemini 2.5 比 Selenium 等傳統腳本更快嗎? 通常不會,但它更適應混亂的頁面和一次性任務。腳本更快但脆弱;Gemini 較慢,但當網站的 CSS 變更時,較不容易崩潰。
Q5:Sider.AI 在這個工作流程中能提供什麼幫助? Sider.AI 可以儲存您的提示、清理您的 CSV、總結日誌,並產生疑難排解提示。 它是您自動化劇本的組織者和總編輯,而 Gemini 則負責點擊操作。

最新文章
如何精通 ChatPDF:從密集文件中更快獲取洞見

如何精通 ChatPDF:從密集文件中更快獲取洞見

快速且準確文件的最佳 X 自動翻譯替代方案

快速且準確文件的最佳 X 自動翻譯替代方案

三星 AI 翻譯在伊朗無法使用?實用解決方法

三星 AI 翻譯在伊朗無法使用?實用解決方法

波斯語翻譯工具:加速且精準工作的實用指南

波斯語翻譯工具:加速且精準工作的實用指南

深度且具引用的研究最佳Grok替代方案

深度且具引用的研究最佳Grok替代方案

您真正會用到的 AI 圖像生成器 15 大功能

您真正會用到的 AI 圖像生成器 15 大功能