簡介:介面成為平台
運算領域的每一次轉變都會產生一個新的預設介面,並隨之產生新的權力中心。命令列有利於技術槓桿,GUI 有利於分發,而行動螢幕則有利於聚合。新興的層——可以代表我們操作軟體的 AI 代理——暗示了一個新的介面:意圖。Google 的 Gemini 2.5「電腦使用」是一個早期且重要的例子。它可以觀察、點擊、輸入和在瀏覽器中導航,將指令轉化為動作,而無需自定義整合。
本文提出了一個簡單但影響深遠的戰略問題:如何使用 Gemini 2.5「電腦使用」來自動化今天的瀏覽器任務,以及這預示著明天的 workflow 所有權將如何變化?答案結合了實用的操作步驟和更廣泛的框架:當執行變得自動化時,價值會累積到擁有意圖、歷史記錄和評估的人手中。換句話說,瀏覽器自動化不僅僅是節省時間——而是重新分配控制權。
背景:從 RPA 到代理,為什麼瀏覽器自動化很重要
機器人流程自動化 (RPA) 將許多企業工作是確定性的這一洞察力專業化。腳本複製了按鍵操作。瀏覽器使情況變得複雜:動態 DOM、身份驗證流程和不斷變化的應用程式 UI 使得長期存在的腳本變得脆弱。結果是一個分裂的市場:用於穩定 workflow 的 API 優先整合,以及用於遺留和邊緣案例的昂貴 RPA 部署。
AI 代理縮小了這種二分法。模型可以讀取頁面上的上下文,推斷下一個最佳操作,並適應微小的變化,而不是使用脆弱的選擇器和手動編寫的步驟。Gemini 2.5 的「電腦使用」功能更進一步:它旨在以類似人類的靈活性執行瀏覽器互動,基於對任務目標的理解,而不是固定的指令。
直接的效用很簡單:自動化您已經在 Chrome 中執行的任務——填寫表單、下載報告、交叉發布內容——而無需等待供應商整合。戰略意義更為重大:瀏覽器——已經是工作的瘦客戶端——可以通過語言而不是代碼進行程式設計。這將權力從特定於應用程式的 UI 轉移到解析意圖的代理,並提高了資料上下文和信任的重要性。
使用 Gemini 2.5 進行瀏覽器自動化的實用框架
從 Gemini 2.5「電腦使用」中獲得真正價值有三個層面:
- 上下文供應:確保模型具有正確的輸入(憑證、URL、檔案和約束)。
- 操作治理:監控、約束和記錄模型的操作,以確保可靠性和審計。
這些對應於傳統的軟體問題——需求、資料和控制——但介面是會話式的。
意圖規範:像產品規格一樣編寫提示
好的提示讀起來像驗收標準。不要說「下載報告」,而是指定目標和約束:
- 目標:「登錄 example-analytics.com,導航到報告 > 每月收入,將日期範圍設定為上個月,導出 CSV,並保存到 Google Drive 上的 /Finance/Revenue/2025-09.csv。」
- 約束:「如果請求雙重身份驗證,則暫停並請求代碼。如果報告不可用,則返回可見錯誤的摘要並停止。」
- 成功標準:「確認檔案路徑、檔案大小和行數 > 1。」
當所需的最終狀態明確時,Gemini 2.5「電腦使用」的執行效果最佳。模型可以處理推斷,但清晰度可以減少歧義並減輕代價高昂的重試。
上下文供應:提供正確的工具和資料
代理的能力僅限於其環境允許的範圍。對於瀏覽器任務:
- 存取:使用具有已保存憑證和最小彈出視窗攔截器的設定檔,這些攔截器可能會阻礙自動化。隔離工作設定檔以進行策略和審計。
- URL 和 Artifacts:提供確切的連結、檔案名和格式 (CSV, PDF, JSON)。如果需要填寫表單,則上傳範本。
- 資料安全:使用最小權限憑證限制範圍。對高風險任務使用單獨的服務帳戶。
- 時間範圍:指示資料何時更新(例如,「報告每天在 UTC 時間 8:05 完成;如果為空,請在那之後重試。」)
操作治理:觀察、批准和記錄
「電腦使用」可以採取可見的步驟——點擊、表單條目、下載。將其視為具有螢幕共享的初級分析師:
- Dry Run 模式:首次嘗試返回逐步計畫。您在執行前批准。
- 護欄:定義不允許的網域/操作(「請勿修改帳戶設定」、「請勿批准付款」)。
- 記錄:持久保存操作記錄、點擊的 DOM 元素和最終輸出。這對於審計和未來的偵錯非常重要。
逐步說明:如何使用 Gemini 2.5「電腦使用」自動化您的瀏覽器任務
以下序列旨在跨任務重複使用:資料提取、表單提交、內容發布和跨應用 workflow。
- 範例提示:「打開 {log in with current session},導航到使用情況 > 導出,將日期範圍設定為過去 7 天,導出為 CSV,並上傳到 Google Drive /Ops/Usage/week-of-YYYY-MM-DD.csv。如果出現 2FA,請向我索取代碼。」
- 詢問 Gemini:「在採取行動之前,提出包含導航目標和表單輸入的編號操作計畫。在執行前確認計畫。」
- 回應任何身份驗證提示。通過相同的聊天提供一次性代碼,以保持上下文一致。
- 指示 Gemini 驗證輸出:「確認 CSV 具有標頭 [date, account_id, usage]。驗證行數 > 10;如果沒有,則重試一次。」
- 讓代理總結關鍵指標(行數、日期範圍)以確認成功標準。
- 將提示保存為可重複使用的範本,其中包含日期或 ID 的佔位符。
- 添加錯誤處理:如果選單發生變化,則使用替代導航路徑。
- 如果服務具有特定於區域的 URL,則包含備用網域。
- 對於異步呈現的 SPA 頁面或儀表板,引入顯式等待。
常見使用案例:從報告到發布
在 UI 一致且任務結構良好的情況下,Gemini 2.5「電腦使用」尤其有效。
- 定期報告:需要設定篩選器、匯出檔案並儲存到雲端儲存的財務、行銷和支援儀表板。
- 後端更新:在沒有官方整合的情況下,在 SaaS 工具中輸入貨件 ID、更新訂單狀態和協調交易。
- 內容操作:起草和排程跨 CMS 和社交平台上的帖子;複製帶有 UTM 標籤的連結;附加已批准的圖片。
- 供應商比較和採購:導航定價頁面、將方案詳細資訊擷取到試算表中以及產生摘要。
- QA 和合規性:運行標準測試路徑並截取螢幕截圖作為證據。
每種情況都受益於編寫精確的成功標準(具體的輸出 artifact)和護欄(不應該做什麼)。
可靠性策略:讓自動化變得乏味
AI 驅動的瀏覽器自動化會一直有效,直到它無效;可靠性是差異控制的函數。四種策略有助於:
- 使用固定的瀏覽器設定檔和一致的視窗大小,以減少佈局驅動的混淆。
- 指示代理尋找可靠的錨點:確切的連結文字、aria 標籤或固定 ID。如果不確定,請要求它截取螢幕截圖並請求確認。
- 對於寫入操作(表單提交),指定冪等性檢查:「如果訂單 ID X 的記錄存在,則跳過。」
- 要求代理輸出執行追蹤:訪問的頁面、使用的選擇器和時間戳記。
- 在關鍵步驟(提交前、提交後、匯出確認)包括自動螢幕截圖擷取。
安全性和合規性:信任是一種功能,而不是附加元件
讓 AI 操作瀏覽器會涉及身份、資料治理和最小權限原則。
- 憑證隔離:盡可能使用有限範圍的帳戶。對於財務或 HR 系統,當任務不需要寫入時,隔離到唯讀角色。
- 會話衛生:通過使用專用設定檔來避免交叉污染。當 workflow 需要時,清除供應商之間的 Cookie。
- PII 和受監管資料:明確指示代理:「請勿複製或匯出標記為 SSN 或 DOB 的欄位。」考慮使用編輯或遮罩環境進行測試。
- 審計和撤銷:維護足以重建操作的日誌。確保您可以立即撤銷存取權——像員工離職一樣處理代理設定檔。
戰略框架:聚合理論與電腦使用相結合
聚合的歷史偏愛控制需求和資料而不是供應的實體。通過「電腦使用」,應用程式層越來越被可以操作任何 UI 的代理商品化。這暗示了三個轉變:
- 從應用程式忠誠度到 Workflow 忠誠度:如果代理可以互換地驅動多個產品,則用戶會與 workflow 和代理聯繫,而不是與特定的 SaaS UI 聯繫。
- 從 UI 護城河到資料/策略護城河:粘性價值轉移到第一方資料(歷史記錄、偏好、微調)、策略引擎(護欄、批准)和合規性。
- 從整合到意圖解析:主要功能不是支援的 API 清單,而是從用戶意圖到以最少監督完成任務的翻譯品質。
實際上,這意味著應用程式供應商將在對代理友好的方面展開競爭:穩定的語義、可存取的 aria 標籤和可預測的流程。同時,代理平台將在可靠性、治理和記憶體(用戶資料和長期上下文的持久組合)方面展開競爭。
競爭格局和選擇正確的工具
雖然 Gemini 2.5「電腦使用」因其本機、可視化執行而引人注目,但更廣泛的市場包括跨三個類別的替代方案:
- 以模型為中心的代理:將通用 LLM 與工具使用(搜尋、瀏覽器控制、檔案系統)配對的系統。它們的優勢在於泛化和語言理解。
- RPA 增強平台:傳統 RPA 供應商使用 LLM 進行增強,以使選擇器更強大,流程更具適應性,尤其是在具有遺留應用程式的企業中。
- 垂直自動化器:專注於特定網域(例如,電子商務運營、廣告運營)的解決方案,這些解決方案內建了劇本和合規性。
選擇應取決於三個標準:
- 可觀察性:您能看到代理在做什麼嗎?審計追蹤是不可協商的。
- 可擴展性:代理可以與您已經使用的檔案、儲存和身份驗證流程整合嗎?
從戰略角度來看,請考慮 Sider.AI。作為代理分析和 workflow 的前端,它Example說明了助理層如何將非結構化請求轉化為結構化輸出,同時保留監督——當將語言驅動的規劃與可重複的、已記錄的執行結合使用時,尤其有價值。協同作用很簡單:在類似 Sider 的環境中計畫和驗證,通過「電腦使用」執行,並將結果制度化到您的記錄系統中。 實施劇本:從原型到生產
要超越演示,請將代理驅動的瀏覽器自動化視為軟體專案。
階段 1:試點
- 選擇 1-2 個頻率高且風險低的任務(每週報告匯出、內容排程)。
- 在人工參與迴路批准的情況下運行,並收集日誌和螢幕截圖。
階段 2:強化
- 參數化輸入(日期、ID)並儲存在簡單的設定檔或提示變數中。
階段 3:擴展
- 將相關任務分組到劇本中(例如,「每月關帳」包括三個匯出和兩個上傳)。
- 集中日誌和輸出;維護運行成功率和 MTTR 故障的儀表板。
階段 4:管理
- 為故障模式運行桌面演練(密碼輪換、CAPTCHA 引入、UI 重新設計)。
衡量 ROI:節省時間是基本要求
節省時間是顯而易見的指標,但還不夠。更好的鏡頭是差異減少和週期時間壓縮。
- 返工率:需要人工校正的運行百分比。隨著提示的成熟,目標是穩定下降。
- 提前期:從請求(「獲取上個月的收入」)到 artifact 可用性的時間。
- 覆蓋率:相對於候選池自動化的不同 workflow 數量。
- 控制事件:策略或存取違規的數量(應漸近地接近於零)。
每週追蹤這些;戰略目標是一個變得可預測地乏味的系統。這種可預測性成為您內部平台,用於更雄心勃勃的自動化。
Gemini 2.5 電腦使用 的範例提示和模式
以下是可重複使用的模式。將括號內的項目替換為您的具體資訊。
模式:報告匯出
「首先計畫。然後僅在我批准後才採取行動。目標:在瀏覽器中,打開 [ {log in with current session},導航到報告 > [Revenue],將日期範圍設定為 [Last Month],匯出為 [CSV],並上傳到 [Google Drive]/Finance/Revenue/[YYYY-MM].csv。約束:如果出現 2FA,則請求代碼。如果報告頁面返回空或錯誤,則停止並總結。成功標準:確認檔案存在,大小 > 1KB,並且第一行具有標頭 [date, account_id, amount]。在執行期間記錄每次點擊和頁面標題。」
模式:CMS 發布
「在 [CMS URL] 中起草和排程帖子。標題:[Title]。正文:[Markdown]。標籤:[Tags]。將發布日期設定為 [YYYY-MM-DD HH:MM TZ]。在發布之前,向我發送預覽 URL 並等待批准。如果缺少必填欄位,則停止並要求澄清。」
模式:跨應用程式收集
「從 [URLs] 收集 [3 vendors] 的當前價格,複製方案名稱和每月費用,將其粘貼到 [Sheet URL] 的 Google Sheet 中,並在 A 列中添加日期。驗證每個價格都是數字;如果不是,則使用 'N/A' 和指向來源的註解欄進行註釋。」
模式:支援分類
「打開 [Ticketing URL],篩選「優先順序:高」和「狀態:新增」,打開每個工單並用一句話總結問題,將其分類為 [Billing, Access, Bug],然後將摘要粘貼到 [Slack Web URL] 的 Slack 草稿中以供審閱。在發送之前等待我的批准。」
陷阱以及如何避免它們
- 身份驗證邊緣案例:Captchas、SSO 超時和設備信任提示會中斷流程。緩解措施:預先驗證的設定檔、密碼管理器和 Captcha 步驟的顯式人工切換。
- SPA 延遲:單頁應用程式可能會延遲呈現。緩解措施:指示代理在點擊之前等待特定的文字或元素。
- 過於寬泛的權限:功能強大的代理可能會犯下代價高昂的錯誤。緩解措施:預設情況下為唯讀角色;僅在需要時才使用範圍限定的寫入存取權。
- 隱藏狀態:某些應用程式會持久保存篩選器。緩解措施:指示代理在每次運行開始時重設篩選器。
戰略弧線:誰擁有 Workflow?
Gemini 2.5「電腦使用」揭示了一個更大的問題:如果任何代理都可以驅動任何 UI,那麼什麼變得稀缺?不是按鈕和螢幕,而是資料上下文和信任。贏家將捕獲三項資產:
- 歷史記錄:對有效、失敗以及原因的持久記憶——降低了未來的摩擦。
應用程式仍然重要,但它們將被代理層(agent layers)所中介,這些代理層會標準化操作。隨著整合護城河(integration moats)的減弱,防禦性轉向誰能最好地將意圖轉化為可靠的結果,並且驚喜最少。
結論:立即使用 Gemini 2.5,為未來的平台做好準備
實際的要點很簡單:開始自動化您已經在執行的瀏覽器任務。像撰寫規格一樣編寫提示,提供正確的上下文,管理操作,並衡量結果。預期早期會出現變異性,並為可觀察性進行設計。
策略性的要點更大:Gemini 2.5 Computer Use 加速了從以應用程式為中心的工作到以意圖為中心的工作流程的轉變。隨著代理程式(agents)學會操作我們使用的軟體,我們選擇的軟體將越來越多地是那些能與代理程式良好協同工作的軟體——而我們信任的工具將是那些使自動化變得清晰可控的工具。考慮將規劃和監督環境(如 Sider.AI)與執行工具(如 Computer Use)配對;這種組合突顯了價值的累積點:不是點擊,而是持續、經過審核的工作完成。 這就是下一個介面的承諾——以及競爭挑戰。瀏覽器將仍然是畫布。意圖,而非 UI,成為平台。
常見問題解答
Q1:什麼是 Gemini 2.5 Computer Use,以及它為何對瀏覽器自動化如此重要?
Gemini 2.5 Computer Use 使 AI 代理程式能夠操作您的瀏覽器——點擊、輸入和導航——以完成來自自然語言指令的任務。它之所以重要,是因為它減少了對脆弱腳本的依賴,並將價值從特定於 UI 的工作流程轉移到以意圖驅動的執行。
Q2:如何使 Gemini 2.5 對於重複的瀏覽器任務來說足夠可靠?
將提示視為規格:定義目標、約束和成功標準。添加防護欄、可觀察性(日誌和螢幕截圖)以及重試以管理 UI 差異;隨著時間的推移,返工率應該會下降,成功率應該會穩定。
Q3:Gemini 2.5 Computer Use 對於敏感工作流程來說是否足夠安全?
安全性取決於您的設置:使用最小權限帳戶、專用瀏覽器設定檔和明確的策略約束。維護審計日誌並準備好快速撤銷訪問權限;對於受監管的數據,限制範圍或使用遮罩的測試環境。
Q4:首先使用 Gemini 2.5 自動化哪些瀏覽器任務最好?
從高頻率、低風險的工作流程開始,例如報告匯出、內容排程或供應商數據收集。這些具有可預測的 UI 和清晰的成功工件,這使得它們非常適合完善提示和防護欄。
Q5:Gemini 2.5 與用於 Web 任務的傳統 RPA 工具相比如何?
傳統 RPA 依賴於固定的選擇器,並且在 UI 更改時可能變得脆弱。Gemini 2.5 利用語言理解和視覺上下文來即時適應,使其更靈活,但您仍然需要治理和可觀察性以確保可靠性。