是否曾希望您的電腦在您去泡咖啡時,自動完成那些枯燥乏味的工作?不是那種有趣的枯燥乏味——比如瀏覽您買不起的度假租屋——而是真正無聊的枯燥工作。填寫表格。從三個不同的入口網站下載正確的檔案。將 C 欄的總數複製到 G 欄,而不會不小心把貓咪的平均值算進去。如果您也有這樣的困擾,歡迎使用 Google 的 Gemini 2.5「電腦使用」功能,這項功能讓 AI 代理程式像個小小的、不知疲倦的實習生一樣,實際操作您的瀏覽器——而且它不會問「協同作用」是什麼意思。
在這個友善的導覽中,我們將深入了解 Gemini 2.5「電腦使用」的真正含義、運作方式、優勢以及它仍然會像您叔叔點擊彈出式廣告一樣點錯按鈕的地方。我將分享實用範例、注意事項以及在將螢幕控制權交給它之前,您會想知道的各種實際操作技巧。
Gemini 2.5「電腦使用」是什麼?用簡單的英文來說。
- 把它想像成「擁有滑鼠和鍵盤的 AI」。Gemini 2.5「電腦使用」不僅僅是用文字回答問題,還可以像您一樣操作網頁瀏覽器:點擊連結、在欄位中輸入文字、滾動、複製、貼上、下載檔案,並跨不同網站完成多步驟的雜務——所有這些都只需一條自然語言指令。這就像是「告訴我怎麼做」和「去做」之間的區別。
- 它專精於瀏覽器自動化。您給它一個目標(「找到最新的帳單明細、下載 PDF 並將總金額用電子郵件寄給我」),它會在受控的瀏覽器會話中驅動該流程,一次執行一個動作,並具有頁面地圖和迄今為止所做事情的記憶。
為什麼這很重要?因為我們的大部分工作現在都在瀏覽器中完成:HR 入口網站、供應商儀表板、政府表格、知識庫、Google Drive,不勝枚舉。如果機器人可以像我們一樣安全地點擊瀏覽(並且不會在此過程中刪除克里夫蘭),那麼您就擁有了一個節省時間的實用工具。
Gemini 2.5「電腦使用」的實際運作方式(不誇大其詞)
想像一位謹慎的駕駛員在一個新的城市,使用逐步導航:
- 它感知頁面:代理程式讀取頁面結構,而不僅僅是像素。它會看到可點擊的元素、文字欄位、標籤和佈局,因此它可以選擇正確的目標——即使兩個按鈕都顯示「繼續」。這就像擁有 DOM 的 X 光視力。
- 它計劃下一步:根據您的概括性指示,它將工作分解為微小的動作:點擊此連結、輸入該電子郵件、等待彈出視窗、滾動到表格、提取資料。如果您曾經錄製過巨集,這會讓您感到熟悉——但如果頁面佈局發生變化,它會在執行過程中進行調整。
- 它執行動作——並檢查:每次動作後,它都會進行健全性檢查:預期的元素是否出現?按鈕現在是否已停用?如果沒有,它會嘗試不同的路徑。這種回饋迴路可防止頁面載入緩慢或欄位需要不同格式時,它會衝下懸崖。
- 它記錄自己:大多數執行都會產生可見的軌跡——它點擊了什麼、輸入了什麼、下載了什麼——您可以查看這些內容。該歷史記錄對於除錯和合規性而言非常寶貴,尤其是在您自動執行財務或 HR 資料等敏感內容時。
是的,它可以一次導覽多個網站——例如,登入供應商儀表板、收集價格、將結果貼到 Google Sheet 中,並通過電子郵件將連結發送給您的團隊。在這種情況下,它感覺不像「聊天機器人」,更像是一位助理——與真正的助理不同,它不會在您的螢幕上留下帶有攻擊性的便條紙。
快速的現實檢查:它的優點和缺點
先說有趣的部分:Gemini 2.5「電腦使用」可以處理:
- 重複性的網頁雜務:填寫表格、上傳檔案、下載報表,並瀏覽那些似乎專為浪費星期二而設計的管理入口網站。
- 瀏覽器中的資料整理:跨標籤頁複製貼上、清理表格、將內容移動到文件或工作表中,並按照老闆喜歡的方式(也就是唯一正確的方式)進行格式化。
- 多步驟工作流程:從「尋找」到「格式化」再到「分享」,無需您監控點擊。
但讓我們保持警惕。像所有早期的 AI 代理程式一樣,它在以下情況會出現問題:
- 頁面非常動態:無限滾動和懸停時隱藏的彈出視窗可能會讓它感到困惑。如果您曾經嘗試點擊一個像打地鼠一樣移動的按鈕,請想像一下教機器人執行此操作。
- 出現驗證碼和 2FA 閘道:阻止機器人的安全功能旨在阻止機器人。您仍然需要偶爾批准登入或解決難題。
- 存在含糊不清的標籤:如果一個網站有三個「提交」按鈕,而中間的那個按鈕訂購了一輛堆高機,您需要第一次驗證點擊路徑。
一天的工作:三個真實世界的用例
- 費用管理員:您說:「登入 TravelPortal.com,獲取我最近三次旅行的收據,下載 PDF,並將它們放到我 Drive 中 Expenses/2024 資料夾中。然後草擬一封發給財務部門的摘要電子郵件。」代理程式登入、導覽至「收據」、下載檔案、使用「日期-旅行-城市」重新命名檔案、上傳到 Drive、建立包含總金額的快速項目符號清單,並草擬您的電子郵件。萬事俱備。這可以節省 20 分鐘的管理時間。
- 供應商價格檢查員:「比較 Vendor A、B 和 C 中 Model Z 的當前標價。將 SKU 和價格貼到我的 ‘Q4 Price Watch’ Google Sheet 中,並標記任何超過 8% 的降價。」代理程式訪問三個網站、搜尋、抓取價格模組、標準化資料、更新工作表,並突出顯示優惠。
- HR 入口網站精靈:「更新我在 HR 入口網站上的地址、確認福利資格、下載最新的工資單,並驗證過去一季的 PTO 餘額。」代理程式盡職地穿過迷宮。您監控第一次執行;之後,這就是您每月的例行公事,但少了儀式感。
安全、隱私以及「您確定它不會向我的前任發送電子郵件嗎?」
「電腦使用」在為監督而設計的受限環境中執行。用人類的話來說:您可以觀看它的工作、設定它可以訪問的內容的限制,並要求批准發送電子郵件或轉移資金等敏感步驟。會話歷史記錄可幫助您稽核發生的事情和原因。夢想是「無需動手」,但現實情況——尤其是在早期——是「第一次執行時需要密切關注,然後再放寬限制」。這不是錯誤;這是常識。
專業設定技巧(來自一位點錯過幾次按鈕的人)
- 從小處著手:首先給它無聊但安全的任務:下載報告、重新命名檔案、整理試算表。您建立信任;它建立一個穩健的腳本。
- 為成功命名元素:在您控制網站或內部儀表板的地方,使用清晰的標籤和 ID。代理程式會像黃金獵犬對待網球一樣,緊抓可預測的文字和結構。
- 首先建立一個「快樂路徑」:記錄它應該期望的理想點擊和欄位。然後向它拋出一個變化球(載入緩慢、額外的對話框),並觀察它是如何恢復的。從那裡改進。
- 準備好 2FA:預期會批准登入或貼上受保護帳戶的代碼。這不是缺陷;這是一項安全功能。
- 記錄所有內容:保存敏感工作流程的動作歷史記錄和螢幕截圖。如果出現任何問題,您都會知道在哪裡、何時以及哪個按鈕。
它與您聽說過的其他「AI 代理程式」相比如何?
如果您看過 AI 助理控制您螢幕的示範,您就會看到這種風格:一個點擊和輸入的代理程式,而不僅僅是「回答」。Gemini 2.5「電腦使用」透過對頁面的結構化理解、每次動作後的狀態檢查以及預設的良好記錄,傾向於網頁自動化。在我的測試中,它尤其擅長「瀏覽器到文件」的雜務——從網站上獲取內容、重塑它,並將它放到您可以分享的文件或工作表中。
它的缺點:任何依賴抽搐、動畫繁重的 UI 或驗證碼的工作流程。這不是 Gemini 獨有的;這是該類別的目前狀態。好處是:當一個網站是理智的時候,代理程式會感覺非常能幹。當它不是的時候,您會比說出「Cookie 橫幅」更快地了解哪些網站對自動化過敏。
快速演練:從提示到回報
讓我們自動執行一項真實的任務:從三個儀表板中提取季度指標並更新團隊文件。
- 要求:「開啟 Acme Analytics、BetaReports 和 GammaBoard。以 CSV 格式匯出按來源劃分的 Q3 流量。合併到 Google Sheets 中的單個表格中,然後在 Docs 中產生一段摘要。」
- 您將看到什麼:代理程式登入(您批准任何 2FA)、導覽至每個「報表」頁面、選擇正確的日期範圍、點擊「匯出」、下載 CSV、開啟 Sheet、將每個檔案匯入到一個新標籤頁、標準化欄標頭、新增「合併」標籤,並編寫 SUMIF 公式以按來源匯總流量。然後它會開啟 Doc、放入包含重點和工作表連結的摘要段落。
- 整理:您瀏覽 Doc、調整句子,然後點擊「傳送」。十分鐘的監控與一小時的苦工。
疑難排解專區:當機器人遇到混亂
- 它點擊了錯誤的按鈕:在您的指示中新增更多背景資訊:「點擊流量 > 來源下的藍色 ‘Download CSV’ 按鈕,而不是頂部的白色 ‘Download PDF’。」代理程式會使用您的措辭來消除目標的歧義。
- 彈出視窗阻止了進度:告訴它如何在彈出視窗上執行操作:「關閉任何 ‘Rate your experience’ 模式視窗,然後繼續。」第二次執行通常會順利通過。
- 表格佈局已變更:將其指向標籤,而不是位置:「選取標籤為 ‘Date Range’ 的下拉式選單,然後選擇 ‘Last quarter’。」避免使用「右上角」和「第三個按鈕」,因為當設計師感到靈感時,它們會中斷。
這是一個驚喜:Sider.AI(也就是您現在正在閱讀的人)為您的瀏覽器配備了一個頁面上的 AI 助理,可以在您工作的地方草擬、總結和協調多步驟任務。根據我的經驗,將 Gemini 2.5「電腦使用」用於繁重的瀏覽器驅動,並結合 Sider 的頁面內協助,可以產生很好的協同作用。您讓 Gemini 執行點擊馬拉松,並使用 Sider 來潤飾輸出、產生電子郵件或進行健全性檢查,而無需離開標籤頁。這不是魔術,但感覺就像聘請了一位住在您的瀏覽器中且不需要鑰匙卡的校對員。 何時不使用「電腦使用」
- 任何違反網站條款或隱私期望的行為。「因為它可以點擊」並不表示「您應該點擊」。
- 不可替代的、一次性動作——申請生死攸關的許可證或轉移大筆款項——在這種情況下,人類必須審查每個步驟。
- 瓶頸不是點擊而是判斷的創意工作:編輯影片、設計標誌、協商價格。代理程式可以獲取、格式化和歸檔;它不會取悅供應商。
入門清單
- 選擇一項您每週重複一次且位於瀏覽器中並且感覺是確定性的任務。「下載昨天的報告並將其放在這裡。」
- 用簡單的英文寫下理想的腳本。包括標籤,而不是位置;結果,而不是氛圍。
您稍後會關心的細則
- 效能取決於網站:靜態、標籤良好的頁面 = 廚師之吻。動態、廣告氾濫、模式友好的頁面 = 帶上零食。
- 延遲是一件事:它是逐次點擊的,步驟之間有檢查。這就是讓它保持可靠的原因——就像一個謹慎的駕駛員,而不是一個飆車手。
- 您負責:您可以停止執行、查看日誌和設定權限。把它想像成一台帶有紅色 STOP 按鈕的跑步機。使用它。
底線:那麼,Gemini 2.5「電腦使用」值得嗎?
如果您的工作包括「開啟五個網站、點擊相同的八個按鈕、獲取相同的資料並將其放在某個地方」……那麼是的,這正是可以節省您實際時間的實用 AI。它不是科幻管家。它更像是一個非常聽話的實習生,從不眨眼並且始終記錄其工作。像對待新員工一樣,以同樣的常識性監督來對待它,您將獲得好處而沒有戲劇性。
我的建議:從一項無聊的雜務開始、自動化它,並每週節省 20 分鐘。一個月後,您會想知道為什麼您曾經手動下載任何東西。一年後,您會忘記您有多少密碼——因為您不會是輸入它們的人。
最後一件事:電腦做電腦的事情是未來——但您的判斷是秘訣。將您的手放在紅色大按鈕上,並將您的目光放在獎品上。AI 可以點擊。您決定在哪裡。
進一步閱讀和實用指南
- Gemini 2.5「電腦使用」實際可以做什麼的友善解釋,其中包含任務和安全措施的具體範例。
- 用於建立瀏覽器自動化工作流程的說明,該工作流程可以在不離開您的椅子的情況下匯總、清理和分享資料。
常見問題
Q1:用簡單的術語來說,Google Gemini 2.5「電腦使用」是什麼?
它是一個可以為您控制瀏覽器的 AI——點擊、輸入、下載和導航以完成您用簡單的英文描述的任務。將其視為一個仔細遵循您的指示的助理,而不是一個自由奔放的機器人霸主。
Q2:Gemini 2.5「電腦使用」最擅長處理哪些類型的任務?
它擅長重複的、基於規則的瀏覽器雜務:登入入口網站、匯出報告、複製資料以及更新文件或工作表。如果您可以透過每週點擊相同的按鈕來完成它,「電腦使用」是一個很好的選擇。
Q3:Gemini 2.5「電腦使用」對於敏感工作流程是否安全?
如果使用得當,是的——它在一個受控的環境中運行,您可以在其中觀看、設定權限和查看動作日誌。對於登入、付款或電子郵件等敏感步驟,請保持批准狀態,並在讓其漫遊之前測試第一次執行。
Q4:如何使 Gemini 的「電腦使用」更可靠?
具體說明標籤(而不是位置)、定義快樂路徑,並新增彈出視窗和下載的說明。從小處著手,在第一次執行後進行迭代,並為受保護的帳戶準備好 2FA。
Q5:Gemini 2.5「電腦使用」在哪裡遇到困難?
具有移動元素的動態頁面、具有攻擊性的彈出視窗、驗證碼或多個相同的按鈕可能會讓它絆倒。在這些情況下,新增更清晰的說明、將任務分解為更小的步驟,或手動處理棘手的部分。