簡介:當您的瀏覽器變成萬事通
是否曾經發現自己每天早上都在做同樣的五個點擊動作——打開銷售儀表板、匯出 CSV、將其貼到電子表格中、發送電子郵件給老闆——然後心想,「電腦一定在嘲笑我」?我也是。我們被承諾自動化已經很久了,「設定後忘記」聽起來像是科技界的節食廣告。
進入 ChatGPT Atlas 的 Agent Mode——這個功能聲稱它可以真正為您完成網頁雜務,就像一個住在您瀏覽器中的有禮貌的機器人助手。不是科幻幻想;而是一個真實的、稍微神奇的、有時挑剔的助手,它可以填寫表格、抓取頁面、交叉引用數據,甚至可以在您啜飲咖啡並假裝努力制定「策略」時循環執行任務。
在本指南中,我將引導您了解如何使用 ChatGPT Atlas 的 Agent Mode 來自動化您的網頁任務——以及它擅長什麼、在哪裡會出錯,以及您需要採取的微小習慣,以保持齒輪的運轉。將此視為非常聰明的司機的駕駛教育。
ChatGPT Atlas 中的 Agent Mode 究竟是什麼?
Agent Mode 是 ChatGPT Atlas 中一個連接瀏覽器的功能,它可以將高階指令——「登入我的分析網站、抓取每週流量,並在 Slack 中發布重點」——轉化為一系列動作:導航、點擊、輸入、抓取、儲存和重複。Agent Mode 不再像實驗室老鼠一樣按下槓桿來獲取食物,而是成為按下槓桿的人。
- 它可以讀取頁面、點擊按鈕、填寫表格、追蹤分頁並匯出檔案。
- 它可以記住步驟(在一個會話或已儲存的工作流程中)並按計劃執行它們。
- 它可以將數據從一個步驟傳遞到下一個步驟——就像複製/貼上,但沒有手腕的拉傷。
如果您曾經嘗試錄製巨集或編寫 Selenium 腳本,並且心想,「我沒有註冊這種程度的書呆子行為」,那麼 Agent Mode 就是那個真正出現在搬家日的無程式碼表親。
誰應該使用 Agent Mode(以及誰不應該)
- 也是您:用於報告的輕量級數據抓取;表格提交;多步驟序列。
- 可能不是您(目前):每毫秒重新渲染的高度動態應用程式;積極阻止自動化的網站;任何涉及超出您舒適範圍的敏感憑證。
是的,它很強大。不,它不是巫師。它更像是一個非常有能力的實習生——快速、熱情,偶爾會被名為「提交」的相同按鈕弄糊塗。
速查表概述 ({short_description})
- 在 ChatGPT Atlas 中開啟 Agent Mode。
如果您什麼都不記得,請記住:監督第一次執行。這是賽季前的春季訓練。
逐步說明:如何使用 ChatGPT Atlas 的 Agent Mode 自動化網頁任務
1) 開啟 Agent Mode 並連接您的瀏覽器
- 開啟 ChatGPT Atlas 並找到 Agent Mode(通常在左側邊欄或「工具/自動化」下)。
- 授予必要的權限,使其能夠查看您的瀏覽器標籤頁並與之互動。
- 如果您的任務涉及登入,請決定如何處理憑證:密碼管理器注入、臨時令牌,或在出現問題時您不會哭泣的專用低權限帳戶。
專家提示:從非敏感網站開始,以建立您的信心。沒有人希望他們第一次自動化牛仔競技包含薪資。
2) 描述結果,而不是點擊
Agent Mode 了解諸如以下目標:「每週一上午 9 點,登入 Acme Analytics,下載 ‘每週訪客’ CSV,將其上傳到 Google Drive 的 ‘報告/2025’ 資料夾中,然後將摘要發布到 #marketing Slack 頻道。」
重點是描述您想要完成的事情——就像您向一個聰明但沒有看過您螢幕的朋友解釋一樣。Atlas 將提出一個計劃:導航到這裡,點擊那裡,提取這個,等等。
對計劃進行健全性檢查。如果它說「打開 Twitter」而您要求的是「發票 PDF」,請暫停。
3) 進行受監督的試運行
這裡是魔法發生的地方。Atlas 開始執行步驟,同時您在預覽窗格(或您的即時瀏覽器)中觀看。它會突出顯示它打算點擊的元素,顯示它找到的 DOM 選擇器,並記錄每個步驟。
- 如果它錯誤地識別了一個按鈕,請更正它:「使用標記為 ‘匯出為 CSV’ 的按鈕——而不是 ‘匯出為 PDF’。」
- 如果它錯過了一個步驟,請插入一個步驟:「登入後,在匯出之前導航到 ‘報告 > 每週’。」
- 如果網站使用無限滾動或分頁,請教導它:「滾動以加載 50 個項目,然後點擊 ‘下一步’,直到沒有下一頁。」
將此視為教導青少年開車。您將手放在方向盤附近,您指出停止標誌的位置,並且您希望沒有松鼠。
4) 標記、命名和參數化您的步驟
當試運行有效時,請抵制住喊「發布!」的衝動。相反,添加防護措施:
- 清楚地命名步驟:「登入」、「導航到每週」、「匯出 CSV」、「上傳到雲端硬碟」、「發布到 Slack」。未來的您會感謝過去的您。
- 引入變數:{week_start}、{folder_path}、{channel_name}。現在您的工作流程不是一次性的;它是一個範本。
- 儲存一個帶有版本註釋的副本:「v1.2 – 處理分頁和雙重驗證延遲」。您會震驚於註釋擊敗記憶的頻率。
5) 教導它處理現實世界的煩惱
網路是一個混亂的湯。按鈕移動。網站讓您登出。彈出視窗詢問您是否想要 cookie(不是有趣的那種)。增加彈性:
- 逾時和重試:「等待 ‘匯出’ 按鈕最多 10 秒;在升級之前重試兩次。」
- 條件分支:「如果出現 2FA,暫停並通知我;否則繼續。」
- CSS/XPath 後備:「首先嘗試 aria-label;如果失敗,則使用 role/button text 組合。」
- 結構化提取:「抓取表格,轉換為 CSV,並在儲存之前驗證欄標題。」
Atlas 很好,但「帶有防護欄很好」更好。
6) 儲存、測試和安排您的自動化
- 使用友好的名稱儲存工作流程:「每週網頁分析匯出」。
- 進行第二次執行,無人監督,但您在一旁待命。檢查輸出資料夾、檔案大小、Slack 貼文。
- 安排它:週一,上午 9 點。刻意設定時區——如果 Atlas 認為您住在雷克雅維克,「紐約上午 9 點」意味著非常不同的事情。
- 添加成功和失敗通知:成功時發送電子郵件,錯誤時發送簡訊。是的,您可以讓失敗訊息說「Womp womp」。
7) 密切關注日誌(您未來的自己會擁抱您)
Atlas 會記錄每個動作,包括時間戳記、選擇器和螢幕截圖(如果您啟用它們)。當出現問題時——而且會出現,因為網站——這些日誌是您的黑盒子記錄器。
那十分鐘的日誌探勘可以在以後為您節省數小時。
真實範例:從儀表板到雲端硬碟到 Slack
讓我們運行一個您可以調整的具體場景。
目標:從 Acme Analytics 提取每週流量,上傳到 Google Drive,並將摘要發布到 Slack。
- 提示:「每週一,登入 Acme Analytics,打開 ‘報告 > 每週流量’,匯出為 CSV,將其另存為 ‘traffic-{week_start}.csv’ 到 Google Drive 的 ‘/Reports/2025’ 中,然後將 ‘每週訪客:X;頂級推薦來源:Y’ 發布到 #marketing。」
- 試運行:它成功登入,但選擇 ‘匯出為 PDF’。您更正它並標記 CSV 按鈕。您添加一個條件:「如果模態視窗打開並顯示格式選擇,請選擇 CSV。」
- 數據提取:您預覽表格。標題顯示為 [日期、訪客、來源]。您告訴它計算 sum(訪客) 和頂級來源。
- 上傳:您連接您的雲端硬碟,批准存取,並指定資料夾路徑變數。
- Slack:您貼上 webhook 或應用程式令牌。您使用變數格式化訊息。
- 測試:CSV 落在正確的資料夾中。Slack 訊息:「每週訪客:32,481;頂級推薦來源:organic。」您進行勝利慶祝。
現在您有了一個每週機器人。您可以為每月摘要添加第二個機器人,並為第三個機器人添加推動 Gary from Sales,提醒他再次忘記標記廣告系列。(抱歉,Gary。)
節省時間的聰明技巧
- 記錄備用選擇器:如果一個網站同時具有 ‘匯出’ 和 ‘下載’,請以優先順序捕獲兩者。
- 按文字和位置錨定:「點擊 ‘每週流量’ 右側的按鈕。」當類別發生變化時,它出奇地穩健。
- 使用有意義的等待:「等待表格行數 > 0」勝過「等待 4 秒」。
- 驗證輸出:檔案是否為空?欄名稱是否匹配?行數是否在預期範圍內?快速失敗勝過以後失敗。
- 建立一個微小的數據字典:每一欄的含義、可接受的範圍、日期格式。您會在停機期間感謝自己。
- 快照關鍵頁面:當選擇器中斷時,螢幕截圖可幫助您進行修復,而無需重新運行整個流程。
常見陷阱(以及如何避開它們)
- 隱藏元素:如果 Atlas 嘗試點擊它看不到的東西,請先滾動到可見視窗,或切換到可見的副本。
- 過於聰明的 CSS:避免使用脆弱的選擇器,例如「div:nth-child(42)」。偏愛 ID、角色和文字。
- 彈出視窗攔截器:如果網站在新標籤頁中產生下載,請讓 Atlas 為該網站打開彈出視窗。
- 會話逾時:在動作步驟附近安排登入;保持運行時間短;處理「您已登出」。
- 反機器人牆:有些網站不希望自動化。保持人性化的速度和道德。尊重 robots.txt 和服務條款。
數據處理:成為房間裡的成年人
- 憑證:使用最低權限帳戶。定期輪換令牌。不要在提示中硬編碼密碼。
- 敏感數據:在日誌中遮罩它。開啟 PII 欄位的刪減。
- 儲存:將匯出檔案保存在安全、備份的位置。在重要的地方加密。
- 合規性:如果您在醫療保健、金融或教育領域,請在自動化之前與縮寫詞人員(HIPAA、SOC 2、FERPA)核對。
是的,安全性增加了步驟。但身份盜竊也是如此。
擴展:從一個 Agent 到一個小團隊
一旦您獲得一個 Agent Mode 工作流程,您就會想要更多。透過採用一些輕量級結構來避免義大利麵碗:
- 命名慣例:「部門-任務-頻率」,例如「Mktg-WeeklyTraffic-Mon0900」。
- 可重複使用的模組:建立一個「登入 Acme」迷你工作流程,您可以在其他地方導入。
- 中心變數:將共享位元——Slack 頻道、雲端硬碟根目錄——儲存在一個地方。
- 版本控制:「v1.4 增加了雙重驗證暫停」。將變更日誌保存在工作流程註釋中。
- 健康儀表板:一個單頁,顯示上次運行狀態、持續時間和下一個排程。即使是電子表格也可以。
您未來的綜合自動化平台可能很花哨。您的第一個平台可以整潔而無聊。無聊是好事。
疑難排解側邊欄
- 「它點擊了錯誤的按鈕。」
透過文字、aria-label 或相鄰元素添加消除歧義。或添加一個先前的步驟:「打開 ‘每週流量’ 旁邊的 kebab 選單,然後選擇 ‘匯出 CSV’。」
- 「頁面不斷重新渲染。」
將等待切換為基於事件的觸發器:「等待 role=progressbar 的元素消失」或「等待 XHR ‘/api/report’ 完成。」
- 「下載為空。」
在匯出之前驗證表格行數;如果為零則重試。某些網站需要在填充之前進行 ‘刷新’ 或日期範圍填充。
- 「2FA 毀了一切。」
對於高安全性網站,請考慮受監督的步驟、應用程式特定的令牌或時間限制的會話。或者接受某些任務仍然最好由碳基生物完成。
這是一個驚喜:Sider.AI 在這個沙盒中表現良好。如果您的日常工作生活在瀏覽器中——研究供應商、提取競爭情報、總結長頁面——Sider 的側邊欄可以在您將其交給 ChatGPT Atlas 中的 Agent Mode 之前,起草提示、總結頁面和結構化抓取的內容。我最喜歡的技巧:使用 Sider 生成乾淨的提取規則(「尋找 H2 ‘定價’,然後捕獲第一個表格」),並將這些規則直接貼上作為步驟指導。它並不完美,但是當您將其指向它所構建的東西時——整理混亂的網路資訊——感覺就像為您的機器人聘請了一位編輯。 進階操作:分支、迴圈和資料聯結
一旦您感到舒適,您就可以變得花哨——而無需成為完整的程式設計師。
- 分支:「如果報告類型為 ‘每月’,則應用不同的日期範圍。」
- 迴圈:「對於此表格中的每一行,打開詳細資料,複製 ID,並附加到電子表格。」
- 聯結:「針對 Google Sheet 交叉檢查抓取的 SKU;跳過已經看過的項目。」
- 節流:「限制為每分鐘 30 個動作。」讓您與速率限制和網站管理員保持友好。
這些聽起來很技術性。它們實際上只是食譜:「如果這樣,就那樣做,重複直到完成。」
Agent Mode 是錯誤的工具
- 一次性研究,每個頁面都不同?手動加上 Sider 的摘要工具可能更快。
- 任何需要判斷的事情,例如「這看起來像垃圾評論嗎?」——您可以自動化分類,但在迴圈中保留一個人來進行最終決定。
選擇您的戰鬥。在模式無聊且可重複的地方使用自動化。將有趣、柔軟、人性的東西留給自己。
安全網:讓失敗也變得無聊
- 斷路器:如果在 15 分鐘內發生超過 3 次失敗,則暫停排程並提醒您。
- 回滾:如果上傳失敗,請刪除部分檔案;如果發布失敗,請避免重複發布。
- 心跳:每日「我還活著」ping,以便您知道您的機器人已喚醒——即使沒有任何事情要做。
您不需要控制室。您需要一些良好的習慣。
您可以竊取的快速入門範本
將此提示骨架複製到 ChatGPT Atlas Agent Mode 中並填寫空白:
「目標:每個 [工作日] 在 [時區/時間] 登入 [網站 URL],導航到 [路徑],將日期範圍設定為 [範圍],匯出 [格式],驗證 [欄] 是否存在且行數 > [N],然後上傳到 [儲存] 在 [資料夾],命名為 [檔案名稱模式]。如果匯出失敗,則重試 [計數];如果仍然失敗,則透過 [頻道] 發出警示。使用偏好 aria-label、角色和可見文字的選擇器。等待 [spinner/element] 消失後再繼續。刪除日誌中的任何 [PII]。」
用輔助輪運行一次。修復擺動。儲存它。安排它。微笑。
總結:您的瀏覽器,現在具有可對握的拇指
ChatGPT Atlas 中的 Agent Mode 不會幫您繳稅或遛狗。但它絕對會消除無聊的網路家務的痛苦:匯出、上傳、複製貼上、 ‘點擊下一步 17 次’ 這種竊取您早晨的廢話。從小處著手,描述結果,監督第一次執行,並添加足夠的防護措施以保持其彈性。
不久之後,您將擁有一支整潔的小型瀏覽器機器人團隊。他們不會要求加薪。他們不會請病假。而且,值得慶幸的是,它們會讓您有更多時間去做真正需要您大腦的工作。
最後一件事:為您向團隊展示每週報告現在如何自行完成的那一天保留一份甜甜圈預算。您將成為英雄。而且機器人根本不會介意。
常見問題
Q1:如何啟動 ChatGPT Atlas 中的 Agent Mode 以進行網路自動化?
打開 ChatGPT Atlas,啟用 Agent Mode,並授予瀏覽器權限。用簡單的英語(而不是每個點擊)描述您的目標,然後進行受監督的試運行,以在儲存工作流程之前更正步驟。
Q2:ChatGPT Atlas 中的 Agent Mode 可以處理登入和 2FA 嗎?
是的,Agent Mode 可以執行登入並等待頁面,但 2FA 通常需要人工點擊或應用程式令牌。添加一個條件步驟:在 2FA 上暫停並通知您,然後在您批准後繼續。
Q3:哪些類型的網路任務最適合 ChatGPT Atlas 中的 Agent Mode?
重複、可預測的工作流程:匯出報告、填寫表格、抓取表格和發布摘要。如果網站佈局穩定且您的步驟每週重複,則 Agent Mode 會發光發熱。
Q4:如何使我的 Agent Mode 工作流程更可靠?
使用穩健的選擇器(aria-label、角色、可見文字)、基於事件的等待、重試和清晰的驗證,例如檢查欄名稱或行數。保留日誌和版本註釋,以便修復只需幾分鐘,而不是幾小時。
Q5: Sider.AI 是否適用於 ChatGPT Atlas 的 Agent Mode?
是的——Sider.AI 的側邊欄非常適合在您將任務交給 Agent Mode 之前,起草提示、總結長頁面以及生成清晰的提取規則。它不是魔法,但對於處理混亂的網路資訊來說,它是一個有用的輔助工具。