บทนำ: เมื่อเบราว์เซอร์ของคุณกลายเป็นคนขี้สงสัย
เคยไหมที่ต้องคลิกห้าครั้งเดิมๆ ทุกเช้า—เปิดแดชบอร์ดการขาย, ส่งออก CSV, วางลงในสเปรดชีต, ส่งอีเมลหาเจ้านาย—แล้วคิดว่า “คอมพิวเตอร์คงหัวเราะเยาะฉันแน่ๆ”? ฉันก็เป็นเหมือนกัน เราได้รับการสัญญาเรื่องระบบอัตโนมัติมานานมาก จนคำว่า “ตั้งค่าแล้วลืม” ฟังดูเหมือนโฆษณาอาหารลดน้ำหนักในวงการเทคโนโลยี
พบกับ Agent Mode ใน ChatGPT Atlas—ฟีเจอร์ที่อ้างว่าสามารถทำงานบ้านบนเว็บให้คุณได้จริงๆ เหมือนผู้ช่วยหุ่นยนต์สุภาพที่อยู่ในเบราว์เซอร์ของคุณ ไม่ใช่จินตนาการวิทยาศาสตร์ แต่เป็นผู้ช่วยตัวจริง, ที่มีเวทมนตร์เล็กน้อย, และบางครั้งก็จุกจิก ที่สามารถกรอกแบบฟอร์ม, ขูดหน้าเว็บ, อ้างอิงข้อมูล, และแม้กระทั่งวนซ้ำงานต่างๆ ในขณะที่คุณจิบกาแฟและแสร้งทำเป็นทำงานหนักในเรื่อง “กลยุทธ์”
ในคู่มือนี้ ฉันจะแนะนำคุณเกี่ยวกับวิธีใช้ Agent Mode ใน ChatGPT Atlas เพื่อทำให้งานบนเว็บของคุณเป็นอัตโนมัติ—พร้อมกับสิ่งที่มันทำได้ดี, จุดที่มันพลาด, และพิธีกรรมเล็กๆ น้อยๆ ที่คุณจะต้องปรับใช้เพื่อให้กลไกต่างๆ ทำงานได้อย่างราบรื่น คิดว่านี่คือการเรียนขับรถสำหรับคนขับรถที่ฉลาดมากๆ
Agent Mode ใน ChatGPT Atlas คืออะไรกันแน่?
Agent Mode เป็นฟีเจอร์ที่เชื่อมต่อกับเบราว์เซอร์ใน ChatGPT Atlas ที่สามารถรับคำสั่งระดับสูง—เช่น “ล็อกอินเข้าสู่เว็บไซต์วิเคราะห์ข้อมูลของฉัน, ดึงข้อมูลปริมาณการเข้าชมรายสัปดาห์, และโพสต์ไฮไลท์ใน Slack”—และเปลี่ยนให้เป็นชุดของการกระทำ: นำทาง, คลิก, พิมพ์, ขูด, บันทึก, และทำซ้ำ แทนที่คุณจะต้องคลิกผ่านเว็บไซต์เหมือนหนูทดลองที่ดันคันโยกเพื่อรับอาหารเม็ด Agent Mode จะกลายเป็นผู้ดันคันโยกแทน
- มันสามารถอ่านหน้าเว็บ, คลิกปุ่ม, กรอกแบบฟอร์ม, ทำตามการแบ่งหน้า, และส่งออกไฟล์ได้
- มันสามารถจดจำขั้นตอนต่างๆ ได้ (ภายในเซสชันหรือเวิร์กโฟลว์ที่บันทึกไว้) และเรียกใช้งานตามกำหนดเวลาได้
- มันสามารถส่งต่อข้อมูลจากขั้นตอนหนึ่งไปยังอีกขั้นตอนหนึ่งได้—เหมือนการคัดลอก/วาง แต่ไม่ต้องเมื่อยข้อมือ
หากคุณเคยพยายามบันทึกมาโครหรือเขียนสคริปต์ Selenium แล้วคิดว่า “ฉันไม่ได้สมัครใจมาเป็นเนิร์ดขนาดนี้นะ” Agent Mode คือญาติที่ไม่ต้องเขียนโค้ดที่มาช่วยในวันย้ายบ้านจริงๆ
ใครควรใช้ Agent Mode (และใครที่ไม่ควรใช้)
- คุณ: งานบนเว็บที่ทำซ้ำๆ, รูปแบบที่ชัดเจน, กิ่งก้านการตัดสินใจที่เรียบง่าย
- คุณอีกเช่นกัน: การขูดข้อมูลเบาๆ สำหรับรายงาน; การส่งแบบฟอร์ม; ลำดับหลายขั้นตอน
- อาจจะเป็นคุณ: เวิร์กโฟลว์ที่ล็อกอินซึ่งเกี่ยวข้องกับการตรวจสอบสิทธิ์แบบเบาๆ
- อาจจะไม่ใช่คุณ (ในตอนนี้): แอปที่มีการเปลี่ยนแปลงตลอดเวลาที่เรนเดอร์ใหม่ทุกมิลลิวินาที; ไซต์ที่บล็อกระบบอัตโนมัติอย่างจริงจัง; สิ่งที่เกี่ยวข้องกับข้อมูลประจำตัวที่ละเอียดอ่อนเกินกว่าที่คุณจะสบายใจ
ใช่ มันทรงพลัง ไม่ มันไม่ใช่พ่อมด มันเหมือนเด็กฝึกงานที่มีความสามารถมาก—รวดเร็ว, กระตือรือร้น, และบางครั้งก็สับสนกับปุ่มที่เหมือนกันเป๊ะๆ ที่ชื่อว่า “ส่ง”
ภาพรวมแบบชีทโกง ()
- เปิด Agent Mode ใน ChatGPT Atlas
- อธิบายเป้าหมายของคุณด้วยภาษาอังกฤษธรรมดา
- ทำการรันแบบมีคนดูแล: ดู, แก้ไข, และติดป้ายขั้นตอน
- บันทึกเวิร์กโฟลว์ด้วยตัวแปรที่นำกลับมาใช้ใหม่ได้
- กำหนดตารางเวลา หรือกด Run เมื่อจำเป็น
- เพิ่มมาตรการป้องกัน: การหมดเวลา, กฎการลองใหม่, และการสำรองข้อมูล
- บันทึกทุกอย่างเหมือนกับการทำภาษี
หากคุณจำอะไรไม่ได้เลย โปรดจำไว้ว่า: ดูแลการรันครั้งแรก มันคือการฝึกซ้อมช่วงฤดูใบไม้ผลิก่อนเริ่มฤดูกาลจริง
ทีละขั้นตอน: วิธีใช้ Agent Mode ใน ChatGPT Atlas เพื่อทำให้งานบนเว็บเป็นอัตโนมัติ
1) เปิด Agent Mode และเชื่อมต่อเบราว์เซอร์ของคุณ
- เปิด ChatGPT Atlas และค้นหา Agent Mode (โดยปกติจะอยู่ในแถบด้านข้างทางซ้าย หรือใต้ Tools/Automation)
- ให้สิทธิ์ที่จำเป็นเพื่อให้สามารถดูและโต้ตอบกับแท็บเบราว์เซอร์ของคุณได้
- หากงานของคุณเกี่ยวข้องกับการล็อกอิน ให้ตัดสินใจว่าคุณจะจัดการข้อมูลประจำตัวอย่างไร: การใส่ข้อมูลจากตัวจัดการรหัสผ่าน, โทเค็นชั่วคราว หรือบัญชีที่มีสิทธิ์ต่ำโดยเฉพาะที่คุณจะไม่เสียใจหากมีอะไรผิดพลาด
เคล็ดลับสำหรับมือโปร: เริ่มต้นด้วยไซต์ที่ไม่ละเอียดอ่อนเพื่อสร้างความมั่นใจ ไม่มีใครอยากให้การขี่ม้าครั้งแรกของพวกเขาเกี่ยวข้องกับบัญชีเงินเดือน
2) อธิบายผลลัพธ์ ไม่ใช่การคลิก
Agent Mode เข้าใจเป้าหมายต่างๆ เช่น: “ทุกวันจันทร์เวลา 9:00 น. ให้ล็อกอินเข้าสู่ Acme Analytics, ดาวน์โหลด CSV ‘ผู้เข้าชมรายสัปดาห์’, อัปโหลดไปยัง Google Drive ในโฟลเดอร์ ‘Reports/2025’ จากนั้นโพสต์สรุปไปยังแชนเนล #marketing Slack”
ประเด็นคือการอธิบายสิ่งที่คุณต้องการให้ทำ—เหมือนกับว่าคุณกำลังอธิบายให้เพื่อนที่ฉลาดแต่ไม่เคยเห็นหน้าจอของคุณฟัง Atlas จะเสนอแผน: นำทางมาที่นี่, คลิกที่นั่น, ดึงข้อมูลนี้ และอื่นๆ
ตรวจสอบแผนอย่างละเอียด หากมันบอกว่า “เปิด Twitter” และคุณขอ “PDF ใบแจ้งหนี้” ให้หยุดพัก
3) ทำการรันแบบแห้งโดยมีคนดูแล
นี่คือจุดที่เวทมนตร์เกิดขึ้น Atlas เริ่มดำเนินการตามขั้นตอนต่างๆ ในขณะที่คุณดูในบานหน้าต่างแสดงตัวอย่าง (หรือเบราว์เซอร์สดของคุณ) มันจะไฮไลต์องค์ประกอบที่ตั้งใจจะคลิก แสดงตัวเลือก DOM ที่พบ และบันทึกแต่ละขั้นตอน
- หากมันระบุปุ่มผิด ให้แก้ไข: “ใช้ปุ่มที่ระบุว่า ‘Export as CSV’—ไม่ใช่ ‘Export as PDF’”
- หากมันพลาดขั้นตอน ให้แทรกเข้าไป: “หลังจากล็อกอิน ให้นำทางไปที่ ‘Reports > Weekly’ ก่อนส่งออก”
- หากไซต์ใช้การเลื่อนแบบไม่สิ้นสุดหรือการแบ่งหน้า ให้สอนมัน: “เลื่อนเพื่อโหลด 50 รายการ จากนั้นคลิก ‘Next’ จนกว่าจะไม่มีหน้าถัดไป”
คิดว่านี่เหมือนกับการสอนวัยรุ่นขับรถ คุณคอยเอามือไว้ใกล้พวงมาลัย คุณชี้ให้เห็นว่าป้ายหยุดอยู่ที่ไหน และคุณหวังว่าจะไม่มีกระรอก
4) ติดป้าย, ตั้งชื่อ, และกำหนดพารามิเตอร์ขั้นตอนของคุณ
เมื่อการรันแบบแห้งได้ผล ให้ต้านทานความอยากที่จะตะโกนว่า “ส่งเลย!” แต่ให้เพิ่มมาตรการป้องกันแทน:
- ตั้งชื่อขั้นตอนให้ชัดเจน: “Login,” “Navigate to Weekly,” “Export CSV,” “Upload to Drive,” “Post to Slack” คุณในอนาคตจะขอบคุณคุณในอดีต
- แนะนำตัวแปร: {week_start}, {folder_path}, {channel_name} ตอนนี้เวิร์กโฟลว์ของคุณไม่ใช่แบบครั้งเดียว แต่เป็นเทมเพลต
- บันทึกสำเนาพร้อมบันทึกย่อเวอร์ชัน: “v1.2 – รองรับการแบ่งหน้าและความล่าช้าแบบ two-factor” คุณจะตกใจว่าบันทึกย่อเอาชนะความจำได้บ่อยแค่ไหน
5) สอนให้จัดการกับความน่ารำคาญในโลกแห่งความเป็นจริง
เว็บคือซุปแห่งความวุ่นวาย ปุ่มต่างๆ เคลื่อนที่ ไซต์ต่างๆ จะล็อกคุณออก ป๊อปอัปจะถามว่าคุณต้องการคุกกี้หรือไม่ (ไม่ใช่แบบสนุกๆ) เพิ่มความยืดหยุ่น:
- การหมดเวลาและการลองใหม่: “รอสูงสุด 10 วินาทีสำหรับปุ่ม ‘Export’ ลองใหม่สองครั้งก่อนที่จะยกระดับ”
- กิ่งก้านแบบมีเงื่อนไข: “หาก 2FA ปรากฏขึ้น ให้หยุดชั่วคราวและแจ้งเตือนฉัน มิฉะนั้นให้ดำเนินการต่อ”
- การสำรองข้อมูล CSS/XPath: “ลองใช้ aria-label ก่อน หากล้มเหลว ให้ใช้ชุดค่าผสม role/button text”
- การดึงข้อมูลแบบมีโครงสร้าง: “ดึงตาราง, แปลงเป็น CSV, และตรวจสอบส่วนหัวของคอลัมน์ก่อนบันทึก”
Atlas เก่ง แต่ “เก่งแบบมีกันชน” ดีกว่า
6) บันทึก, ทดสอบ, และกำหนดตารางเวลาอัตโนมัติของคุณ
- บันทึกเวิร์กโฟลว์ด้วยชื่อที่เป็นมิตร: “Weekly Web Analytics Export”
- ทำการรันครั้งที่สอง โดยไม่มีคนดูแล แต่คุณคอยเฝ้าดู ตรวจสอบโฟลเดอร์เอาต์พุต ขนาดไฟล์ โพสต์ Slack
- กำหนดตารางเวลา: วันจันทร์ 9:00 น. ตั้งค่าเขตเวลาโดยเจตนา—“9:00 น. ในนิวยอร์ก” หมายถึงสิ่งที่แตกต่างกันมากหาก Atlas คิดว่าคุณอาศัยอยู่ในเรคยาวิก
- เพิ่มการแจ้งเตือนความสำเร็จและความล้มเหลว: อีเมลสำหรับความสำเร็จ, SMS สำหรับข้อผิดพลาด และใช่ คุณสามารถทำให้ข้อความแสดงความล้มเหลวพูดว่า “Womp womp” ได้
7) คอยดูบันทึก (ตัวคุณในอนาคตจะกอดคุณ)
Atlas บันทึกทุกการกระทำด้วยการประทับเวลา ตัวเลือก และภาพหน้าจอ (หากคุณเปิดใช้งาน) เมื่อมีบางอย่างเสีย—และมันจะเป็นเช่นนั้น เพราะเว็บไซต์—บันทึกเหล่านั้นคือเครื่องบันทึกกล่องดำของคุณ
- ตรวจสอบส่วนต่าง: “สัปดาห์นี้ปุ่มย้ายไปที่กล่องโต้ตอบใหม่”
- อัปเดตตัวเลือกหรือลำดับขั้นตอน
- เรียกใช้อีกครั้งด้วยอินพุตเดิม ยืนยันว่าแก้ไขแล้ว
การสำรวจบันทึกเป็นเวลาสิบนาทีนั้นสามารถช่วยคุณประหยัดเวลาได้หลายชั่วโมงในภายหลัง
คำแนะนำในชีวิตจริง: จากแดชบอร์ดสู่ Drive สู่ Slack
มาเรียกใช้สถานการณ์ที่เป็นรูปธรรมที่คุณสามารถปรับเปลี่ยนได้
เป้าหมาย: ดึงข้อมูลปริมาณการเข้าชมรายสัปดาห์จาก Acme Analytics, อัปโหลดไปยัง Google Drive, และโพสต์สรุปไปยัง Slack
- แจ้ง: “ทุกวันจันทร์ ให้ล็อกอินเข้าสู่ Acme Analytics, เปิด ‘Reports > Weekly Traffic,’ ส่งออกเป็น CSV, บันทึกเป็น ‘traffic-{week_start}.csv’ ไปยัง Google Drive ใน ‘/Reports/2025,’ จากนั้นโพสต์ ‘ผู้เข้าชมรายสัปดาห์: X; ผู้แนะนำอันดับต้นๆ: Y’ ไปยัง #marketing”
- แผน Atlas: มันเสนอขั้นตอน คุณตรวจสอบ
- การรันแบบแห้ง: มันล็อกอินได้สำเร็จ แต่เลือก ‘Export as PDF’ คุณแก้ไขและติดป้ายปุ่ม CSV คุณเพิ่มเงื่อนไข: “หากโมดัลเปิดขึ้นพร้อมตัวเลือกรูปแบบ ให้เลือก CSV”
- การดึงข้อมูล: คุณแสดงตัวอย่างตาราง ส่วนหัวจะมาเป็น [Date, Visitors, Source] คุณบอกให้คำนวณผลรวม (Visitors) และ Source อันดับต้นๆ
- อัปโหลด: คุณเชื่อมต่อ Drive ของคุณ อนุมัติการเข้าถึง และระบุตัวแปรเส้นทางโฟลเดอร์
- Slack: คุณวาง webhook หรือโทเค็นแอป คุณจัดรูปแบบข้อความด้วยตัวแปร
- ทดสอบ: CSV จะไปอยู่ในโฟลเดอร์ที่ถูกต้อง ข้อความ Slack: “ผู้เข้าชมรายสัปดาห์: 32,481; ผู้แนะนำอันดับต้นๆ: organic” คุณทำการฉลองชัยชนะ
ตอนนี้คุณมีหุ่นยนต์รายสัปดาห์แล้ว คุณสามารถเพิ่มหุ่นยนต์ตัวที่สองสำหรับสรุปรายเดือน และตัวที่สามเพื่อสะกิด Gary จากฝ่ายขายเมื่อเขาลืมแท็กแคมเปญอีกครั้ง (ขอโทษนะ Gary)
เคล็ดลับอัจฉริยะที่ช่วยประหยัดเวลาในภายหลัง
- บันทึกตัวเลือกสำรอง: หากไซต์มีทั้ง ‘Export’ และ ‘Download’ ให้จับภาพทั้งสองอย่างด้วยลำดับความสำคัญ
- ยึดตามข้อความและตำแหน่ง: “คลิกปุ่มทางด้านขวาของ ‘Weekly Traffic’” มันแข็งแกร่งอย่างน่าประหลาดใจเมื่อคลาสมีการเปลี่ยนแปลง
- ใช้การรอที่มีความหมาย: “รอจนกระทั่งจำนวนแถวของตาราง > 0” ดีกว่า “รอ 4 วินาที”
- ตรวจสอบความถูกต้องของเอาต์พุต: ไฟล์ไม่ว่างเปล่า? ชื่อคอลัมน์ตรงกัน? จำนวนแถวอยู่ในช่วงที่คาดไว้? ล้มเหลวเร็วดีกว่าล้มเหลวทีหลัง
- สร้างพจนานุกรมข้อมูลขนาดเล็ก: ความหมายของแต่ละคอลัมน์ ช่วงที่ยอมรับได้ รูปแบบวันที่ คุณจะขอบคุณตัวเองในช่วงที่ระบบขัดข้อง
- สแนปชอตหน้าสำคัญ: เมื่อตัวเลือกเสีย ภาพหน้าจอจะช่วยคุณแก้ไขโดยไม่ต้องเรียกใช้โฟลว์ทั้งหมดอีกครั้ง
ข้อผิดพลาดทั่วไป (และวิธีหลีกเลี่ยง)
- องค์ประกอบที่ซ่อนอยู่: หาก Atlas พยายามคลิกสิ่งที่ไม่เห็น ให้เลื่อนไปที่มุมมองก่อน หรือสลับไปใช้สำเนาที่มองเห็นได้
- CSS ที่ฉลาดเกินไป: หลีกเลี่ยงตัวเลือกที่เปราะบางเช่น “div:nth-child(42)” ให้ใช้ IDs, roles และ text
- ตัวบล็อกป๊อปอัป: หากไซต์สร้างการดาวน์โหลดในแท็บใหม่ ให้ Atlas เปิดป๊อปอัปสำหรับไซต์นั้น
- การหมดเวลาของเซสชัน: กำหนดเวลาการล็อกอินใกล้กับขั้นตอนการดำเนินการ รันให้สั้น จัดการ “คุณถูกล็อกเอาต์แล้ว”
- กำแพงต่อต้านบอท: บางไซต์ไม่ต้องการระบบอัตโนมัติ รักษาระดับความเร็วให้เหมือนมนุษย์และมีจริยธรรม เคารพ robots.txt และข้อกำหนดในการให้บริการ
การจัดการข้อมูล: เป็นผู้ใหญ่ในห้อง
- ข้อมูลประจำตัว: ใช้บัญชีที่มีสิทธิ์น้อยที่สุด หมุนเวียนโทเค็นเป็นประจำ อย่าฮาร์ดโค้ดรหัสผ่านภายในข้อความแจ้ง
- ข้อมูลที่ละเอียดอ่อน: ปิดบังไว้ในบันทึก เปิดการแก้ไขสำหรับฟิลด์ PII
- ที่เก็บข้อมูล: เก็บข้อมูลที่ส่งออกในตำแหน่งที่ปลอดภัยและสำรองข้อมูล เข้ารหัสเมื่อมีความสำคัญ
- การปฏิบัติตามกฎระเบียบ: หากคุณอยู่ในอุตสาหกรรมการดูแลสุขภาพ การเงิน หรือการศึกษา ให้ตรวจสอบกับผู้ที่เกี่ยวข้องกับตัวย่อ (HIPAA, SOC 2, FERPA) ก่อนที่คุณจะทำให้เป็นอัตโนมัติ
ใช่ การรักษาความปลอดภัยเพิ่มขั้นตอน แต่การโจรกรรมข้อมูลประจำตัวก็เช่นกัน
การขยายขนาด: จาก Agent เดียวไปสู่ทีมเล็กๆ
เมื่อคุณมีเวิร์กโฟลว์ Agent Mode แล้ว คุณจะต้องการมากขึ้น หลีกเลี่ยงชามสปาเก็ตตี้โดยปรับใช้โครงสร้างเบาๆ บางอย่าง:
- แบบแผนการตั้งชื่อ: “Dept-Task-Frequency” เช่น “Mktg-WeeklyTraffic-Mon0900”
- โมดูลที่นำกลับมาใช้ใหม่ได้: สร้างเวิร์กโฟลว์ขนาดเล็ก “Login to Acme” ที่คุณสามารถนำเข้าไปที่อื่นได้
- ตัวแปรส่วนกลาง: จัดเก็บบิตที่แชร์—แชนเนล Slack, ไดรฟ์รูท—ไว้ในที่เดียว
- การควบคุมเวอร์ชัน: “v1.4 เพิ่มการหยุดชั่วคราวแบบ two-factor” เก็บ changelogs ไว้ในบันทึกย่อของเวิร์กโฟลว์
- แดชบอร์ดสถานะ: หน้าเดียวที่แสดงสถานะการรันล่าสุด ระยะเวลา และกำหนดการถัดไป แม้แต่สเปรดชีตก็ใช้ได้
แพลตฟอร์มอัตโนมัติที่ครอบคลุมในอนาคตของคุณอาจจะหรูหรา แพลตฟอร์มแรกของคุณสามารถเป็นระเบียบเรียบร้อยและน่าเบื่อ น่าเบื่อเป็นสิ่งที่ดี
แถบด้านข้างสำหรับการแก้ไขปัญหา
- “มันคลิกปุ่มผิด”
เพิ่มความชัดเจนด้วยข้อความ aria-label หรือองค์ประกอบใกล้เคียง หรือเพิ่มขั้นตอนก่อนหน้า: “เปิดเมนูเคบับถัดจาก ‘Weekly Traffic’ จากนั้นเลือก ‘Export CSV’”
- “หน้าเว็บเรนเดอร์ใหม่อยู่เรื่อยๆ”
สลับการรอไปยังทริกเกอร์ตามเหตุการณ์: “รอให้องค์ประกอบที่มีบทบาท = progressbar หายไป” หรือ “รอให้ XHR ‘/api/report’ เสร็จสิ้น”
- “การดาวน์โหลดว่างเปล่า”
ตรวจสอบจำนวนแถวของตารางก่อนส่งออก ลองใหม่หากเป็นศูนย์ บางไซต์ต้องการ “Refresh” หรือการเติมช่วงวันที่ก่อนที่จะเติมข้อมูล
- “2FA ทำลายทุกอย่าง”
สำหรับไซต์ที่มีความปลอดภัยสูง ให้พิจารณาขั้นตอนที่มีการดูแล โทเค็นเฉพาะแอป หรือเซสชันแบบจำกัดเวลา หรือยอมรับว่าบางงานยังคงทำได้ดีกว่าโดยสิ่งมีชีวิตที่มีคาร์บอนเป็นพื้นฐาน
คำพูดสั้นๆ เกี่ยวกับ Sider.AI
นี่คือเรื่องน่าประหลาดใจ: Sider.AI ทำงานได้ดีในแซนด์บ็อกซ์นี้ หากวันของคุณอยู่ในเบราว์เซอร์—ค้นคว้าผู้ขาย, ดึงข้อมูลข่าวกรองการแข่งขัน, สรุปหน้าเวลายาวๆ—แถบด้านข้างของ Sider สามารถร่างข้อความแจ้ง, สรุปหน้าเว็บ, และจัดโครงสร้างเนื้อหาที่ขูดมาก่อนที่คุณจะส่งต่อไปยัง Agent Mode ใน ChatGPT Atlas เคล็ดลับที่ฉันชอบ: ใช้ Sider เพื่อสร้างกฎการดึงข้อมูลที่สะอาด (“มองหา H2 ‘Pricing’ จากนั้นจับภาพตารางแรก”) และวางสิ่งเหล่านั้นโดยตรงเป็นคำแนะนำขั้นตอน มันไม่สมบูรณ์แบบ แต่เมื่อคุณชี้ไปที่สิ่งที่สร้างขึ้นมาเพื่อ—จัดระเบียบข้อมูลเว็บที่ยุ่งเหยิง—มันให้ความรู้สึกเหมือนการจ้างบรรณาธิการสำหรับหุ่นยนต์ของคุณ การเคลื่อนไหวขั้นสูง: การแตกแขนง ลูป และการรวมข้อมูล
เมื่อคุณสบายใจแล้ว คุณสามารถหรูหราได้—โดยไม่ต้องเป็นโปรแกรมเมอร์เต็มตัว
- กิ่งก้าน: “หากประเภทรายงานคือ ‘Monthly’ ให้ใช้ช่วงวันที่ที่แตกต่างกัน”
- ลูป: “สำหรับแต่ละแถวในตารางนี้ ให้เปิดรายละเอียด คัดลอก ID และต่อท้ายสเปรดชีต”
- การรวม: “ตรวจสอบ SKUs ที่ขูดกับ Google Sheet ข้ามรายการที่เคยเห็นแล้ว”
- การควบคุมปริมาณ: “จำกัดไว้ที่ 30 การกระทำต่อนาที” ทำให้คุณเป็นมิตรกับขีดจำกัดอัตรา—และกับผู้ดูแลไซต์
สิ่งเหล่านี้ฟังดูเป็นเทคนิค จริงๆ แล้วเป็นเพียงสูตรอาหาร: “ถ้าสิ่งนี้ ให้ทำสิ่งนั้น ทำซ้ำจนกว่าจะเสร็จ”
เมื่อ Agent Mode เป็นเครื่องมือที่ไม่ถูกต้อง
- การวิจัยแบบครั้งเดียวที่ทุกหน้าแตกต่างกัน? การใช้คู่มือร่วมกับตัวสรุปของ Sider อาจจะเร็วกว่า
- ไซต์ที่ห้ามระบบอัตโนมัติในข้อกำหนด? เคารพสิ่งนั้น
- สิ่งที่ต้องใช้การตัดสินใจ เช่น “สิ่งนี้ดูเหมือนความคิดเห็นสแปมหรือไม่”—คุณสามารถทำให้การคัดกรองเป็นอัตโนมัติได้ แต่ให้มนุษย์อยู่ในวงจรสำหรับการตัดสินใจขั้นสุดท้าย
เลือกการต่อสู้ของคุณ ใช้ระบบอัตโนมัติในที่ที่รูปแบบน่าเบื่อและทำซ้ำได้ เก็บสิ่งสนุกๆ ที่เป็นมนุษย์ไว้สำหรับตัวคุณเอง
ตาข่ายนิรภัย: ทำให้ความล้มเหลวน่าเบื่อเช่นกัน
- ตัวตัดวงจร: หากเกิดความล้มเหลวมากกว่า 3 ครั้งใน 15 นาที ให้หยุดกำหนดการชั่วคราวและแจ้งเตือนคุณ
- การย้อนกลับ: หากการอัปโหลดล้มเหลว ให้ลบไฟล์บางส่วน หากการโพสต์ล้มเหลว ให้หลีกเลี่ยงการโพสต์ซ้ำ
- Heartbeats: การปิง “ฉันยังมีชีวิตอยู่” ทุกวัน เพื่อให้คุณรู้ว่าหุ่นยนต์ของคุณตื่นอยู่—แม้ว่าจะไม่มีอะไรให้ทำ
คุณไม่จำเป็นต้องมีห้องควบคุม คุณต้องการนิสัยที่ดีเพียงไม่กี่อย่าง
เทมเพลตเริ่มต้นอย่างรวดเร็วที่คุณสามารถขโมยได้
คัดลอกโครงกระดูกข้อความแจ้งนี้ลงใน ChatGPT Atlas Agent Mode และเติมช่องว่าง:
“เป้าหมาย: ทุก [วันในสัปดาห์] เวลา [เขตเวลา/เวลา] ให้ล็อกอินเข้าสู่ [URL ไซต์] นำทางไปที่ [เส้นทาง] ตั้งค่าช่วงวันที่เป็น [ช่วง] ส่งออก [รูปแบบ] ตรวจสอบว่า [คอลัมน์] มีอยู่และจำนวนแถว > [N] จากนั้นอัปโหลดไปยัง [ที่เก็บข้อมูล] ที่ [โฟลเดอร์] ชื่อ [รูปแบบชื่อไฟล์] หากการส่งออกล้มเหลว ให้ลองใหม่ [จำนวน] หากยังคงล้มเหลว ให้แจ้งเตือนผ่าน [แชนเนล] ใช้ตัวเลือกที่ต้องการ aria-label บทบาท และข้อความที่มองเห็นได้ รอให้ [สปินเนอร์/องค์ประกอบ] หายไปก่อนดำเนินการต่อ แก้ไข [PII] ใดๆ ในบันทึก”
เรียกใช้หนึ่งครั้งด้วยล้อช่วย พลิกกลับให้เข้าที่ บันทึก กำหนดเวลา ยิ้ม
สรุป: เบราว์เซอร์ของคุณ ตอนนี้มีนิ้วหัวแม่มือที่ใช้งานได้
Agent Mode ใน ChatGPT Atlas จะไม่ทำภาษีให้คุณหรือพาสุนัขของคุณไปเดินเล่น แต่มันจะช่วยลดความเจ็บปวดจากงานบ้านบนเว็บที่น่าเบื่อได้อย่างแน่นอน: การส่งออก การอัปโหลด การคัดลอก-วาง ความไร้สาระ “คลิก Next 17 ครั้ง” ที่ขโมยเช้าของคุณ เริ่มต้นเล็กๆ อธิบายผลลัพธ์ ดูแลการรันครั้งแรก และเพิ่มมาตรการป้องกันให้เพียงพอเพื่อให้มีความยืดหยุ่น
ในไม่ช้าคุณจะมีลูกเรือหุ่นยนต์เบราว์เซอร์ที่เป็นระเบียบเรียบร้อย พวกเขาจะไม่ขอขึ้นเงินเดือน พวกเขาจะไม่โทรมาบอกว่าป่วย และพวกเขายินดีที่จะให้เวลาคุณมากขึ้นสำหรับงานที่ต้องใช้สมองของคุณจริงๆ
สิ่งสุดท้าย: เก็บงบประมาณโดนัทไว้สำหรับวันที่คุณแสดงให้ทีมของคุณเห็นว่ารายงานประจำสัปดาห์ทำเองได้แล้ว คุณจะเป็นฮีโร่ และหุ่นยนต์จะไม่ว่าอะไรเลย
คำถามที่พบบ่อย
Q1: ฉันจะเริ่มต้น Agent Mode ใน ChatGPT Atlas สำหรับระบบอัตโนมัติบนเว็บได้อย่างไร
เปิด ChatGPT Atlas เปิดใช้งาน Agent Mode และให้สิทธิ์เบราว์เซอร์ อธิบายเป้าหมายของคุณด้วยภาษาอังกฤษธรรมดา (ไม่ใช่ทุกคลิก) จากนั้นทำการรันแบบแห้งโดยมีคนดูแลเพื่อแก้ไขขั้นตอนก่อนบันทึกเวิร์กโฟลว์
Q2: Agent Mode ใน ChatGPT Atlas สามารถจัดการการล็อกอินและ 2FA ได้หรือไม่
ได้ Agent Mode สามารถทำการล็อกอินและรอหน้าเว็บได้ แต่ 2FA มักจะต้องมีการแตะจากมนุษย์หรือโทเค็นแอป เพิ่มขั้นตอนแบบมีเงื่อนไข: หยุดชั่วคราวที่ 2FA และแจ้งเตือนคุณ จากนั้นดำเนินการต่อเมื่อคุณอนุมัติแล้ว
Q3: งานบนเว็บประเภทใดที่เหมาะสมที่สุดสำหรับ Agent Mode ใน ChatGPT Atlas
เวิร์กโฟลว์ที่ทำซ้ำได้และคาดเดาได้: การส่งออกรายงาน การกรอกแบบฟอร์ม การขูดตาราง และการโพสต์สรุป หากเลย์เอาต์ของไซต์มีเสถียรภาพและขั้นตอนของคุณทำซ้ำทุกสัปดาห์ Agent Mode จะเปล่งประกาย
Q4: ฉันจะทำให้เวิร์กโฟลว์ Agent Mode ของฉันเชื่อถือได้มากขึ้นได้อย่างไร
ใช้ตัวเลือกที่แข็งแกร่ง (aria-label บทบาท ข้อความที่มองเห็นได้) การรอตามเหตุการณ์ การลองใหม่ และการตรวจสอบความถูกต้องที่ชัดเจน เช่น การตรวจสอบชื่อคอลัมน์หรือจำนวนแถว เก็บบันทึกและบันทึกย่อเวอร์ชันเพื่อให้การแก้ไขใช้เวลาไม่นาน
คำถามที่ 5: Sider.AI มีประโยชน์กับการใช้ Agent Mode ใน ChatGPT Atlas หรือไม่
มีแน่นอน—แถบด้านข้างของ Sider.AI เหมาะอย่างยิ่งสำหรับการร่าง prompt, สรุปเนื้อหาในหน้าเว็บยาวๆ และสร้างกฎการ extraction ที่ชัดเจน ก่อนที่คุณจะมอบหมายงานให้กับ Agent Mode มันไม่ใช่เวทมนตร์ แต่มันเป็นเหมือนผู้ช่วยนักบินที่มีประโยชน์สำหรับข้อมูลเว็บที่ยุ่งเหยิง