เคยไหมที่อยากให้เบราว์เซอร์ของคุณ... กรอกฟอร์มให้เองเลย?
ลองจินตนาการภาพนี้: 23:58 น. คุณให้สัญญาว่าจะส่งแบบฟอร์มค่าใช้จ่ายเดิมที่บริษัทของคุณใช้มาตั้งแต่สมัย Netscape ยังฮิต คุณกำลังหรี่ตาดูช่อง 17 ช่อง—ชื่อ ที่อยู่ วันที่ วันที่อีกครั้ง (ในสองรูปแบบ!) ดรอปดาวน์ที่ใช้งานได้ก็ต่อเมื่อคุณคลิกที่สามเหลี่ยมเท่านั้น คุณพึมพำ กาแฟของคุณถอนหายใจ คุณสงสัยว่าอินเทอร์เน็ตเติบโตขึ้นและลืมพาคุณไปด้วยหรือเปล่า
พบกับ Gemini 2.5 Computer Use—โมเดลของ Google ที่ในการตั้งค่าที่เหมาะสม สามารถใช้งานคอมพิวเตอร์ของคุณได้เหมือนผู้ช่วยที่อดทน ซึ่งไม่รังเกียจที่จะคลิก พิมพ์ เลื่อน และอัปโหลดในนามของคุณ ไม่ใช่แค่ตอบคำถาม ไม่ใช่แค่แนะนำการกดแป้น เรากำลังพูดถึง: มันขยับเคอร์เซอร์ เปิดเว็บไซต์ ลงชื่อเข้าใช้ และกรอกแบบฟอร์มเว็บจริงๆ
รู้สึกเหมือนส่งกุญแจรถให้เพื่อนที่เพิ่งหัดขับเกียร์ธรรมดาไหม? ใช่ มันน่าตื่นเต้นอย่างประหลาดเมื่อมันใช้งานได้ไหม? ก็ใช่เช่นกัน และนั่นคือสิ่งที่เราจะพูดถึงในวันนี้: วิธีการทำให้การกรอกแบบฟอร์มเว็บเป็นอัตโนมัติด้วย Gemini 2.5 Computer Use ในการดำเนินการ—อย่างปลอดภัย มีสติ และมีเสียงหัวเราะเล็กน้อยเมื่อมันคิดว่าปุ่ม “Submit” เป็นโลโก้ประดับ
ในคู่มือเชิงปฏิบัติฉบับนี้ ฉันจะพาคุณไปดู:
- “Computer Use” หมายถึงอะไรสำหรับ Gemini 2.5
- วิธีการตั้งค่าเวิร์กโฟลว์การกรอกแบบฟอร์มที่ทำซ้ำได้และไม่น่ากลัว
- การสาธิตทีละขั้นตอน: จาก CSV ไปจนถึงแบบฟอร์มที่เสร็จสมบูรณ์
- เคล็ดลับสำหรับช่องที่ยุ่งยาก (captchas, ตัวเลือกวันที่, ตัวช่วยสร้างหลายขั้นตอน)
- ความปลอดภัย ความเป็นส่วนตัว และข้อจำกัดที่แท้จริงของการทำงานอัตโนมัติบนเว็บในปัจจุบัน
- เครื่องมือต่างๆ เช่น Sider.AI สามารถเป็นศูนย์บัญชาการของคุณในการควบคุมละครสัตว์นี้ได้อย่างไร
ทั้งหมดนี้อยู่ในภาษาที่เข้าใจง่าย พร้อมด้วยรายละเอียดปลีกย่อยในโลกแห่งความเป็นจริงที่คุณจะได้พบเจอ
Gemini 2.5 Computer Use คืออะไร? คิดซะว่าเป็นเด็กฝึกงานหุ่นยนต์ที่ระมัดระวัง
“Computer Use” เป็นโหมดที่ Gemini 2.5 ไม่ได้แค่สร้างข้อความ—แต่มันควบคุมเบราว์เซอร์และเดสก์ท็อปของคุณ ภายใต้การดูแลของคุณ มันสามารถ:
- เปิดเว็บไซต์ นำทางเมนู และคลิกไปรอบๆ
- พิมพ์ลงในช่องป้อนข้อมูลและ textareas (แม้แต่ช่องที่ปรากฏขึ้นหลังจาก modals สามช่อง)
- ถ่ายภาพหน้าจอและให้เหตุผลเกี่ยวกับสิ่งที่มันเห็น (นั่นคือเวทมนตร์)
ในทางปฏิบัติ Gemini 2.5 Computer Use สามารถทำให้การกรอกแบบฟอร์มเว็บเป็นไปโดยอัตโนมัติตั้งแต่ต้นจนจบ คุณอธิบายงาน (“ไปที่ URL นี้ ลงชื่อเข้าใช้ ส่งแบบฟอร์มการใช้ไมล์สะสมรายสัปดาห์สำหรับรายชื่อพนักงานนี้”) ให้ข้อมูล แล้วมันจะทำการคลิกและพิมพ์ ความน่าดึงดูดใจคืออะไร? ไม่ต้องทำงานแบบ “swivel-chair automation” อีกต่อไป—คัดลอกจากสเปรดชีตและวางลงในช่องต่างๆ จนกว่าวิญญาณของคุณจะออกจากร่าง
แต่—และนี่คือ “แต่” ขนาดใหญ่—เว็บคือสวนสัตว์ แบบฟอร์มมีความหลากหลายอย่างมาก บางแบบฟอร์มต้องการเดือนที่เป็นตัวเลขหลักเดียว บางแบบฟอร์มต้องการชื่อเดือนเต็มในภาษานอร์เวย์ นั่นคือเหตุผลที่คุณจะต้องมีแนวทางปฏิบัติที่ดีที่สุดสองสามข้อและแผนที่สำหรับเวลาที่เด็กฝึกงานหุ่นยนต์สับสน
งานที่เหมาะสมสำหรับ Gemini 2.5: เมื่อระบบอัตโนมัติเปล่งประกาย (และเมื่อไม่เป็นเช่นนั้น)
ใช้ Gemini 2.5 Computer Use สำหรับ:
- แบบฟอร์มภายในที่ทำซ้ำ (รายงานค่าใช้จ่าย การอัปเดต HR การเริ่มต้นใช้งาน การเคลมค่าเดินทาง)
- พอร์ทัลผู้ขายที่มีรูปแบบที่สอดคล้องกันและช่องที่คาดเดาได้
- การโยกย้ายข้อมูล (CSV ไปยังแบบฟอร์มเว็บ ฐานข้อมูลไปยังแอป SaaS)
- การอัปเดตหลายรายการที่เส้นทางเดียวกัน มีเพียงค่าเท่านั้นที่เปลี่ยนแปลง
หลีกเลี่ยง (หรือเตรียมพร้อมสำหรับการช่วยเหลือเพิ่มเติม) เมื่อ:
- มี captcha หรือการป้องกันบอทที่รุนแรง (การรักษาความปลอดภัยด้วยไฟฉาย)
- ต้องมีการตรวจสอบสิทธิ์แบบสองปัจจัยสำหรับทุกการกระทำ
- รูปแบบหน้าเปลี่ยนแปลงไปอย่างสิ้นเชิงต่อหนึ่งรายการ
- การเข้าถึงไม่ดี (ช่องที่ไม่มีป้ายกำกับ สิ่งที่คลิกได้ที่ไม่ใช่ปุ่ม)
กฎง่ายๆ: หากมนุษย์ที่ระมัดระวังสามารถทำได้ตามจังหวะ Gemini 2.5 มักจะเรียนรู้ได้ หากมนุษย์ที่ระมัดระวังต้องเดาแต่ละขั้นตอน โมเดลอาจใช้เวลาคุณภาพในการคลิกการตกแต่งที่สวยงาม
ชุดเริ่มต้นของคุณ: เครื่องมือและการเตรียมการ
คุณจะต้องมี:
- เบราว์เซอร์ที่ Gemini สามารถควบคุมได้ (โดยทั่วไปคือ Chrome/Chromium ผ่านเลเยอร์การทำงานอัตโนมัติที่ปลอดภัย)
- ข้อมูลรับรองแบบอ่านอย่างเดียวสำหรับเว็บไซต์เป้าหมาย หากเป็นไปได้ (ความคิดแบบสิทธิ์น้อยที่สุด)
- บัญชีทดสอบที่สะอาดหรือสภาพแวดล้อม sandbox (เพื่อที่คุณจะไม่สั่งซื้อวิดเจ็ต 12,000 ชิ้นโดยไม่ได้ตั้งใจ)
- ข้อมูลของคุณในรูปแบบที่เป็นระเบียบ (CSV, JSON หรือ Google Sheet) พร้อมส่วนหัวที่ตรงกับป้ายกำกับแบบฟอร์ม
- รายการตรวจสอบของช่องแบบฟอร์มตามลำดับที่ปรากฏ
ตัวเลือกเสริมแต่มีประโยชน์อย่างยิ่ง:
- ภาพหน้าจอของแบบฟอร์มที่มีป้ายกำกับวงกลมเหมือนโค้ชที่กำลังวาดแผนการเล่น
- ชุดเล็กๆ ของ 3–5 แถวตัวอย่างสำหรับการทดสอบ
- ไฟล์บันทึกที่คุณบันทึกสถานะของการรันแต่ละครั้งและข้อผิดพลาดใดๆ
คำแนะนำ: Gemini 2.5 Computer Use กรอกแบบฟอร์มค่าใช้จ่ายตัวอย่าง
เราจะทำสิ่งนี้เหมือนรายการทำอาหาร เมื่อถึงตอนท้าย คุณจะมีแบบฟอร์มที่ส่งไป 40 แบบฟอร์มและไม่มี soufflés ที่ยุบ
สถานการณ์: ทีมของคุณส่งการเบิกจ่ายค่าชดเชยระยะทางรายสัปดาห์ แบบฟอร์มเว็บมี:
- ชื่อพนักงาน (ช่องข้อความ)
- สัปดาห์สิ้นสุด (ตัวเลือกวันที่)
- อัตรา (ดรอปดาวน์: 0.50, 0.58, 0.62)
ข้อมูลของคุณอยู่ใน CSV:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
ขั้นตอนที่ 1: เตรียม Gemini 2.5 ด้วยบริบท
- ระบุ URL ของไซต์ ขั้นตอนการเข้าสู่ระบบใดๆ และป้ายกำกับที่แน่นอนตามที่เขียนไว้ในหน้า
- รวมส่วนหัว CSV และคำอธิบายวิธีการจับคู่กับฟิลด์
- บอกสิ่งที่ต้องทำเมื่อฟิลด์หายไปหรือถูกบล็อก (เช่น ข้ามแถว บันทึกข้อผิดพลาด)
ตัวอย่างคำแนะนำ:
“เปิด เข้าสู่ระบบด้วยบัญชีทดสอบ สำหรับแต่ละแถว CSV ให้ป้อน Name → Employee Name, week_ending → Week Ending (YYYY-MM-DD), total_miles → Total Miles, rate → Rate dropdown, notes → Notes, receipt_path → Upload ส่ง หลังจากส่งแล้ว ให้คัดลอกรหัสยืนยันและบันทึกไว้ข้างแถว”
ขั้นตอนที่ 2: ทดลองใช้หนึ่งแถว
- ขอให้ Gemini ดำเนินการบันทึกเดียวอย่างช้าๆ โดยบรรยายการกระทำแต่ละอย่าง ดูมันเหมือนเหยี่ยว
- ยืนยันว่ามันเลือกดรอปดาวน์ที่ถูกต้องและไม่ได้พิมพ์โน้ตลงในช่อง “Total Miles” (มันเกิดขึ้นได้!)
- หากตัวเลือกวันที่เปิดวิดเจ็ตปฏิทิน ให้สั่ง: “พิมพ์วันที่ลงในช่องโดยตรงในรูปแบบ YYYY-MM-DD อย่าคลิกปฏิทิน”
ขั้นตอนที่ 3: เพิ่มราวกั้น
- บอกวิธีตรวจจับความสำเร็จ: เช่น มองหาคำว่า “Confirmation” และรูปแบบรหัสเช่น EXP-####
- บอกวิธีตรวจจับความล้มเหลว: หาก “Error” หรือ “Try again” ปรากฏขึ้น ให้ถ่ายภาพหน้าจอและข้ามไปยังแถวถัดไป
- จำกัดความเร็ว: “รอ 500–800 มิลลิวินาทีหลังจากโหลดแต่ละหน้า หากปุ่มถูกปิดใช้งาน ให้ตรวจสอบซ้ำสำหรับช่องที่จำเป็น”
ขั้นตอนที่ 4: โหมดแบทช์
- ตอนนี้คุณพูดว่า: “ประมวลผลห้าแถวถัดไป” สังเกต ถ้ามันทำงานได้ดี ให้เพิ่มเป็น 20
- เก็บบันทึก: หมายเลขแถว สถานะ รหัสยืนยัน เส้นทางภาพหน้าจอ
ขั้นตอนที่ 5: สรุป
- ส่งออกบันทึกเป็น CSV ให้ Gemini วางกลับหรือบันทึกลงในโฟลเดอร์ของคุณ ตรวจสอบการส่งสองสามรายการบนพอร์ทัล
สิ่งที่คุณทำคือสอน Gemini 2.5 Computer Use ให้ทำตามพิธีกรรม ต่างจากสคริปต์ที่เปราะบาง มันเห็นหน้า ปรับตัวให้เข้ากับการเปลี่ยนแปลง UI เล็กน้อย และทำต่อไป มันเหมือนกับการทำงานกับผู้ช่วยที่ระมัดระวัง คุณแสดง แล้วเชื่อใจ—แต่คุณยังคงตรวจสอบงาน
ส่วนที่ยุ่งยาก: ตัวเลือกวันที่ การอัปโหลดไฟล์ ตัวช่วยสร้างหลายขั้นตอน
วิธีการจัดการกับผู้ร้ายทั่วไปในแบบฟอร์มเว็บ:
- ตัวเลือกวันที่: สั่งให้ Gemini พิมพ์วันที่ในช่องป้อนข้อมูลโดยใช้รูปแบบที่ไซต์ยอมรับ หากไซต์ห้ามการพิมพ์ ให้พูดว่า: “เปิดปฏิทิน นำทางไปยังเดือนที่ถูกต้องโดยใช้ลูกศรซ้าย/ขวา จากนั้นคลิกวันที่” รวมตัวอย่าง: “สำหรับ 2025-10-03 ให้เลือก October 3, 2025”
- การตรวจสอบตัวเลข: บางช่องปฏิเสธเครื่องหมายจุลภาคหรือทศนิยมมากกว่าสองตำแหน่ง ชี้แจง: “ป้อน Total Miles เป็นจำนวนเต็มโดยไม่มีเครื่องหมายจุลภาค” หากคุณเห็นข้อความแสดงข้อผิดพลาดสีแดง ให้บอก Gemini วิธีล้าง
- ดรอปดาวน์: หลายรายการเป็นวิดเจ็ตแบบกำหนดเองที่มีรายการที่ซ่อนอยู่ พูดว่า: “คลิกที่ดรอปดาวน์ Rate หากตัวเลือกไม่เปิดขึ้น ให้คลิกที่ไอคอน chevron เลือกข้อความ ‘0.58’ หากมองไม่เห็น ให้เลื่อนภายในรายการดรอปดาวน์”
- การอัปโหลดไฟล์: ชี้ Gemini ไปยังเส้นทางไฟล์ที่แน่นอน หากกล่องโต้ตอบ OS ปรากฏขึ้น ให้บอกให้พิมพ์เส้นทางในช่องชื่อไฟล์แล้วกด Enter หากอนุญาตให้มีหลายไฟล์ ให้ระบุว่าจะให้หยุดหลังจากหนึ่งไฟล์หรือไม่
- แบบฟอร์มหลายขั้นตอน: บอกให้ Gemini รอจนกว่าปุ่ม “Next” จะเปิดใช้งาน หากหน้าเปลี่ยนแปลง ให้ยืนยันโดยมองหาหัวข้อเช่น “Step 2: Details”
- Captchas และ MFA: เป็นสัญญาณให้คุณส่งต่อ ขอให้หยุดชั่วคราวเพื่อให้มนุษย์สามารถทำ captcha หรืออนุมัติการแจ้งเตือนแบบพุช จากนั้นให้ Gemini ทำต่อ
- ป๊อปอัปเติมข้อความอัตโนมัติ: หากฟองคำแนะนำของเบราว์เซอร์ทับซ้อนกับฟิลด์ ให้สั่งให้ Gemini กด Escape ก่อนพิมพ์
การตรวจสอบความเป็นจริงเกี่ยวกับความเร็วและความแม่นยำ
Gemini 2.5 Computer Use ไม่ใช่รถแข่ง—มันเหมือนนักปั่นจักรยานที่อดทนมากซึ่งปฏิบัติตามป้ายหยุดทุกป้าย มันจะไม่เอาชนะปีศาจความเร็วของมนุษย์ที่ก้มหน้าก้มตา แต่ช่วยประหยัดความสนใจของคุณ ที่สำคัญกว่านั้น มันไม่เลอะเทอะกับแบบฟอร์มที่เหมือนกันเป็นครั้งที่สิบ
เคล็ดลับความแม่นยำ:
- เริ่มต้นด้วยห้ารายการ แก้ไขปัญหา จากนั้นปรับขนาด
- เพิ่ม “การตรวจสอบความสมเหตุสมผล” หลังจากการส่งแต่ละครั้ง: ยืนยันยอดรวม ตรวจสอบว่าแถวใหม่ปรากฏในหน้าประวัติของพอร์ทัล
- รักษาข้อมูลให้สะอาดที่แหล่งที่มา: รวมรูปแบบวันที่ ตรวจสอบหมายเลขล่วงหน้า
- บันทึกทุกอย่าง หากคุณไม่สามารถตรวจสอบได้ คุณก็ไม่สามารถไว้วางใจได้
ความปลอดภัยต้องมาก่อน: สิทธิ์ ความเป็นส่วนตัว และขอบเขต
การมอบการควบคุมเบราว์เซอร์ของคุณให้กับ AI ก็เหมือนกับการให้บัตรเครดิตแก่ลูกของคุณในร้านขายของชำ กำหนดกฎ
- ใช้โปรไฟล์เบราว์เซอร์แยกต่างหากที่มีคุกกี้และสิทธิ์ที่จำกัด
- สร้างผู้ใช้ทดสอบ “สิทธิ์น้อยที่สุด”—ไม่มีสิทธิ์ผู้ดูแลระบบ ขอบเขตที่จำกัด
- อย่าเก็บรหัสผ่านจริงในข้อความธรรมดาภายในพรอมต์ ใช้ตัวจัดการลับที่ปลอดภัยหากมี
- หากโฟลว์แตะต้องข้อมูลส่วนบุคคล (SSN รายละเอียดด้านสุขภาพ) ให้เคลียร์กับทีมปฏิบัติตามข้อกำหนดของคุณก่อน
- บันทึกหน้าจอหรือถ่ายภาพหน้าจอเป็นระยะๆ ระหว่างการทดสอบเพื่อตรวจสอบ
- สร้างปุ่ม “Stop” สีแดงขนาดใหญ่: คำแนะนำที่โมเดลปฏิบัติตามเสมอ หรือแป้นพิมพ์ลัดที่หยุดการควบคุม
จากสเปรดชีตสู่แบบฟอร์ม: เทมเพลตพรอมต์ที่ใช้ซ้ำได้
นี่คือเทมเพลตที่ใช้ซ้ำได้ซึ่งคุณสามารถปรับให้เข้ากับ Gemini 2.5 Computer Use คัดลอก ปรับแต่ง และบันทึกไว้สำหรับการประมวลผลแบทช์ครั้งต่อไปของคุณ
“Task: ส่งแบบฟอร์มค่าใช้จ่ายจาก CSV ที่แนบมาที่
Rules:
- บรรยายการกระทำ เคลื่อนที่ช้าๆ รอนานถึง 1.5 วินาทีสำหรับองค์ประกอบต่างๆ
- Mapping: name → Employee Name; week_ending → Week Ending (YYYY-MM-DD พิมพ์โดยตรง); total_miles → Total Miles (จำนวนเต็ม); rate → Rate dropdown; notes → Notes; receipt_path → Upload
- Success check: หลังจากการส่ง ให้จับภาพรหัสยืนยัน (รูปแบบ EXP-####) Failure check: หาก ‘Error’ หรือ ‘Try again’ ปรากฏขึ้น ให้ถ่ายภาพหน้าจอ บันทึกหมายเลขแถวและข้อความแสดงข้อผิดพลาด แล้วข้าม
- Pace: ประมวลผล 5 แถวต่อครั้ง หลังจากแต่ละแบทช์ ให้ออกบันทึก CSV ที่มีคอลัมน์: row, status, confirmation_code, screenshot_path, notes
- Safety: หากถูกขอ MFA หรือ captcha ให้หยุดชั่วคราวและแจ้งเตือนฉัน อย่าดำเนินการต่อ
Begin with a single record and wait for my confirmation before continuing.”
พรอมต์นี้ช่วยลดการทำงานหนัก 90 นาทีเหลือ 15 นาทีของการกำกับดูแลอย่างรอบคอบ
หมายเหตุข้างเคียงในการแก้ไขปัญหา (เพราะบางสิ่งจะผิดพลาด)
- มันพิมพ์ในช่องที่ไม่ถูกต้อง: บอกให้มันอ้างอิงป้ายกำกับช่องโดยความใกล้เคียงของข้อความ: “พิมพ์ลงในช่องทางด้านขวาของป้ายกำกับ ‘Employee Name’” หากไม่มีป้ายกำกับ ให้อ้างอิงตามข้อความ placeholder
- ปุ่มไม่เปิดใช้งาน: โดยปกติแล้ว ช่องที่จำเป็นจะว่างเปล่าหรือมีช่องว่าง บอกให้ Gemini ตรวจสอบว่าแต่ละช่องที่จำเป็นมีค่าที่ไม่ใช่ค่าว่าง และทำให้การป้อนข้อมูลเบลอ (Tab) เพื่อกระตุ้นการตรวจสอบ
- วันนี้หน้าตาไม่เหมือนเดิม: ขอให้ Gemini ตรวจจับแบบฟอร์มใหม่โดยการสแกนหาหัวเรื่องและคำหลักทั่วไป หากความแปรปรวนของเค้าโครงเป็นเรื่องปกติ ให้รักษา “โปรไฟล์แบบฟอร์ม” สั้นๆ สำหรับแต่ละเวอร์ชัน
- ดาวน์โหลดใบเสร็จเปล่า: ตรวจสอบให้แน่ใจว่าขั้นตอนการอัปโหลดเสร็จสมบูรณ์ก่อนที่จะส่ง รอชิปชื่อไฟล์หรือแท็ก “uploaded”
- พอร์ทัลออกจากระบบของคุณ: เพิ่มขั้นตอน “keepalive” ระหว่างบันทึก—รีเฟรชหน้าเซสชันหรือลงชื่อเข้าใช้อีกครั้งเมื่อคุกกี้หมดอายุ
การเปรียบเทียบแนวทาง: Gemini 2.5 เทียบกับ สคริปต์ เทียบกับ RPA
- สคริปต์แบบดั้งเดิม (Selenium, Playwright): เร็วมาก แม่นยำมาก เปราะบางมาก คลาส CSS เปลี่ยนไปหนึ่งคลาสและการทำงานของโดมิโนทั้งหมดก็ล้มลง เหมาะสำหรับแอปที่ควบคุมได้
- แพลตฟอร์ม RPA: ทรงพลัง พร้อมด้วยผังงานแบบเห็นภาพและการกำกับดูแลระดับองค์กร การตั้งค่าอาจเป็นโครงการที่ต้องใช้เวลา เหมาะอย่างยิ่งหากคุณจะใช้งานทุกวัน
- Gemini 2.5 Computer Use: ยืดหยุ่น การให้เหตุผลแบบเห็นหน้า สโลว์กว่า แต่เปราะบางน้อยกว่า เหมาะสำหรับการรันเฉพาะกิจ พอร์ทัลของบุคคลที่สามที่ยุ่งเหยิง และการย้ายข้อมูลแบบครั้งเดียว
คิดว่า Gemini เป็นพนักงานชั่วคราวอเนกประสงค์ที่สามารถเดินเข้าไปในสำนักงานใหม่และคิดออกว่าลิ้นชักใดซ่อนคลิปหนีบกระดาษ—พร้อมคำแนะนำเล็กน้อย
Sider.AI เหมาะสมกับที่ใด (และช่วยได้อย่างแท้จริง)
นี่คือความประหลาดใจ: Sider.AI ทำงานได้ดีมากในฐานะศูนย์บัญชาการของคุณสำหรับเวิร์กโฟลว์เหล่านี้ คุณสามารถเก็บเทมเพลตพรอมต์ CSV บันทึก และภาพหน้าจอไว้ในที่เดียว—และขอให้ผู้ช่วยเชื่อมโยงขั้นตอนต่างๆ เข้าด้วยกัน มันจะไม่แทนที่การควบคุมหน้าแบบลงมือปฏิบัติจริงของ Gemini 2.5 Computer Use แต่สามารถ: - จัดเก็บและกำหนดเวอร์ชันพรอมต์ของคุณเหมือนตำราอาหารอัตโนมัติ
- สรุปบันทึกการรันเป็นรายงานง่ายๆ ว่า “ใครสำเร็จ ใครล้มเหลว อะไรต่อไป”
- สร้างพรอมต์การแก้ไขปัญหาที่ปรับแต่งได้เมื่อพอร์ทัลเปลี่ยนแปลง
- ช่วยคุณแปลงสเปรดชีตที่ยุ่งเหยิงให้เป็น CSV ที่สะอาดและพร้อมสำหรับการทำงานอัตโนมัติ
เมื่อใช้ร่วมกัน Sider.AI คือคลิปบอร์ดและ playbook Gemini 2.5 คือกองหลังในสนาม การเคลื่อนไหวขั้นสูง: ตรรกะแบบมีเงื่อนไข การแตกแขนง และการตรวจสอบ
เมื่อคุณเชื่อใจพื้นฐานแล้ว ให้เพิ่มความฉลาด:
- การแตกแขนง: “หากดรอปดาวน์ Rate ไม่มีตัวเลือกที่ต้องการ ให้เลือกค่าที่ใกล้เคียงที่สุด ≥ อัตราที่ร้องขอ มิฉะนั้น ให้ทำเครื่องหมายที่แถว”
- ไฟล์แนบแบบมีเงื่อนไข: “อัปโหลดใบเสร็จเฉพาะในกรณีที่ total_miles ≥ 50 มิฉะนั้น ให้เว้นว่างไว้”
- ฟิลด์ที่ได้มา: “คำนวณการเบิกจ่าย = total_miles × rate ตรวจสอบว่าผลรวมที่คำนวณโดยพอร์ทัลตรงกันภายใน $0.01 มิฉะนั้น ให้ถ่ายภาพหน้าจอและข้าม”
- การตรวจสอบข้ามหน้า: หลังจากการส่ง ให้เปิด “History” ค้นหารายการของวันนี้ และตรวจสอบว่าชื่อและผลรวมตรงกับ CSV
การตรวจสอบเหล่านี้เปลี่ยนการสาธิตที่สนุกสนานให้เป็นสิ่งที่ผู้จัดการของคุณอนุมัติ
แวะพักเล็กน้อย: ละครความปลอดภัย เทียบกับ การป้องกันที่แท้จริง
คุณจะพบพอร์ทัลที่ใช้ปริศนา แถบเลื่อนแบบคลิกและลาก หรือปริศนาป๊อปอัปที่คู่ควรกับฮอบบิท บางอย่างเป็นการป้องกันบอทที่แท้จริง บางอย่างเป็นการแต่งหน้าหน้า อย่าต่อสู้กับสิ่งที่ดี วางแผนสำหรับการหยุดมนุษย์ในวงจร ให้ Gemini ประกาศ: “ตรวจพบ Captcha—พร้อมสำหรับการช่วยเหลือของคุณ” จากนั้นดำเนินการต่อ
การป้องกันที่แท้จริงมาจากการตั้งค่าของคุณ: โปรไฟล์แยกต่างหาก สิทธิ์ที่จำกัด บันทึกการตรวจสอบ และเงื่อนไขการหยุดที่ชัดเจน
การวัดความสำเร็จ: “ดี” มีลักษณะอย่างไร
การทำงานอัตโนมัติของแบบฟอร์มเว็บที่ดีต่อสุขภาพด้วย Gemini 2.5 Computer Use มีลักษณะดังนี้:
- ประมวลผลแถว 95%+ โดยไม่ต้องปรับแต่งด้วยตนเอง
- ข้อผิดพลาดสามารถคาดเดาได้และบันทึกไว้ (วันที่ไม่ตรงกัน ไฟล์หายไป)
- คุณสามารถรันซ้ำจากแถวที่ล้มเหลวล่าสุดได้โดยไม่ต้องแตะต้องแถวก่อนหน้า
- มนุษย์สามารถตรวจสอบภาพหน้าจอและบันทึกเพื่อทำความเข้าใจว่าเกิดอะไรขึ้นได้อย่างแม่นยำ
เมื่อคุณทำเครื่องหมายเหล่านั้นได้ คุณได้เปลี่ยนงานที่น่าเบื่อให้เป็นเวิร์กโฟลว์ที่เรียบร้อยและตรวจสอบได้
Playbook ขนาดเล็ก: จากศูนย์ไปจนถึง “Submit” ใน 12 ขั้นตอน
- ระบุแบบฟอร์มเดียวที่น่าเบื่อที่คุณทำเป็นประจำทุกสัปดาห์
- ทำความสะอาดข้อมูลของคุณ วันที่ ตัวเลข เส้นทางไฟล์
- สร้างบัญชีทดสอบและ sandbox หากมี
- เปิด Gemini 2.5 Computer Use ในโปรไฟล์เบราว์เซอร์ที่ควบคุม
- อธิบายแบบฟอร์มและระบุการจับคู่ฟิลด์
- รันหนึ่งระเบียน—สโลว์โมชั่น บรรยาย โดยจับตาดู
- เพิ่มการตรวจสอบความสำเร็จและความล้มเหลว
- สร้างบันทึกแบทช์และภาพหน้าจอบนความผิดปกติใดๆ
- ประมวลผลห้ารายการ จากนั้นยี่สิบรายการ
- เพิ่มราวกั้นขนาดเล็ก (Escape เพื่อปิดการเติมข้อความอัตโนมัติ พิมพ์วันที่โดยตรง)
- ส่งออกบันทึก ตรวจสอบเฉพาะจุดในประวัติของพอร์ทัล
- บันทึกโครงสร้างพรอมต์และข้อมูลของคุณสำหรับสัปดาห์หน้า อนาคตของคุณจะเขียนจดหมายขอบคุณถึงคุณ
สิ่งสุดท้าย: อย่าต่อสู้กับหน้า—สอนหน้าให้คุณ
เว็บชอบเก็บความลับ ปุ่มซ่อนอยู่หลังไอคอน ช่องรอตำหนิคุณจนกว่าคุณจะคลิกออกไป Gemini 2.5 Computer Use ไม่ได้แก้ไขเว็บอย่างน่าอัศจรรย์—มันเรียนรู้อย่างอดทน ชัยชนะไม่ใช่ความเร็ว แต่เป็นความสงบ คุณเรียกคืนหนึ่งชั่วโมงที่คุณเคยใช้ในการแท็บผ่านช่องต่างๆ และใช้เวลาตัดสินใจว่าโน้ตควรพูดว่า “Client visits in Zone B” หรือ “Zone B extravaganza” ที่กล้าหาญกว่า
ดังนั้นเลือกหนึ่งแบบฟอร์ม ใส่ Gemini 2.5 Computer Use ในที่นั่งคนขับ—พร้อมเข็มขัดนิรภัย—แล้วปล่อยให้มันคลิก เมื่อรหัสยืนยันนั้นปรากฏขึ้นและไม่มีใครต้องขยับดรอปดาวน์ คุณจะรู้สึกเหมือนอินเทอร์เน็ตขอโทษสำหรับตัวเลือกวันที่ 2007
ประเด็นสำคัญ
- Gemini 2.5 Computer Use สามารถทำให้การกรอกแบบฟอร์มเว็บเป็นไปโดยอัตโนมัติโดยการดูและใช้งานหน้าของคุณเหมือนผู้ช่วยที่ระมัดระวัง
- เริ่มต้นเล็กๆ เพิ่มระบบป้องกัน และขยายขนาดเมื่อทุกอย่างราบรื่นแล้วเท่านั้น (ในทางที่ดี)
- ใช้ข้อมูลที่สะอาด กำหนดการจับคู่ฟิลด์ที่ชัดเจน และตรวจสอบความสำเร็จ/ความล้มเหลว
- ยอมรับว่า Captcha และ MFA คือช่วงเวลาที่ต้องมีคนเข้ามาเกี่ยวข้อง
- ใช้งานร่วมกับ Sider.AI เพื่อจัดการพรอมต์ บันทึก และการล้างข้อมูล เปรียบเสมือนคลิปบอร์ดสำหรับมือของ Gemini
ตอนนี้ไปสอนฟอร์มนั้นว่าใครเป็นเจ้านาย หรือพูดให้ถูกคือ ใครเป็นคนมอบหมายงานอย่างสุภาพ
คำถามที่พบบ่อย
Q1: Gemini 2.5 Computer Use คืออะไร ในภาษาที่เข้าใจง่าย?
มันคือโหมดที่ Gemini สามารถควบคุมเบราว์เซอร์ของคุณได้จริง ๆ ไม่ว่าจะเป็นการคลิก พิมพ์ อัปโหลด เพื่อให้สามารถทำงานกับฟอร์มบนเว็บไซต์ได้โดยอัตโนมัติ คิดซะว่ามันเป็นเด็กฝึกงานที่รอบคอบ ทำตามคำแนะนำของคุณและเล่าถึงขั้นตอนการทำงาน
Q2: Gemini 2.5 สามารถทำงานกับฟอร์มบนเว็บไซต์โดยอัตโนมัติได้จริงหรือ แม้กระทั่งการอัปโหลดไฟล์และการเลือกวันที่?
ได้ หากมีคำแนะนำที่ชัดเจน บอกให้มันพิมพ์วันที่โดยตรง จัดการกับดร็อปดาวน์ Rate อย่างชัดเจน และวางเส้นทางไฟล์ลงในกล่องโต้ตอบการอัปโหลด รายละเอียดเหล่านี้สร้างความแตกต่าง
Q3: ฉันจะทำให้การทำงานอัตโนมัติของฟอร์มบนเว็บไซต์ปลอดภัยและเป็นไปตามข้อกำหนดได้อย่างไร?
ใช้โปรไฟล์เบราว์เซอร์แยกต่างหาก บัญชีที่มีสิทธิ์น้อยที่สุด และบันทึกสำหรับทุกการทำงาน หลีกเลี่ยงการใส่รหัสผ่านในพรอมต์ หยุดชั่วคราวสำหรับ Captcha และ MFA จากนั้นดำเนินการต่อ
Q4: Gemini 2.5 เร็วกว่าสคริปต์แบบดั้งเดิมอย่าง Selenium หรือไม่?
โดยปกติจะไม่เร็วกว่า แต่ปรับตัวได้ดีกว่ากับหน้าที่ยุ่งเหยิงและงานเฉพาะกิจ สคริปต์เร็วกว่าแต่เปราะบาง Gemini ช้ากว่าแต่มีโอกาสน้อยที่จะเสียหายเมื่อ CSS ของเว็บไซต์เปลี่ยนแปลง
Q5: Sider.AI ช่วยอะไรได้บ้างในขั้นตอนการทำงานนี้?
Sider.AI สามารถจัดเก็บพรอมต์ของคุณ ทำความสะอาด CSV สรุปบันทึก และสร้างเคล็ดลับในการแก้ไขปัญหา เป็นเหมือนผู้จัดการและบรรณาธิการบริหารสำหรับคู่มือการทำงานอัตโนมัติของคุณ ในขณะที่ Gemini ทำหน้าที่คลิก