কখনো কি এমন ইচ্ছে হয়েছে যে আপনার ব্রাউজারটি নিজে থেকেই ফর্ম পূরণ করে দিক?
কল্পনা করুন: রাত ১১:৫৮। আপনি একই খরচের ফর্ম জমা দেওয়ার প্রতিশ্রুতি দিয়েছেন যা আপনার কোম্পানি Netscape-এর আমল থেকে ব্যবহার করে আসছে। আপনি ১৭টি বক্সে চোখ কুঁচকে তাকিয়ে আছেন—নাম, ঠিকানা, তারিখ, আবার তারিখ (দুটি ফরম্যাটে!), একটি ড্রপডাউন যা শুধুমাত্র ত্রিকোণের উপর ক্লিক করলেই কাজ করে। আপনি বিড়বিড় করছেন। আপনার কফি দীর্ঘশ্বাস ফেলছে। আপনি ভাবছেন ইন্টারনেট বড় হয়ে আপনাকে সঙ্গে নিতে ভুলে গেছে কিনা।
তাহলে পরিচয় করিয়ে দেই Gemini 2.5 Computer Use-এর সাথে— Google-এর মডেল, যা সঠিক সেটআপে আপনার কম্পিউটারে একজন ধৈর্যশীল সহকারীর মতো কাজ করতে পারে, যে আপনার হয়ে ক্লিক, টাইপ, স্ক্রল এবং আপলোড করতে দ্বিধা বোধ করে না। শুধু প্রশ্নের উত্তর দেওয়া নয়। শুধু কিস্ট্রোকের পরামর্শ দেওয়া নয়। আমরা বলছি: এটি আসলে কার্সার সরিয়ে সাইট খোলে, সাইন ইন করে এবং ওয়েব ফর্ম পূরণ করে।
এটা কি এমন মনে হয় যেন আপনি আপনার গাড়ির চাবি সেই বন্ধুকে দিচ্ছেন যে সবেমাত্র স্টিক ড্রাইভিং শিখেছে? হ্যাঁ। যখন এটি কাজ করে তখন কি এটি অদ্ভুতভাবে রোমাঞ্চকর? হ্যাঁ, এটাও। আর আজকের বিষয় হলো: কিভাবে Gemini 2.5 Computer Use ব্যবহার করে ওয়েব ফর্ম অটোমেট করা যায়— নিরাপদে, স্বাভাবিকভাবে এবং কিছু হাসি-ঠাট্টার মধ্যে, যখন এটি "Submit" বোতামটিকে একটি আলংকারিক লোগো মনে করে।
এই হাতে-কলমে গাইডে, আমি আপনাকে ধাপে ধাপে দেখাব:
- Gemini 2.5-এর জন্য "Computer Use" আসলে কী বোঝায়
- কিভাবে একটি ফর্ম-পূরণ ওয়ার্কফ্লো সেটআপ করবেন যা পুনরাবৃত্তিযোগ্য এবং ভীতিকর নয়
- ধাপে ধাপে ডেমো: CSV থেকে সম্পূর্ণ ফর্ম
- কঠিন ফিল্ডগুলোর জন্য কৌশল (ক্যাপচা, তারিখ বাছাইকারী, বহু-ধাপের উইজার্ড)
- নিরাপত্তা, গোপনীয়তা এবং আজকের ওয়েব অটোমেশনের বাস্তব সীমাবদ্ধতা
- কিভাবে Sider.AI-এর মতো সরঞ্জাম এই সার্কাসকে নিয়ন্ত্রণে আনার জন্য আপনার কমান্ড সেন্টার হতে পারে
সব কিছুই সহজ ভাষায়। বাস্তব জীবনের সমস্যাগুলোর জন্য পথ পরিবর্তন সহ, যা আপনি রাস্তায় সম্মুখীন হবেন।
Gemini 2.5 Computer Use কী? এটিকে একজন সতর্ক রোবট ইন্টার্ন হিসেবে মনে করুন
"Computer Use" হলো এমন একটি মোড যেখানে Gemini 2.5 শুধু টেক্সট তৈরি করে না— এটি আপনার তত্ত্বাবধানে একটি ব্রাউজার এবং আপনার ডেস্কটপ নিয়ন্ত্রণ করে। এটি যা করতে পারে:
- একটি ওয়েবসাইট খুলতে, মেনু নেভিগেট করতে এবং ক্লিক করতে
- ইনপুট ফিল্ড এবং টেক্সট এরিয়াতে টাইপ করতে (এমনকি তিনটি মডেলের পরে যেগুলো পপ আপ হয়)
- স্ক্রিনশট নিতে এবং এটি যা দেখছে সে সম্পর্কে যুক্তি দিতে (এটাই জাদু)
বাস্তব অর্থে, Gemini 2.5 Computer Use এন্ড-টু-এন্ড ওয়েব ফর্ম অটোমেট করতে পারে। আপনি টাস্কটি বর্ণনা করেন ("এই URL-এ যান, লগ ইন করুন, কর্মচারীদের এই তালিকার জন্য সাপ্তাহিক মাইলেজ ফর্ম জমা দিন"), এটিকে ডেটা দিন এবং এটি ক্লিক এবং টাইপিং করে। আকর্ষণীয়তা? আর স্প্রেডশিট থেকে কপি করে ফিল্ডে পেস্ট করার মতো কাজ করে আপনার আত্মাকে শরীর থেকে বের করে দেওয়ার দরকার নেই।
কিন্তু— এবং এটি একটি তারকাবহুল কিন্তু— ওয়েব একটি চিড়িয়াখানা। ফর্মগুলো ব্যাপকভাবে ভিন্ন হয়। কিছুতে এক-সংখ্যার মাস প্রয়োজন; অন্যগুলো নরওয়েজিয়ান ভাষায় পুরো মাসের নাম চায়। সেজন্য আপনার কিছু সেরা অনুশীলন এবং একটি মানচিত্রের প্রয়োজন হবে যখন রোবট ইন্টার্ন বিভ্রান্ত হয়ে যায়।
Gemini 2.5-এর জন্য সঠিক কাজ: কখন অটোমেশন উজ্জ্বল হয় (এবং কখন হয় না)
Gemini 2.5 Computer Use ব্যবহার করুন:
- পুনরাবৃত্তিমূলক অভ্যন্তরীণ ফর্মের জন্য (খরচের রিপোর্ট, HR আপডেট, অনবোর্ডিং, ভ্রমণ দাবি)
- সামঞ্জস্যপূর্ণ বিন্যাস এবং অনুমানযোগ্য ফিল্ড সহ ভেন্ডর পোর্টাল
- ডেটা-এন্ট্রি মাইগ্রেশন (CSV থেকে ওয়েব ফর্ম, ডেটাবেস থেকে SaaS অ্যাপ)
- মাল্টি-রেকর্ড আপডেটের জন্য যেখানে পাথ একই থাকে; শুধুমাত্র মান পরিবর্তন হয়
এড়িয়ে চলুন (অথবা আরও বেশি হাতে-কলমে করার জন্য প্রস্তুত থাকুন) যখন:
- একটি ক্যাপচা বা আক্রমণাত্মক বট প্রতিরক্ষা আছে (ফ্ল্যাশলাইট সহ বাউন্সার)
- প্রতিটি কাজের জন্য দ্বি-ফ্যাক্টর প্রমাণীকরণ প্রয়োজন
- প্রতি রেকর্ডে পৃষ্ঠার বিন্যাস радикально পরিবর্তিত হয়
- অ্যাক্সেসিবিলিটি দুর্বল (লেবেলবিহীন ক্ষেত্র, ক্লিকযোগ্য জিনিস যা বোতাম নয়)
সাধারণ নিয়ম: যদি একজন সতর্ক মানুষ এটি একটি ছন্দে করতে পারে, তবে Gemini 2.5 সাধারণত এটি শিখতে পারে। যদি একজন সতর্ক মানুষকে প্রতিটি পদক্ষেপ অনুমান করতে হয়, তবে মডেলটি আলংকারিক কারুকার্যের উপর ক্লিক করে মূল্যবান সময় কাটাতে পারে।
আপনার স্টার্টার কিট: সরঞ্জাম এবং প্রস্তুতি
আপনার যা লাগবে:
- একটি ব্রাউজার যা Gemini নিয়ন্ত্রণ করতে পারে (সাধারণত Chrome/Chromium একটি সুরক্ষিত অটোমেশন স্তরের মাধ্যমে)
- সম্ভব হলে টার্গেট সাইটের জন্য শুধুমাত্র পঠনযোগ্য প্রমাণপত্র (কম সুবিধা মানসিকতা)
- একটি পরিষ্কার পরীক্ষা অ্যাকাউন্ট বা স্যান্ডবক্স পরিবেশ (যাতে আপনি দুর্ঘটনাক্রমে ১২,০০০ উইজেট অর্ডার না করেন)
- ফর্ম লেবেলের সাথে মেলে এমন হেডার সহ একটি পরিপাটি বিন্যাসে (CSV, JSON, বা একটি Google শীট) আপনার ডেটা
- ফর্ম ফিল্ডগুলোর একটি চেকলিস্ট যে ক্রমে সেগুলো প্রদর্শিত হয়
ঐচ্ছিক কিন্তু খুব সহায়ক:
- ফর্মের স্ক্রিনশট, যেখানে লেবেলগুলো একটি কোচ কর্তৃক অঙ্কিত চিত্রের মতো বৃত্তাকারে চিহ্নিত করা হয়েছে
- পরীক্ষার জন্য ৩-৫টি নমুনার সারি
- একটি লগ ফাইল যেখানে আপনি প্রতিটি রানের স্থিতি এবং কোনো ত্রুটি রেকর্ড করেন
ওয়াকথ্রু: Gemini 2.5 Computer Use একটি নমুনার খরচের ফর্ম পূরণ করছে
আমরা এটি একটি রান্নার অনুষ্ঠানের মতো করব। শেষের দিকে, আপনার ৪০টি ফর্ম জমা দেওয়া হবে এবং কোনো সাফলে পতিত হবে না।
পরিস্থিতি: আপনার দল সাপ্তাহিক মাইলেজ রি reimbursement জমা দেয়। ওয়েব ফর্মটিতে রয়েছে:
- কর্মচারীর নাম (টেক্সট ফিল্ড)
- সপ্তাহ শেষ (তারিখ বাছাইকারী)
- হার (ড্রপডাউন: ০.৫০, ০.৫৮, ০.৬২)
- জমা দিন, তারপর একটি নিশ্চিতকরণ কোড
আপনার ডেটা একটি CSV-তে থাকে:
name,week_ending,total_miles,rate,notes,receipt_path
Alex Park,2025-10-03,142,0.58,Client visits in Zone B,/receipts/alex-1003.pdf
Riya Shah,2025-10-03,87,0.58,Airport shuttle runs,/receipts/riya-1003.pdf
...etc
ধাপ ১: Gemini 2.5 কে প্রসঙ্গ দিয়ে শুরু করুন
- সাইটের URL, যেকোনো লগইন পদক্ষেপ এবং পৃষ্ঠায় লিখিত সঠিক লেবেল সরবরাহ করুন।
- CSV হেডার এবং ফিল্ডগুলোতে কীভাবে ম্যাপ করতে হয় তার একটি বিবরণ অন্তর্ভুক্ত করুন।
- যখন ফিল্ডগুলো অনুপস্থিত বা ব্লক করা হয় তখন কী করতে হবে তা বলুন (যেমন, সারি বাদ দিন, ত্রুটি লগ করুন)।
নির্দেশাবলীর উদাহরণ:
“টেস্ট অ্যাকাউন্ট দিয়ে লগইন করুন। প্রতিটি CSV সারির জন্য, নাম → কর্মচারীর নাম, week_ending → সপ্তাহ শেষ (YYYY-MM-DD), মোট_মাইল → মোট মাইল, হার → হার ড্রপডাউন, নোট → নোট, রসিদ_পাথ → আপলোড লিখুন। জমা দিন। জমা দেওয়ার পরে, নিশ্চিতকরণ কোডটি অনুলিপি করুন এবং সারির পাশে রেকর্ড করুন।”
ধাপ ২: একটি সারি দিয়ে একটি ড্রাই রান করুন
- Gemini কে একটি একক রেকর্ড ধীরে ধীরে সম্পাদন করতে বলুন, প্রতিটি কাজ বর্ণনা করে। বাজপাখির মতো এটির দিকে তাকিয়ে থাকুন।
- নিশ্চিত করুন যে এটি সঠিক ড্রপডাউন নির্বাচন করে এবং "মোট মাইল" ফিল্ডে নোট টাইপ করে না (এটা হয়!)।
- যদি তারিখ বাছাইকারী একটি ক্যালেন্ডার উইজেট খোলে, তাহলে নির্দেশ দিন: “YYYY-MM-DD ফর্ম্যাটে সরাসরি ফিল্ডে তারিখ টাইপ করুন; ক্যালেন্ডারে ক্লিক করবেন না।”
ধাপ ৩: গার্ডরেল যোগ করুন
- এটিকে কীভাবে সাফল্য সনাক্ত করতে হয় তা বলুন: যেমন, "Confirmation" শব্দটি এবং EXP-####-এর মতো একটি কোড প্যাটার্ন দেখুন।
- এটিকে কীভাবে ব্যর্থতা সনাক্ত করতে হয় তা বলুন: যদি "Error" বা "Try again" প্রদর্শিত হয়, তাহলে একটি স্ক্রিনশট নিন এবং পরবর্তী সারিতে যান।
- গতি সীমিত করুন: “প্রতিটি পেজ লোডের পরে ৫০০-৮০০ ms অপেক্ষা করুন। যদি বোতামটি নিষ্ক্রিয় থাকে, তবে প্রয়োজনীয় ফিল্ডগুলোর জন্য আবার পরীক্ষা করুন।”
ধাপ ৪: ব্যাচ মোড
- এখন আপনি বলুন: “পরবর্তী পাঁচটি সারি প্রক্রিয়া করুন।” পর্যবেক্ষণ করুন। যদি এটি সঠিকভাবে কাজ করে, তবে ২০টিতে উন্নীত করুন।
- একটি লগ রাখুন: সারির নম্বর, স্থিতি, নিশ্চিতকরণ কোড, স্ক্রিনশট পাথ।
ধাপ ৫: মোড়ানো
- CSV হিসাবে লগটি এক্সপোর্ট করুন। Gemini কে এটি আবার পেস্ট করতে বা আপনার ফোল্ডারে সংরক্ষণ করতে বলুন। পোর্টালে কয়েকটি জমা দেওয়া জায়গা পরীক্ষা করুন।
আপনি যা করেছেন তা হল Gemini 2.5 Computer Use কে একটি আচার শেখানো। ভঙ্গুর স্ক্রিপ্টের মতো নয়, এটি পৃষ্ঠাটি দেখে, ছোটখাটো UI পরিবর্তনগুলোর সাথে খাপ খায় এবং চলতে থাকে। এটি একটি সতর্ক সহকারীর সাথে কাজ করার মতো; আপনি দেখান, তারপর বিশ্বাস করেন—তবে আপনি এখনও কাজটি পরীক্ষা করেন।
আটকে থাকার মতো বিষয়: তারিখ বাছাইকারী, ফাইল আপলোড, বহু-ধাপের উইজার্ড
ওয়েব ফর্মগুলোতে সাধারণ ভিলেনদের কীভাবে মোকাবেলা করতে হয়:
- তারিখ বাছাইকারী: Gemini কে সাইটের গ্রহণযোগ্য বিন্যাস ব্যবহার করে ইনপুট বক্সে তারিখ টাইপ করার নির্দেশ দিন। যদি সাইট টাইপ করতে নিষেধ করে, তাহলে বলুন: "ক্যালেন্ডার খুলুন, বাম/ডান তীর ব্যবহার করে সঠিক মাসে নেভিগেট করুন, তারপর তারিখে ক্লিক করুন।" উদাহরণ অন্তর্ভুক্ত করুন: “2025-10-03-এর জন্য, অক্টোবর ৩, ২০২৫ নির্বাচন করুন।”
- সাংখ্যিক বৈধতা: কিছু ক্ষেত্র কমা বা দুটি দশমিকের বেশি গ্রহণ করে না। স্পষ্ট করুন: “কমা ছাড়া একটি পূর্ণসংখ্যা হিসাবে মোট মাইল লিখুন।” যদি আপনি লাল ত্রুটি বার্তা দেখেন, তাহলে Gemini কে এটি কীভাবে সরাতে হয় তা বলুন।
- ড্রপডাউন: অনেকের মধ্যে লুকানো তালিকা সহ কাস্টম উইজেট রয়েছে। বলুন: "হার ড্রপডাউনে ক্লিক করুন; যদি অপশন না খোলে, তাহলে শেভরন আইকনে ক্লিক করুন। '০.৫৮' টেক্সটটি চয়ন করুন। যদি দৃশ্যমান না হয়, তাহলে ড্রপডাউন তালিকার মধ্যে স্ক্রোল করুন।”
- ফাইল আপলোড: Gemini কে সঠিক ফাইল পাথের দিকে নির্দেশ করুন। যদি OS ডায়ালগ প্রদর্শিত হয়, তাহলে এটিকে ফাইলের নাম ফিল্ডে পাথ টাইপ করতে এবং এন্টার টিপতে বলুন। যদি একাধিক ফাইলের অনুমতি দেওয়া হয়, তাহলে নির্দিষ্ট করুন যে এটির পরে থামানো উচিত কিনা।
- বহু-ধাপের ফর্ম: Gemini কে "Next" বোতাম সক্রিয় না হওয়া পর্যন্ত অপেক্ষা করতে বলুন। যদি পৃষ্ঠা পরিবর্তিত হয়, তাহলে "ধাপ ২: বিবরণ"-এর মতো একটি শিরোনাম দেখে নিশ্চিত করুন।
- ক্যাপচা এবং MFA: আপনার বিরতির সংকেত। একজন মানুষকে ক্যাপচা করতে বা পুশ নোটিফিকেশন অনুমোদন করতে বলার জন্য জিজ্ঞাসা করুন। তারপর Gemini কে আবার শুরু করতে দিন।
- অটোকমপ্লিট পপ-আপ: যদি একটি ব্রাউজার পরামর্শ বুদ্বুদ ক্ষেত্রটিকে ওভারল্যাপ করে, তাহলে Gemini কে টাইপ করার আগে Escape টিপতে নির্দেশ দিন।
গতি এবং নির্ভুলতার উপর একটি বাস্তবতা যাচাই
Gemini 2.5 Computer Use কোনো রেস কার নয়—এটি একটি খুব ধৈর্যশীল সাইক্লিস্টের মতো, যে প্রতিটি স্টপ সাইন মেনে চলে। এটি একজন দ্রুতগতির মানুষের চেয়ে ভালো নাও হতে পারে, তবে এটি আপনার মনোযোগ বাঁচায়। আরও গুরুত্বপূর্ণ, এটি দশম অভিন্ন ফর্মটিতেও খারাপ হয় না।
নির্ভুলতার টিপস:
- পাঁচটি রেকর্ড দিয়ে শুরু করুন। সমস্যাগুলো সমাধান করুন। তারপর স্কেল করুন।
- প্রতিটি জমা দেওয়ার পরে "sanity check" যোগ করুন: মোট পরিমাণ নিশ্চিত করুন, যাচাই করুন যে নতুন সারিটি পোর্টালের ইতিহাস পৃষ্ঠায় প্রদর্শিত হয়েছে।
- উৎসটিতে ডেটা পরিষ্কার রাখুন: তারিখের বিন্যাস একত্রিত করুন; প্রাক-বৈধতা সংখ্যা।
- সবকিছু লগ করুন। আপনি যদি এটি নিরীক্ষণ করতে না পারেন তবে আপনি এটি বিশ্বাস করতে পারবেন না।
নিরাপত্তা প্রথম: অনুমতি, গোপনীয়তা এবং সীমানা
একটি AI-এর কাছে আপনার ব্রাউজারের নিয়ন্ত্রণ হস্তান্তর করা হল আপনার বাচ্চাকে মুদি দোকানে আপনার ক্রেডিট কার্ড দেওয়ার মতো। নিয়ম সেট করুন।
- সীমাবদ্ধ কুকি এবং অনুমতি সহ একটি পৃথক ব্রাউজার প্রোফাইল ব্যবহার করুন।
- একটি "কম সুবিধা" পরীক্ষা ব্যবহারকারী তৈরি করুন—কোনো অ্যাডমিন অ্যাক্সেস নয়, সীমিত সুযোগ।
- প্রম্পটে কখনো প্লেইনটেক্সটে আসল পাসওয়ার্ড সংরক্ষণ করবেন না। যদি সম্ভব হয়, একটি সুরক্ষিত গোপনীয়তা ব্যবস্থাপক ব্যবহার করুন।
- যদি প্রবাহ ব্যক্তিগত ডেটা (SSN, স্বাস্থ্য বিবরণ) স্পর্শ করে, তাহলে প্রথমে আপনার সম্মতি দলের সাথে তা পরিষ্কার করুন।
- নিরীক্ষণের জন্য পরীক্ষার সময়কালে স্ক্রিন রেকর্ড করুন বা পর্যায়ক্রমিক স্ক্রিনশট নিন।
- একটি বড় লাল "স্টপ" বোতাম তৈরি করুন: একটি নির্দেশনা যা মডেল সর্বদা মেনে চলে, অথবা একটি কীবোর্ড শর্টকাট যা নিয়ন্ত্রণ বন্ধ করে দেয়।
স্প্রেডশিট থেকে ফর্ম: একটি পুনরায় ব্যবহারযোগ্য প্রম্পট টেমপ্লেট
এখানে একটি পুনরায় ব্যবহারযোগ্য টেমপ্লেট রয়েছে যা আপনি Gemini 2.5 Computer Use-এর জন্য মানিয়ে নিতে পারেন। অনুলিপি করুন, পরিবর্তন করুন এবং আপনার পরবর্তী ব্যাচের জন্য এটি সংরক্ষণ করুন।
“কাজ: সংযুক্ত CSV থেকে খরচের ফর্ম জমা দিন
বিধি:
- কর্মকাণ্ড বর্ণনা করুন। ধীরে ধীরে চলুন। উপাদানের জন্য ১.৫ সেকেন্ড পর্যন্ত অপেক্ষা করুন।
- ম্যাপিং: নাম → কর্মচারীর নাম; week_ending → সপ্তাহ শেষ (YYYY-MM-DD সরাসরি টাইপ করা হয়েছে); মোট_মাইল → মোট মাইল (পূর্ণসংখ্যা); হার → হার ড্রপডাউন; নোট → নোট; রসিদ_পাথ → আপলোড।
- সফলতা পরীক্ষা: জমা দেওয়ার পরে, নিশ্চিতকরণ কোডটি ক্যাপচার করুন (প্যাটার্ন EXP-####)। ব্যর্থতা পরীক্ষা: যদি 'Error' বা 'Try again' প্রদর্শিত হয়, তাহলে একটি স্ক্রিনশট নিন, সারির নম্বর এবং ত্রুটি টেক্সট লগ করুন, তারপর বাদ দিন।
- গতি: একবারে ৫টি সারি প্রক্রিয়া করুন। প্রতিটি ব্যাচের পরে, সারি, স্থিতি, নিশ্চিতকরণ_কোড, স্ক্রিনশট_পাথ, নোট কলাম সহ একটি CSV লগ আউটপুট করুন।
- নিরাপত্তা: যদি MFA বা ক্যাপচার জন্য জিজ্ঞাসা করা হয়, তাহলে বিরতি দিন এবং আমাকে জানান। এগিয়ে যাবেন না।
একটি একক রেকর্ড দিয়ে শুরু করুন এবং চালিয়ে যাওয়ার আগে আমার নিশ্চিতকরণের জন্য অপেক্ষা করুন।”
এই একটি প্রম্পট ৯০ মিনিটের পরিশ্রমকে ১৫ মিনিটের চিন্তাশীল তত্ত্বাবধানে কমিয়ে আনে।
সমস্যা সমাধানের পার্শ্ব নোট (কারণ কিছু ভুল হবে)
- এটি ভুল ফিল্ডে টাইপ করে: টেক্সট সান্নিধ্য দ্বারা ফিল্ড লেবেল উল্লেখ করতে বলুন: “'কর্মচারীর নাম' লেবেলের ডানদিকের ইনপুটে টাইপ করুন।” যদি লেবেল অনুপস্থিত থাকে, তাহলে প্লেসহোল্ডার টেক্সট দ্বারা উল্লেখ করুন।
- বোতামটি সক্ষম হবে না: সাধারণত একটি প্রয়োজনীয় ক্ষেত্র খালি বা হোয়াইটস্পেস। Gemini কে যাচাই করতে বলুন যে প্রতিটি প্রয়োজনীয় ফিল্ডের মান অ-খালি এবং বৈধতা ট্রিগার করতে ইনপুট (Tab) ব্লার করুন।
- আজ পৃষ্ঠাটি আলাদা দেখাচ্ছে: শিরোনাম এবং সাধারণ কীওয়ার্ডের জন্য স্ক্যান করে ফর্মটি পুনরায় সনাক্ত করতে Gemini কে বলুন। যদি লেআউট ভিন্নতা সাধারণ হয়, তাহলে প্রতিটি সংস্করণের জন্য একটি সংক্ষিপ্ত "ফর্ম প্রোফাইল" রাখুন।
- একটি ফাঁকা রসিদ ডাউনলোড করে: জমা দেওয়ার আগে আপলোড ধাপটি সম্পূর্ণ হয়েছে কিনা তা নিশ্চিত করুন; ফাইলের নাম চিপ বা "আপলোড করা" ট্যাগের জন্য অপেক্ষা করুন।
- পোর্টাল আপনাকে লগ আউট করে দেয়: রেকর্ডের মধ্যে একটি "keepalive" ধাপ যোগ করুন—সেশন পৃষ্ঠা রিফ্রেশ করুন বা কুকি মেয়াদ শেষ হলে পুনরায় লগইন করুন।
দৃষ্টিভঙ্গির তুলনা: Gemini 2.5 বনাম স্ক্রিপ্ট বনাম RPA
- ঐতিহ্যবাহী স্ক্রিপ্ট (Selenium, Playwright): খুব দ্রুত, খুব সুনির্দিষ্ট, খুব ভঙ্গুর। একটি CSS ক্লাস পরিবর্তিত হয়েছে এবং পুরো ডমিনো রানটি উল্টে যায়। নিয়ন্ত্রিত অ্যাপের জন্য দুর্দান্ত।
- RPA প্ল্যাটফর্ম: ভিজ্যুয়াল ফ্লোচার্ট এবং এন্টারপ্রাইজ গভর্নেন্স সহ শক্তিশালী। সেটআপ একটি প্রকল্প হতে পারে। আপনি যদি এটি প্রতিদিন ব্যবহার করেন তবে চমৎকার।
- Gemini 2.5 Computer Use: নমনীয়, পৃষ্ঠার উপর দৃষ্টি রেখে যুক্তি দেওয়ার ক্ষমতা। ধীর, তবে কম ভঙ্গুর। অ্যাডহক রান, অগোছালো তৃতীয় পক্ষের পোর্টাল এবং এককালীন স্থানান্তরের জন্য আদর্শ।
Gemini কে বহুমুখী গিগ কর্মী হিসাবে মনে করুন যিনি একটি নতুন অফিসে প্রবেশ করতে পারেন এবং কোন ড্রয়ারে পেপার ক্লিপ লুকানো আছে তা বের করতে পারেন—সামান্য নির্দেশনার সাথে।
কোথায় Sider.AI ফিট করে (এবং আসলে সাহায্য করে)
এখানে একটি বিস্ময়: Sider.AI এই ওয়ার্কফ্লোগুলির জন্য আপনার কমান্ড সেন্টার হিসাবে খুব সুন্দরভাবে কাজ করে। আপনি আপনার প্রম্পট টেমপ্লেট, আপনার CSV, আপনার লগ এবং আপনার স্ক্রিনশট এক জায়গায় রাখতে পারেন—এবং সহকারীকে পদক্ষেপগুলো একসাথে জোড়া দিতে বলতে পারেন। এটি Gemini 2.5 Computer Use-এর হাতে-কলমে পেজ কন্ট্রোল প্রতিস্থাপন করবে না, তবে এটি যা করতে পারে: - অটোমেশনের একটি রান্নার বইয়ের মতো আপনার প্রম্পট সংরক্ষণ এবং সংস্করণ করুন
- একটি সাধারণ “কে সফল হয়েছে, কে ব্যর্থ হয়েছে, এর পরে কী” রিপোর্টে রান লগ সংক্ষিপ্ত করুন
- যখন একটি পোর্টাল পরিবর্তিত হয় তখন উপযোগী সমস্যা সমাধানের প্রম্পট তৈরি করুন
- একটি অগোছালো স্প্রেডশিটকে একটি পরিষ্কার, অটোমেশন-প্রস্তুত CSV-তে রূপান্তর করতে আপনাকে সাহায্য করুন
একসাথে ব্যবহৃত হলে, Sider.AI হল ক্লিপবোর্ড এবং প্লেবুক; Gemini 2.5 হল অন-ফিল্ড কোয়ার্টারব্যাক। উন্নত পদক্ষেপ: শর্তসাপেক্ষ যুক্তি, শাখা এবং যাচাইকরণ
একবার আপনি বেসিকগুলিতে বিশ্বাস করলে, স্মার্ট যোগ করুন:
- শাখা: “যদি হার ড্রপডাউনে কাঙ্ক্ষিত অপশনটির অভাব হয়, তাহলে অনুরোধ করা হারের ≥ সবচেয়ে কাছের মিলটি চয়ন করুন; অন্যথায়, সারিটি ফ্ল্যাগ করুন।”
- শর্তসাপেক্ষ সংযুক্তি: “মোট_মাইল ≥ ৫০ হলেই কেবল একটি রসিদ আপলোড করুন; অন্যথায়, খালি রাখুন।”
- উত্পন্ন ক্ষেত্র: “Reimbursement হিসাব করুন = মোট_মাইল × হার; পোর্টালের হিসাব করা মোটটি $0.01-এর মধ্যে মেলে কিনা তা যাচাই করুন; যদি না মেলে, স্ক্রিনশট নিন এবং বাদ দিন।”
- ক্রস-পেজ যাচাইকরণ: জমা দেওয়ার পরে, “History” খুলুন, আজকের এন্ট্রি খুঁজুন এবং নিশ্চিত করুন যে নাম এবং মোট CSV-এর সাথে মেলে।
এই পরীক্ষাগুলো একটি মজার ডেমোকে এমন কিছুতে রূপান্তরিত করে যা আপনার ম্যানেজার অনুমোদন করে।
একটি দ্রুত পথ পরিবর্তন: নিরাপত্তা থিয়েটার বনাম আসল সুরক্ষা
আপনি এমন পোর্টালগুলোর সম্মুখীন হবেন যা পাজল, ক্লিক-এন্ড-ড্র্যাগ স্লাইডার বা একটি হবিটের যোগ্য পপ-আপ ধাঁধা ব্যবহার করে। কিছু আসল বট প্রতিরক্ষা; কিছু পেজ মেকআপ। ভালগুলোর সাথে যুদ্ধ করবেন না। একটি মানুষ-ইন-দ্য-লুপ বিরতির পরিকল্পনা করুন। Gemini কে ঘোষণা করতে বলুন: "ক্যাপচা সনাক্ত হয়েছে—আপনার সাহায্যের জন্য প্রস্তুত," তারপর আবার শুরু করুন।
আসল সুরক্ষা আপনার সেটআপ থেকে আসে: পৃথক প্রোফাইল, সীমিত অনুমতি, নিরীক্ষণ লগ এবং স্পষ্ট স্টপ শর্ত।
সাফল্য পরিমাপ করা: "ভাল" দেখতে কেমন
Gemini 2.5 Computer Use সহ একটি স্বাস্থ্যকর ওয়েব-ফর্ম অটোমেশন দেখতে এইরকম:
- 95%+ সারি ম্যানুয়াল পরিবর্তনের প্রয়োজন ছাড়াই প্রক্রিয়া করা হয়েছে
- ত্রুটিগুলো অনুমানযোগ্য এবং লগ করা হয়েছে (বেমানান তারিখ, অনুপস্থিত ফাইল)
- আপনি আগেরগুলো স্পর্শ না করেই শেষ ব্যর্থ সারি থেকে পুনরায় চালাতে পারেন
- ঠিক কী ঘটেছে তা বোঝার জন্য একজন মানুষ স্ক্রিনশট এবং লগ নিরীক্ষণ করতে পারে
আপনি যখন এই চিহ্নগুলোতে পৌঁছান, তখন আপনি ক্লান্তিকর কাজকে একটি পরিপাটি, পর্যালোচনাযোগ্য ওয়ার্কফ্লোতে রূপান্তরিত করেছেন।
মিনি প্লেবুক: ১২টি ধাপে শূন্য থেকে “জমা দিন”
- একটি একক, বিরক্তিকর ফর্ম সনাক্ত করুন যা আপনি সাপ্তাহিকভাবে করেন।
- আপনার ডেটা পরিষ্কার করুন। তারিখ, সংখ্যা, ফাইলের পাথ।
- যদি সম্ভব হয়, একটি পরীক্ষা অ্যাকাউন্ট এবং একটি স্যান্ডবক্স তৈরি করুন।
- একটি নিয়ন্ত্রিত ব্রাউজার প্রোফাইলে Gemini 2.5 Computer Use খুলুন।
- ফর্মটি বর্ণনা করুন এবং ফিল্ড ম্যাপিং সরবরাহ করুন।
- একটি রেকর্ড চালান—ধীর গতিতে, বর্ণনা করে, আপনার চোখ এটির উপর রেখে।
- সাফল্য এবং ব্যর্থতা পরীক্ষা যোগ করুন।
- যেকোনো অসঙ্গতিতে একটি ব্যাচ লগ এবং স্ক্রিনশট তৈরি করুন।
- পাঁচটি রেকর্ড প্রক্রিয়া করুন; তারপর বিশটি।
- ছোট গার্ডরেল যোগ করুন (অটোকমপ্লিট বন্ধ করতে Escape টিপুন; সরাসরি তারিখ টাইপ করুন)।
- লগটি এক্সপোর্ট করুন; পোর্টালের ইতিহাসে স্পট-চেক করুন।
- আপনার প্রম্পট এবং ডেটা স্ট্রাকচার পরের সপ্তাহের জন্য সংরক্ষণ করুন। ভবিষ্যতের আপনি আপনাকে একটি ধন্যবাদ নোট লিখবেন।
শেষ কথা: পৃষ্ঠার সাথে যুদ্ধ করবেন না—পৃষ্ঠাটিকে আপনার কাছে শেখান
ওয়েব গোপন রাখতে ভালোবাসে। বোতামগুলো আইকনের পিছনে লুকায়; আপনি ক্লিক না করা পর্যন্ত ক্ষেত্রগুলো আপনাকে তিরস্কার করার জন্য অপেক্ষা করে। Gemini 2.5 Computer Use জাদুকরীভাবে ওয়েব ঠিক করে না—এটি ধৈর্য ধরে এটি শিখে। জয়টি গতি নয়; এটি প্রশান্তি। আপনি একটি ঘন্টা পুনরুদ্ধার করেন যা আপনি বাক্সগুলোর মাধ্যমে ট্যাব করে ব্যয় করতেন এবং পরিবর্তে এটি সিদ্ধান্ত নিতে ব্যয় করেন যে নোটগুলোতে "Client visits in Zone B" বলা উচিত নাকি আরও সাহসী "Zone B extravaganza"।
সুতরাং একটি ফর্ম নির্বাচন করুন। Gemini 2.5 Computer Use কে সিটবেল্ট বেঁধে চালকের আসনে বসান—এবং এটিকে ক্লিক করতে দিন। যখন সেই নিশ্চিতকরণ কোডটি পপ আপ হয় এবং কাউকে ড্রপডাউন নাড়াতে হয়নি, তখন আপনার মনে হবে যেন ইন্টারনেট ২০০৭ সালের তারিখ বাছাইকারীর জন্য ক্ষমা চেয়েছে।
গুরুত্বপূর্ণ বিষয়গুলো
- Gemini 2.5 Computer Use একটি সতর্ক সহকারীর মতো আপনার পেজ দেখে এবং পরিচালনা করে ওয়েব ফর্ম অটোমেট করতে পারে।
- ছোট করে শুরু করুন, গার্ডরেইল যোগ করুন, এবং যখন এটি বিরক্তিকর হয়ে যায় তখনই স্কেল করুন—ভালোভাবে।
- পরিষ্কার ডেটা, স্পষ্ট ফিল্ড ম্যাপিং এবং সাফল্য/ব্যর্থতা পরীক্ষা ব্যবহার করুন।
- স্বীকার করুন ক্যাপচা এবং এমএফএ হলো হিউম্যান-ইন-দ্য-লুপ মুহূর্ত।
- প্রম্পট, লগ এবং পরিচ্ছন্নতা ব্যবস্থাপনার জন্য Sider.AI-এর সাথে যুক্ত করুন—এটি জেমিনির হাতের ক্লিপবোর্ড।
এখন সেই ফর্মটিকে শেখান কে বস। বরং, কে নম্রভাবে প্রতিনিধি নির্বাচন করছে।
সাধারণ জিজ্ঞাসা
প্রশ্ন ১: জেমিনি ২.৫ কম্পিউটার ব্যবহার, সহজ ভাষায় কী?
এটি এমন একটি মোড যেখানে জেমিনি প্রকৃতপক্ষে আপনার ব্রাউজার নিয়ন্ত্রণ করতে পারে—ক্লিক করা, টাইপ করা, আপলোড করা—যাতে এটি ওয়েব ফর্মগুলিকে স্বয়ংক্রিয় করতে পারে। এটিকে একজন সতর্ক ইন্টার্ন হিসাবে ভাবুন যিনি আপনার নির্দেশাবলী অনুসরণ করেন এবং পদক্ষেপগুলো বর্ণনা করেন।
প্রশ্ন ২: জেমিনি ২.৫ কি সত্যিই ফাইল আপলোড এবং তারিখ বাছাইকারীর সাথে ওয়েব ফর্ম স্বয়ংক্রিয় করতে পারে?
হ্যাঁ, স্পষ্ট নির্দেশাবলীর সাথে। তারিখ সরাসরি টাইপ করতে, রেট ড্রপডাউন স্পষ্টভাবে পরিচালনা করতে এবং আপলোড ডায়ালগে ফাইলের পাথ পেস্ট করতে বলুন—এই বিশেষত্বগুলো পার্থক্য তৈরি করে।
প্রশ্ন ৩: আমি কীভাবে ওয়েব-ফর্ম অটোমেশন নিরাপদ এবং অনুগত রাখব?
একটি পৃথক ব্রাউজার প্রোফাইল, সর্বনিম্ন-সুবিধা অ্যাকাউন্ট এবং প্রতিটি রানের জন্য লগ ব্যবহার করুন। প্রম্পটে পাসওয়ার্ড দেওয়া এড়িয়ে চলুন; ক্যাপচা এবং এমএফএ-এর জন্য বিরতি দিন, তারপর পুনরায় শুরু করুন।
প্রশ্ন ৪: জেমিনি ২.৫ কি সেলেনিয়ামের মতো ঐতিহ্যবাহী স্ক্রিপ্টের চেয়ে দ্রুত?
সাধারণত নয়, তবে এটি অগোছালো পৃষ্ঠা এবং এককালীন কাজের জন্য আরও অভিযোজনযোগ্য। স্ক্রিপ্ট দ্রুত এবং ভঙ্গুর; জেমিনি ধীর কিন্তু সাইটের সিএসএস পরিবর্তন হলে ভেঙে যাওয়ার সম্ভাবনা কম।
প্রশ্ন ৫: এই কর্মপ্রবাহে Sider.AI কোথায় সাহায্য করে?
Sider.AI আপনার প্রম্পট সংরক্ষণ করতে, আপনার CSV পরিষ্কার করতে, লগ সংক্ষিপ্ত করতে এবং সমস্যা সমাধানের টিপস তৈরি করতে পারে। জেমিনি ক্লিক করার সময় এটি আপনার অটোমেশন প্লেবুকের আয়োজক এবং প্রধান সম্পাদক।