“নেক্সট-জেন” এআই মডেলগুলির বিষয় হলো, এগুলো সবসময় দুটি স্যুটকেস নিয়ে আসে: একটি বেঞ্চমার্কে পূর্ণ এবং অন্যটি প্রতিশ্রুতিতে পূর্ণ।
GLM-4.6 ও তার ব্যতিক্রম নয়। এটি নতুন চার্ট, দশমিকের পরে আরও বেশি সংখ্যা এবং “যুক্তি” নিয়ে একটি নতুন স্লোগান নিয়ে এসেছে। এআই মার্কেটিং-এ এই শব্দটি অনেক বড় কাজ করে। এটি মেশিন ইন্টেলিজেন্সের 'অর্গানিক'-এর মতো—অস্পষ্টভাবে ভালো, মাঝে মাঝে অর্থপূর্ণ, প্রায়শই কেবল একটি স্টিকার।
আসুন স্টিকারটি সরিয়ে দেই। যদি আপনার প্রশ্ন হয় “GLM-4.6 কী, এতে নতুন কী আছে এবং কীভাবে আমি এটিকে যুক্তি এবং এজেন্টের জন্য ব্যবহার করতে পারি?”, তবে এর সহজ উত্তর হলো: এটি একটি ক্রমবর্ধমান কিন্তু বাস্তব পদক্ষেপ যা ব্যবহারিক কর্মপ্রবাহ, কাঠামোবদ্ধ সরঞ্জাম ব্যবহার এবং এজেন্ট ফ্রেমওয়ার্কগুলোর জন্য গুরুত্বপূর্ণ, যেগুলো অপরিচিত স্প্রেডশীট দেখা মাত্রই মুখ থুবড়ে পড়ে না। যদি আপনি কোনো পার্টি করার কৌশল চান, তবে প্রচুর মডেলে সেটি রয়েছে। যদি আপনি এমন একটি মডেল চান যা টার্গেটে থাকে, তবে GLM-4.6 কাজের ওপর নির্ভর করে—প্রকৃতই আকর্ষণীয়।
এটি একটি গভীর বিশ্লেষণ/ব্যাখ্যা যা একটি কার্যকরী দিকের ওপর জোর দেয়: GLM-4.6 কীভাবে যুক্তি পাইপলাইন এবং এজেন্ট অর্কেস্ট্রেশনের প্রতিদিনের কাজ পরিবর্তন করে এবং এই প্রক্রিয়ায় নিজেকে বোকা বানানো থেকে কীভাবে বাঁচানো যায়।
GLM-4.6 আসলে কী (এবং কী নয়)
“GLM” হলো বৃহৎ ভাষা মডেলের একটি পরিবার। 4.x লাইনটি মাল্টি-টার্ন রিজনিং, সরঞ্জাম ব্যবহার এবং বৃহত্তর কনটেক্সট উইন্ডোগুলির দিকে ঝুঁকেছে। GLM-4.6 হলো নতুন পয়েন্ট রিলিজ যা সেই অংশগুলোকে আরও উন্নত করে যা আপনি শুধুমাত্র এটি দিয়ে তৈরি করার সময় লক্ষ্য করেন: চেইন-অফ-থট (Chain-of-thought) স্ক্যাফোল্ডিং (অভ্যন্তরীণভাবে) আরও শক্তিশালী, ফাংশন-কলিং আনুগত্য আরও ভালো, দীর্ঘ প্রম্পট জুড়ে স্ব-বিরোধীতা কম এবং কাঠামোবদ্ধ ইনপুটগুলোর সামান্য ভালো হ্যান্ডলিং। এই কাজগুলো কোনো আকর্ষণীয় ডেমোতে ভালোভাবে দেখায় না, তবে যখন আপনি ডেমো দেওয়া বন্ধ করে ডেলিভারি করা শুরু করেন তখন চোখে পড়ে।
এটি কী নয়: এটি এজিআই (AGI) নয়, এটি জাদু নয় এবং প্রেস রিলিজগুলো প্রতি বুধবার যা দাবি করে, এটি অন্য সব মডেলকে প্রতিস্থাপন করবে না। আপনি যদি একবারে প্রমাণ বা উপপাদ্য-স্তরের কঠোরতা আশা করেন, তবে এটি তেমন কিছু নয়। আপনি যদি একাধিক টুল কল এবং একটি বৃহত্তর কনটেক্সট সামলানোর সময় কম ভুল আশা করেন, তবে এটি অনেকটাই সেরকম।
GLM-4.6 এ নতুন কী আছে (গুরুত্বপূর্ণ বিবরণ)
- দীর্ঘ, আরও স্টিকি কনটেক্সট: শুধু বেশি টোকেন নয়—বিভিন্ন বিভাগে আরও ভালো রিটেনশন। আপনি তৃতীয় অনুচ্ছেদে যে সীমাবদ্ধতা দিয়েছেন সেটি ১২ নম্বর অনুচ্ছেদে কোনো টুল কল করার সময় ভুলে যাওয়ার সম্ভাবনা কম।
- টাইটার ফাংশন কলিং: আর্গুমেন্টগুলো আরও সামঞ্জস্যপূর্ণভাবে গঠিত হয়। JSON-কে আকারে আনতে কম কাঠখড় পোড়াতে হয়, কম হ্যালুসিনেটেড কী (hallucinated keys)। আপনি যদি এজেন্ট তৈরি করেন, তবে আপনি জানেন যে এখানেই অনেক মডেল হোঁচট খায়।
- স্ট্রাকচার্ড রিজনিং বায়াস: আপনি হালকা স্ক্যাফোল্ডিং দিয়ে GLM-4.6 কে প্ল্যান-দেন-অ্যাক্ট লুপে নিয়ে যেতে পারেন। এটি দার্শনিকের মতো চিন্তা করার ভান করবে না, তবে এটি একজন উপযুক্ত প্রকল্প ব্যবস্থাপকের মতো পদক্ষেপগুলো মনে রাখবে।
- মাল্টি-মোডাল টাচ (Multi-Modal Touches) (যদি আপনার প্রয়োজন হয়): ইমেজ-সচেতন ভ্যারিয়েন্টগুলো ফর্ম রিডিং এবং ইউআই (UI) পার্সিংয়ের ক্ষেত্রে আরও অনুমানযোগ্য আচরণ করে। এটি কোনো শিল্প-খেলনা নয়—বরং দরকারি জিনিস।
- লেটেন্সি/খরচ পরিবর্তন: স্পাইক কম, আরও অনুমানযোগ্য থ্রুপুট। না, এটি বিনামূল্যে নয়; হ্যাঁ, প্রোডাকশন ড্যাশবোর্ডে এটি যথেষ্ট গুরুত্বপূর্ণ।
বেঞ্চমার্ক? আপনি স্বাভাবিক জিনিসগুলো খুঁজে পাবেন—MMLU এটা, GSM8K ওটা—একটু উপরে উঠেছে। মূল বিষয় হলো সংখ্যা নয়; বরং লোডের অধীনে সামঞ্জস্য এবং সরঞ্জাম চেইনগুলোর সময় “কী হচ্ছে?” এই ধরনের মুহূর্তগুলোর হ্রাস।
GLM-4.6 দিয়ে রিজনিং: চাওয়া বন্ধ করুন, বাউন্ড করা শুরু করুন
এলএলএম-এ (LLMs) “রিজনিং” হলো ক্রমান্বয়ে পাঠ্য তৈরি করার দিকে পক্ষপাতিত্বের সাথে পরিসংখ্যানগত প্যাটার্ন পূরণ। এটা ভালো। অন্য কিছু হওয়ার ভান করলে খারাপ প্রম্পট এবং আরও খারাপ সিস্টেম তৈরি হয়। GLM-4.6 আরও ভালো কাজ করে যখন আপনি একে এগুলো দেন:
- স্মার্টনেসের চেয়ে সীমাবদ্ধতা: টার্গেট ফরম্যাট, গ্রহণযোগ্যতা পরীক্ষা এবং ব্যর্থতার শর্তগুলো স্পষ্টভাবে উল্লেখ করুন। মডেলটি যদি গণিতের আকার স্পষ্ট হয় তবে এটি হিসাব করবে।
- স্বগতোক্তির চেয়ে বিভাজন: সমস্যাগুলোকে ধাপে ধাপে ভাগ করুন—পার্স → প্ল্যান → এক্সিকিউট → যাচাই করুন। আপনি এটিকে সিস্টেম প্রম্পটে রাখতে পারেন অথবা সরঞ্জাম কলগুলোর মাধ্যমে স্পষ্টভাবে করতে পারেন।
- বাহ্যিক মেমরি: মডেলটিকে আপনার ডেটাবেস বানাবেন না। এটিকে একটি বাহ্যিক স্ক্র্যাচপ্যাড বা ভেক্টর স্টোরে লিখতে এবং সেখান থেকে পড়তে দিন। GLM-4.6 কম স্মৃতিভ্রষ্ট হয়, তবে এটি এখনও একটি গোল্ডফিশ, মাঝে মাঝে যার মধ্যে স্বচ্ছতা দেখা যায়।
- যাচাইকরণ হুক: একটি ভেরিফায়ারের (verifier) সাথে দ্বিতীয়বার পরীক্ষা করা—কখনও কখনও একই মডেল, কখনও কখনও একটি ছোট মডেল—বোকা ভুলগুলো ধরে। প্রোডাকশনে (production) এটি যদি একটি ভুল উত্তরও বাঁচায়, তবে এটি অতিরিক্ত নয়।
এখানে টেবিল যুক্তির জন্য একটি সংক্ষিপ্ত, বিরক্তিকরভাবে কার্যকরী লুপ রয়েছে:
- ধাপ ১: GLM-4.6 কে প্রশ্ন থেকে স্কিমা এবং সীমাবদ্ধতাগুলো বের করতে বলুন।
- ধাপ ২: এটিকে একটি পরিকল্পনা এবং “প্রয়োজনীয় সরঞ্জাম” প্রস্তাব করতে বলুন।
- ধাপ ৩: মডেল দ্বারা JSON-এনকোড করা আর্গুমেন্টগুলোর সাথে সরঞ্জাম কলগুলো (SQL, Python, যাই হোক) সম্পাদন করুন।
- ধাপ ৪: সরঞ্জামের ফলাফল ফিরিয়ে দিন এবং পুনরুদ্ধার করা সারিগুলোর সাথে আবদ্ধ যুক্তিসহ একটি চূড়ান্ত উত্তর দিন।
এখানে কৌশলটি হলো অভিনব প্রম্পট নয়। এটি মডেলটিকে যেখানে উচিত নয়, সেখানেimprovise করতে না দেওয়া।
GLM-4.6 এর সাথে এজেন্ট: বিড়াল তাড়ানো, এখন লাগামসহ
এজেন্ট হলো সেই জায়গা যেখানে হাইপ (hype) প্রোডাক্ট ম্যানেজমেন্টের কসপ্লে করতে যায়। বেশিরভাগ “স্বায়ত্তশাসিত” এজেন্ট হলো একটি LEGO স্টোরে ছেড়ে দেওয়া রুম্বার মতো—ব্যস্ত, কিন্তু সহায়ক নয়। GLM-4.6 একা এটি পরিবর্তন করে না। এটি যা করে:
- আরও নির্ভরযোগ্য সরঞ্জাম চুক্তি: আপনি যখন get_flights(origin, destination, date) কল করতে বলেন, তখন আপনি না বলা পর্যন্ত এটি cabin_class উদ্ভাবন করা বন্ধ করে দেয়। এটি একটি ডেমো এবং রিফান্ডের মধ্যে পার্থক্য।
- আরও ভালো স্টেপ একাউন্টিং: আপনি যদি এটিকে N সংখ্যক সরঞ্জাম কলে সীমাবদ্ধ করতে বা একটি অনুমোদনের চেCheckপয়েন্ট (checkpoint) রাখতে বলেন, তবে এটি প্রায়শই মেনে চলে। মান্য করাকে কম গুরুত্ব দেওয়া হয়।
- সহনীয় দীর্ঘ-মেয়াদী কাজ: সুস্পষ্ট মাইলফলক এবং একটি মেমরি স্টোর সহ, এটি ফ্যান-ফিকশনে (fan-fiction) না গিয়ে বহু-দিনের কাজ করতে পারে।
GLM-4.6 এজেন্টদের সাথে জেতার ধরণটি হলো “একে মুক্ত করে দেওয়া” নয়। বরং “টাইট লুপ, ছোট লাগাম, সুস্পষ্ট পুরস্কার।”
একটি বাস্তবসম্মত কাঠামো: প্রম্পট থেকে পাইপলাইন
আপনি এটিকে যা খুশি বলতে পারেন—“বিবেচনামূলক যুক্তি”, “প্ল্যানার-এক্সিকিউটর”—পাইপলাইনটি দেখতে এইরকম:
- সিস্টেম: আপনি একজন সতর্ক পরিকল্পনাকারী। আপনি পরিকল্পনা ছাড়া সরঞ্জাম কল করবেন না। আপনাকে অবশ্যই একটি স্কিমাতে JSON তৈরি করতে হবে।
- ব্যবহারকারী: টাস্ক (Task) (স্পষ্ট, সীমিত, ভালো এবং খারাপ উত্তরের উদাহরণসহ)।
- সহকারী (পরিকল্পনা): মডেল পদক্ষেপগুলোর খসড়া তৈরি করে, সরঞ্জাম নির্বাচন করে, অনুমানগুলো জানায়।
- সরঞ্জাম কল: ডিটারমিনিস্টিক, টাইপ করা আর্গুমেন্ট। স্কিমা ত্রুটিতে প্রত্যাখ্যান করুন। সবকিছু লগ করুন।
- সহকারী (সংশ্লেষণ): মডেল সরঞ্জামের আউটপুটগুলোকে পরিকল্পনার সাথে একত্রিত করে এবং একটি চূড়ান্ত ফলাফল প্রদান করে।
- যাচাইকারী: হালকা ওজনের পরীক্ষা—মাঝে মাঝে শুধু রেজেক্স (regexes) এবং গ্রহণযোগ্যতা পরীক্ষা—বিচ্যুতি ধরতে।
GLM-4.6 এর অবদান: পরিকল্পনা/কার্যকর করার ক্ষেত্রে কম অমিল এবং আরও সামঞ্জস্যপূর্ণ আর্গুমেন্টের আকার। আকর্ষণীয় নয়। তবে দরকারি।
প্রম্পটিং যা আপনার সাথে মিথ্যা বলে না
- জিনিয়াস হওয়ার ভান করবেন না। কাঠামোর জন্য জিজ্ঞাসা করুন: “অনুমানগুলোর তালিকা করুন”, “ইউনিট রূপান্তর দেখান”, “আপনি যে সারিগুলো ব্যবহার করেছেন তা উল্লেখ করুন।”
- গার্ডরেল ব্যবহার করুন যা কামড়ায়। “আপনি যদি অনিশ্চিত হন, তবে স্পষ্টকরণের জন্য জিজ্ঞাসা করুন” এই কথাটি মূল্যহীন, যদি না আপনি অনিশ্চিত শব্দটিকে সংজ্ঞায়িত করেন এবং একটি প্রশ্নের প্রয়োজনীয়তা উল্লেখ করেন।
- দীর্ঘ বক্তৃতার চেয়ে উদাহরণ পছন্দ করুন। দুটি ভালো উদাহরণ দুই পৃষ্ঠার ভাইবকে হার মানায়।
- মডেলটিকে ‘আমি জানি না’ বলতে দিন। আক্ষরিক অর্থে এই বাক্যাংশটির অনুমতি দিন। তা না হলে এটি কখনই এটি ব্যবহার করবে না।
আগের বিল্ডগুলোর চেয়ে GLM-4.6 এই প্রোগ্রামের সাথে আরও সহজে চলে। এটাই অগ্রগতি: স্মার্ট মিথ্যা নয়, বরং কম মিথ্যা।
ডেটা, সরঞ্জাম এবং ফাংশন কলিংয়ের বিরক্তিকর জাদু
ফাংশন কলিং হলো সেই জায়গা যেখানে যুক্তি নাটকীয়তা বন্ধ করে। GLM-4.6 এর সাথে:
- স্কিমা লেগে থাকে: একবার ফাংশন সিগনেচার শেখান এবং বিভিন্ন টার্নে (turn) এটি পুনরায় ব্যবহার করুন।
- মাল্টি-টুল সিকোয়েন্সগুলো (Multi-Tool Sequences) আচরণ করে: প্ল্যান → অনুসন্ধান → ফেচ → সারসংক্ষেপ আর প্ল্যান → সারসংক্ষেপ → আবার সারসংক্ষেপ এ পরিণত হয় না।
- দ্রুত ব্যর্থ হন: যদি কোনও সরঞ্জাম কোনও আর্গুমেন্ট প্রত্যাখ্যান করে, তবে ত্রুটিটি মডেলটিতে ফিরিয়ে দিন এবং একটি সংশোধনমূলক টার্ন করতে বাধ্য করুন। নীরবে ঠিক করবেন না; মডেলটিকে এটি করতে বলুন।
আপনি যদি গবেষণা সহকারী, গ্রাহক সহায়তা বট বা ডেটা এজেন্ট তৈরি করেন, তবে বিরক্তিকর জাদুটি হলো প্রতিবার সরঞ্জাম কলগুলো সঠিকভাবে করা। GLM-4.6 বিরক্তিকর কাজে আরও ভালো।
দীর্ঘ কনটেক্সট: ঘোরাঘুরির জন্য বেশি জায়গা, পথ হারানোর অজুহাত কম
কনটেক্সট উইন্ডো বড় হয়েছে কারণ আমরা এতে আরও বেশি জিনিস পেস্ট করতে থাকি। GLM-4.6 কম ক্রস-টক সহ দীর্ঘ কনটেক্সটগুলো পরিচালনা করে। তবুও, কয়েকটি নিয়ম:
- ভাগ করুন এবং শিরোনাম দিন: ছোট, সুস্পষ্ট হেডার ব্যবহার করুন। মডেল অনুচ্ছেদের চেয়ে লেবেলগুলো ভালো “মনে রাখে”।
- পেস্ট করার চেয়ে পয়েন্টার: যদি একটি পয়েন্টার এবং পুনরুদ্ধারের হুক কাজ করে, তবে পরিশিষ্টে জিনিস ভরবেন না।
- দায়বদ্ধতার সাথে সারসংক্ষেপ করুন: মডেলটিকে শুধু “ডক্স বলছে” বলার পরিবর্তে বিভাগ আইডি উল্লেখ করতে বলুন।
এর ফলস্বরূপ ফ্যান্টম স্মৃতির সংখ্যা হ্রাস পায় এবং আরও বেশি সম্পর্কযুক্ত সারসংক্ষেপ পাওয়া যায়।
কোডের জন্য GLM-4.6 ব্যবহার করা: একে উড়তে দেবেন না
আপনি যদি ডিফের (diff)ওপর নিয়ন্ত্রণ রাখেন তবে এটি বয়লারপ্লেট এবং রিফ্যাক্টরগুলোর জন্য ভালো। অ-তুচ্ছ কোডজেনের জন্য:
- প্রথমে ইন্টারফেস উল্লেখ করুন। প্রকার, স্বাক্ষর, ইনপুট/আউটপুট চুক্তি।
- বাস্তবায়নের আগে ইউনিট পরীক্ষা করুন। মডেলটিকে পরীক্ষা লিখতে বলুন, তারপর কোড লিখতে বলুন। পরীক্ষা চালান। ব্যর্থতাগুলো ফিরিয়ে দিন।
- ছোট ব্যাচ। একবারে একটি ফাংশন। মার্জ করুন, তারপর সামনে বাড়ুন।
আপনি যদি এই শৃঙ্খলাটির ওপর জোর দেন তবে GLM-4.6 কে আরও স্মার্ট দেখাবে। এটি ভান করছে না; আপনি এটিকে বিপথে যাওয়ার সম্ভাবনা কমিয়ে দিচ্ছেন।
রিজনিংয়ের সেই ফাঁদগুলো GLM-4.6 কমায় (তবে দূর করে না)
- প্রথম দিকের অনুমানের উপর নির্ভর করা: সিদ্ধান্ত নেওয়ার আগে বিকল্পগুলোর তালিকা করতে বলুন। আপনি প্রথম ধারণা-সেরা ধারণা উত্তরগুলো কম দেখবেন।
- অতিরিক্ত-সারসংক্ষেপ: সনাক্তযোগ্য উদ্ধৃতি বা সারি আইডি প্রয়োজন। অন্যথায় এটি নিজের সারসংক্ষেপের প্যারামিটার পরিবর্তন করে।
- পরিকল্পনা-কার্যকর করার বিচ্যুতি: পরিকল্পনাটিকে একটি চুক্তি করুন। চূড়ান্ত উত্তর ভিন্ন হলে, কেন তা ব্যাখ্যা করতে বাধ্য করুন।
- সরঞ্জামের হ্যালুসিনেশন: একটি রেজিস্ট্রি রাখুন এবং অজানা সরঞ্জামগুলো প্রত্যাখ্যান করুন। মডেলটি কম উদ্ভাবন করবে—তবে লক্ষ্য হলো শূন্য।
GLM-4.6 এর মূল্যায়ন: বেঞ্চমার্ক যা আপনি বিশ্বাস করতে পারেন (আপনার গুলো)
পাবলিক লিডারবোর্ডগুলো রেস্তোরাঁ তারার মতো দরকারী: ভালো সংকেত, তবে আপনার রুচি নয়। আপনার বেঞ্চমার্কগুলো হওয়া উচিত:
- টাস্ক-বাউন্ড: প্রোডাকশন থেকে 100-200টি আসল প্রম্পট, বাছাই করা নয়।
- গ্রহণযোগ্যতা পরীক্ষা দিয়ে স্কোর করা: রেজেক্স, ক্যালকুলেটর, স্কিমা ভ্যালিডেটর। মানুষ সূক্ষ্মতা খুঁজে বের করে; মেশিন বোকা জিনিস ধরে।
- খরচ করা: শুধুমাত্র নির্ভুলতা নয়, সঠিক উত্তরের জন্য ডলার পরিমাপ করুন।
- লেটেন্সি-সচেতন: একটি ভাগ্যবান P50 এর চেয়ে P95 বেশি গুরুত্বপূর্ণ।
ওয়ার্কলোড যখন সরঞ্জাম-ভারী এবং বহু-পদক্ষেপ যুক্ত থাকে, তখন GLM-4.6 “সঠিক প্রতি খরচ”-এর ওপর ভালো রেট পায়। যদি আপনার কাজ শূন্য কাঠামো সহ শুধুমাত্র সাধারণ গদ্য হয়, তবে আপনি অন্যান্য বড় নামের সাথে সমতা খুঁজে পেতে পারেন।
এজেন্টদের জন্য GLM-4.6 কীভাবে ব্যবহার করবেন (একটি প্লেবুক যা ভান করে না)
- ইচ্ছা নয়, API-এর মতো সরঞ্জামগুলো সংজ্ঞায়িত করুন: ইনপুট প্রকার, ত্রুটি কোড, উদাহরণ।
- পর্যালোচনা গেট প্রয়োগ করুন: ঝুঁকিপূর্ণ কাজের জন্য (ইমেল, অর্ডার), একটি ওয়ান-স্ক্রিন ডিফের সাথে একটি মানব-অনুমোদন ধাপ প্রয়োজন।
- মেমরি বাহ্যিক রাখুন: প্রকল্পের নোট, অবস্থা, ডক্স—এগুলো সংরক্ষণ করুন। মডেলটি পড়ে এবং লিখে; এটি ব্যাগ বহন করে না।
- সবকিছু ইনস্ট্রুমেন্ট করুন: টোকেন, সরঞ্জামের আর্গুমেন্ট, ফলাফল লগ করুন। আপনি যদি এটি পরিদর্শন করতে না পারেন তবে আপনি এটি উন্নত করতে পারবেন না।
- উদ্দেশ্যের সাথে পুনরায় চেষ্টা করুন: কঠোর নিয়ম সহ একটি সংশোধনমূলক পাসের অনুমতি দিন। এটি এখনও ব্যর্থ হলে, বন্ধ করে দিন।
GLM-4.6 আপনাকে আরও ভালো ব্যাটিং গড় দেয়। আপনার এখনও নিয়ম এবং একটি স্কোরবোর্ডের প্রয়োজন।
নিরাপত্তা, গোপনীয়তা এবং চাবি হস্তান্তর করার প্রলোভন
- পিআইআই (PII) ফেন্সিং: মডেল দেখার আগে এটিকে মাস্ক করুন। গোপন রাখার জন্য একটি প্রম্পটের উপর ভরসা করবেন না।
- সরঞ্জাম স্যান্ডবক্সিং: ফাইল সিস্টেম এবং নেটওয়ার্ক কলগুলোকে অবশ্যই whitelisted ডোমেইন এবং পথের মধ্যে সীমাবদ্ধ রাখতে হবে।
- প্রম্পট ইনজেকশন: সমস্ত পুনরুদ্ধার করা পাঠ্যকে অবিশ্বস্ত হিসাবে বিবেচনা করুন। স্যানিটাইজ করুন এবং একটি সরঞ্জাম কল কী করতে পারে তা সীমাবদ্ধ করুন।
- অডিট ট্রেইল: প্রম্পট, সরঞ্জাম কল, আউটপুটগুলোর একটি সম্পূর্ণ প্রতিলিপি রাখুন। ভবিষ্যতের আপনি আপনাকে ধন্যবাদ জানাবেন।
GLM-4.6 নিয়ম ভাঙার “সিদ্ধান্ত” নেবে না—তবে আপনি যদি এটিকে অনুমতি দেন তবে এটি আনন্দের সাথে একটি বিষাক্ত নির্দেশ অনুসরণ করবে।
Sider.AI সম্পর্কে একটি দ্রুত কথা (কারণ এটি এখানে আসলে সাহায্য করে)
Sider.AI আসলে কাজ করে—অন্তত যখন আপনি এটিকে সেই কাজের জন্য ব্যবহার করেন যেটির জন্য এটি ভালো, যা আশ্চর্যজনকভাবে বিপণন যা বলে তার মতো নয়। আপনি যদি GLM-4.6 কে যুক্তি বা এজেন্ট কর্মপ্রবাহে ব্যবহার করতে চান, তবে Sider-এর শক্তিগুলো হলো সেই সাধারণ বিষয়গুলো: প্রম্পট স্ক্যাফোল্ডিং যা লেগে থাকে, কাঠামোবদ্ধ সরঞ্জাম ওয়্যারিং এবং সঠিক পুনরাবৃত্তি লুপ যেখানে আপনি দেখতে পারেন কী ভেঙেছে এবং কেন। আপনার আনুষ্ঠানিকতার দরকার নেই; আপনার রান, ডিফারেন্স এবং গার্ডরেলের প্রয়োজন। Sider আপনাকে কম নাটকীয়তার সাথে এগুলো দেয়। এটিকে GLM-4.6 এর সাথে যুক্ত করুন এবং আপনি কম রহস্যজনক ব্যর্থতা এবং আরও পুনরাবৃত্তিযোগ্য জয় পাবেন। বাস্তবায়ন নোট: ছোট লিভার, বড় পার্থক্য
- তাপমাত্রা: সরঞ্জাম পরিকল্পনার জন্য কম (0.0–0.2), চিন্তাভাবনার জন্য বেশি (0.6–0.8)। যদি আপনি পারেন তবে একটি কলে পরিকল্পনা এবং গদ্য মিশ্রিত করবেন না।
- সর্বোচ্চ টোকেন: মধ্যবর্তী কলগুলোতে আগ্রাসীভাবে ক্যাপ করুন; সংশ্লেষণের জন্য বাজেট রাখুন।
- স্টপ সিকোয়েন্স: JSON আউটপুট আবদ্ধ করতে এগুলো ব্যবহার করুন। আপনি চান একবার বন্ধনী বন্ধ হয়ে গেলে মডেলটি চুপ করে যাক।
- স্ব-সমালোচনা পাস: একটি ছোট, পৃথক প্রম্পট—“এই উত্তরটি ভুল হওয়ার তিনটি উপায় তালিকাভুক্ত করুন”—সহজলভ্য ভুলগুলো ধরে।
এগুলো কোনো “হ্যাক” নয়। এগুলো মডেলটিকে অনুমানযোগ্য করে তুলছে।
কখন GLM-4.6 ব্যবহার করবেন না (বা কোনো বড় মডেল)
- যাচাইকরণ ছাড়া সঠিক, প্রতীকী গণিত: একটি বাস্তব সমাধানকারীর কাছে অফলোড করুন।
- পিআইআই-ভারী ওয়ার্কলোড যা আপনি মাস্ক করতে পারবেন না: করবেন না।
- ডিটারমিনিস্টিক পার্সার সহ কাজ: যদি একটি রেজেক্স এটি করে, তবে একটি রেজেক্স ব্যবহার করুন।
- পর্যালোচনা ছাড়াই শূন্য-সহনশীল ডোমেইন: সম্মতিপত্র বা চিকিৎসার পরামর্শের কথা ভাবুন। লুপে একজন মানুষ রাখুন।
কোনো মডেলই সর্বজনীন হাতুড়ি নয়। GLM-4.6 হলো এজেন্ট পাইপলাইনের জন্য একটি কঠিন রেঞ্চ, তবে সবকিছুর জন্য একটি স্লেজহ্যামার নয়।
GLM-4.6 এজেন্টদের জন্য একটি সংক্ষিপ্ত, মারাত্মকভাবে সৎ সেটআপ
- সংজ্ঞায়িত করুন: tools = {search, fetch_doc, extract_table, run_sql, send_email(draft_only)}
- পরিকল্পনা প্রম্পট: “JSON ফেরত দিন যেখানে পদক্ষেপগুলো হয় THINK, TOOL(name,args), অথবা DECIDE। সর্বোচ্চ ৬টি পদক্ষেপ।”
- গার্ড: স্কিমার সাথে মেলে না এমন আউটপুটগুলো প্রত্যাখ্যান করুন। ত্রুটি বার্তা সহ পুনরায় চেষ্টা করতে বাধ্য করুন।
- যাচাই করুন: DECIDE করার আগে, একটি চেকলিস্টের প্রয়োজন: উৎস উল্লেখ করা হয়েছে, অনুমান জানানো হয়েছে, ঝুঁকি উল্লেখ করা হয়েছে।
- হিউম্যান গেট: শুধুমাত্র send_email একটি ‘Y/N’ অনুমোদন ফ্ল্যাগ দিয়ে কার্যকর করা যায়।
পাঁচ লাইনের শৃঙ্খলা আপনাকে পঞ্চাশ লাইনের ঘটনার প্রতিবেদন থেকে বাঁচায়।
GLM-4.6 বনাম অন্যান্য: কোথায় এটি ভালো মনে হয়
- সরঞ্জাম চেইন: কম খারাপভাবে গঠিত আর্গুমেন্ট; প্রতি কলে বেশি সাফল্য।
- দীর্ঘ ডক্স: সুস্পষ্ট বিভাগ আইডি সহ আরও সুসংগত ক্রস-রেফারেন্স।
- লাগাম সহ এজেন্ট: পদক্ষেপ ক্যাপ এবং অনুমোদন পদক্ষেপগুলো আরও ভালোভাবে মেনে চলে।
- খরচ/লেটেন্সি: প্রার্থনার মোমবাতি ছাড়াই বাজেট করার জন্য যথেষ্ট অনুমানযোগ্য।
যদি আপনার অ্যাপের মান 90% হয় “সঠিকভাবে সরঞ্জাম কল করা”, তবে আপনি পার্থক্যটি লক্ষ্য করবেন। যদি এটি 90% হয় “একটি সুন্দর অনুচ্ছেদ লেখা”, তবে আপনি নাও দেখতে পারেন।
ডায়ালেক্টিক্যাল বিট: “রিজনিং” কি সঠিক শব্দ?
সম্ভবত না। তবে আমরা যে শব্দটি ব্যবহার করি তা আমাদের প্রয়োজনীয় আচরণ পরিবর্তন করে না। আমরা এমন সিস্টেম চাই যা:
- সমস্যাগুলো ভেঙে দিতে পারে।
- সঠিক আর্গুমেন্টসহ সঠিক সরঞ্জাম কল করতে পারে।
- তাদের কাজ পরীক্ষা করতে পারে।
- অনিশ্চয়তা স্বীকার করতে পারে।
GLM-4.6 সেই সূঁচটিকে সামান্য পরিমাণে সঠিক দিকে সরিয়ে দেয়। নাটকীয় নয়। শিরোনাম-যোগ্য নয়। আমরা আসলে যে জিনিসটির প্রতি যত্নশীল, তার কাছাকাছি: প্রশ্ন এবং উত্তরের মধ্যে কম ভুল পদক্ষেপ।
উপসংহার: বিরক্তিকর ভবিষ্যৎ জেতে
এআইয়ের (AI) উত্তেজনাপূর্ণ ভবিষ্যৎ কোনো আতশবাজি নয়—এটি লোড-বেয়ারিং অনুমানযোগ্যতা। GLM-4.6 এটির দিকে একটি পদক্ষেপ: আরও স্থিতিশীল ফাংশন কল, শান্ত দীর্ঘ-কনটেক্সট আচরণ, সামান্য কম মেক-বিলBacke। আপনি এটি দিয়ে তৈরি করতে পারেন। এটিকে স্পষ্ট চুক্তি, বাহ্যিক মেমরি এবং একটি যাচাইকারীর সাথে মোড়ানো করুন এবং এটি যতটা তার চেয়ে বেশি স্মার্ট দেখাবে—কারণ আপনি সিস্টেমটিকে উপাদানটির চেয়ে বেশি স্মার্ট করেছেন। এটি প্রকৌশল। এবং এটি সেই অংশ যা বৃদ্ধি পায়।
আপনি যদি কোনো অলৌকিক কিছুর জন্য এসে থাকেন, তবে আপনি হতাশ হবেন। আপনি যদি টিকিট কমাতে, পুনরায় চেষ্টা কমাতে এবং এজেন্টদের “প্রিয় FIRST_NAME” ইমেল করা থেকে আটকাতে আসেন, তবে আপনি খুশি হবেন। বিরক্তিকর জেতে। GLM-4.6 আপনাকে সেখানে পৌঁছাতে সাহায্য করে।
FAQ
প্রশ্ন ১: রিজনিং ওয়ার্কফ্লোর জন্য GLM-4.6 এ নতুন কী আছে?
GLM-4.6 ফাংশন কলিংকে আরও শক্তিশালী করে, দীর্ঘ কনটেক্সটের সাথে আরও ভালো আচরণ করে এবং কম বিচ্যুতির সাথে প্ল্যান-তারপর-অ্যাক্ট প্রম্পট অনুসরণ করে। এটি জাদু করবে না, তবে এটি বহু-পদক্ষেপ রিজনিং পাইপলাইনে কম জিনিস ভাঙবে।
প্রশ্ন ২: বিশৃঙ্খলা ছাড়া এআই (AI) এজেন্টদের জন্য আমি কীভাবে GLM-4.6 ব্যবহার করব?
একটি ছোট লাগাম রাখুন: কঠোর সরঞ্জাম স্কিমা, পর্যালোচনা গেট, বাহ্যিক মেমরি এবং একটি যাচাইকারী পাস। GLM-4.6 পদক্ষেপ ক্যাপকে সম্মান করে এবং আরও পরিষ্কার আর্গুমেন্ট তৈরি করে, যা এজেন্ট থ্রাশ কমিয়ে দেয়।
প্রশ্ন ৩: সরঞ্জাম ব্যবহারের জন্য GLM-4.6 কি অন্যান্য মডেলের চেয়ে ভালো?
প্রায়শই, হ্যাঁ—বিশেষ করে যখন আপনি সঠিক, পুনরাবৃত্তিযোগ্য ফাংশন কল এবং মাল্টি-টুল সিকোয়েন্সগুলোর বিষয়ে যত্নশীল হন। যদি আপনার ওয়ার্কলোড মূলত গদ্য হয়, তবে আপনি সমতা দেখতে পারেন; যদি এটি সরঞ্জাম-ভারী হয়, তবে GLM-4.6 উজ্জ্বল হতে থাকে।
প্রশ্ন ৪: GLM-4.6 রিজনিংয়ের জন্য সেরা প্রম্পট শৈলী কী?
টাস্কটিকে ভেঙে দিন, আউটপুট স্কিমা সংজ্ঞায়িত করুন এবং উল্লেখিত অনুমান বা সারি আইডিগুলোর প্রয়োজনীয়তা দিন। রোল-প্লে বাদ দিন; GLM-4.6 চাটুকারিতার চেয়ে সুস্পষ্ট পদক্ষেপ এবং গার্ডরেলের সাথে ভালো কাজ করে।
প্রশ্ন ৫: GLM-4.6 এখনও কোথায় পিছিয়ে আছে?
যাচাইকরণ ছাড়া প্রতীকী গণিত, মাস্কিং ছাড়া গোপনীয়তা-সংবেদনশীল কাজ এবং শূন্য-সহনশীল ডোমেইন। এটি কাঠামোবদ্ধ রিজনিং এবং এজেন্টদের ক্ষেত্রে শক্তিশালী, ডিটারমিনিস্টিক সরঞ্জামগুলোর বিকল্প নয়।