What’s new in GLM‑4.6 for reasoning workflows?

GLM‑4.6 tightens function calling, behaves better with long context, and follows plan‑then‑act prompts with less drift. It won’t do magic, but it will break fewer things in multi‑step reasoning pipelines.

How do I use GLM‑4.6 for AI agents without chaos?

Keep a short leash: strict tool schemas, review gates, external memory, and a verifier pass. GLM‑4.6 respects step caps and produces cleaner arguments, which cuts down on agent thrash.

Is GLM‑4.6 better than other models for tool use?

Often, yes—especially when you care about correct, repeatable function calls and multi‑tool sequences. If your workload is mostly prose, you may see parity; if it’s tool‑heavy, GLM‑4.6 tends to shine.

What’s the best prompt style for GLM‑4.6 reasoning?

Decompose the task, define output schemas, and require cited assumptions or row IDs. Skip the role‑play; GLM‑4.6 does better with explicit steps and guardrails than with flattery.

Where does GLM‑4.6 still fall short?

Symbolic math without verification, privacy‑sensitive tasks without masking, and zero‑tolerance domains. It’s stronger at structured reasoning and agents, not a substitute for deterministic tools.

GLM-4.6، توضیح بدون اغراق: چه چیزهایی واقعاً جدید هستند و چگونه از آن استفاده کنیم

ویژگی مدل‌های هوش مصنوعی «نسل بعدی» این است که همیشه با دو چمدان از راه می‌رسند: یکی پر از محک‌ها و دیگری پر از وعده‌ها.

GLM-4.6 هم از این قاعده مستثنی نیست. با نمودارهای جدید، ارقام بیشتر بعد از اعشار، و شعار جدیدی دربارهٔ «استدلال» از راه می‌رسد. این واژه در بازاریابی هوش مصنوعی نقش بسیار مهمی ایفا می‌کند. این واژه مانند «ارگانیک» در هوش ماشین است—به‌طور مبهمی با فضیلت، گاهی معنادار، اغلب فقط یک برچسب.

بیایید این برچسب را کنار بگذاریم. اگر سؤال شما این است که «GLM-4.6 چیست، چه چیز جدیدی دارد، و چگونه می‌توانم در واقع از آن برای استدلال و عامل‌ها استفاده کنم؟» پاسخ صادقانه این است: این یک گام افزایشی اما واقعی است که اگر به گردش‌کارهای عملی، استفادهٔ ساختاریافته از ابزارها، و چارچوب‌های عاملی که به‌محض اینکه یک صفحه گستردهٔ ناآشنا به آن‌ها بدهید، از کار نمی‌افتند، اهمیت می‌دهید، مهم است. اگر یک حقهٔ نمایشی می‌خواهید، مدل‌های زیادی این کار را انجام می‌دهند. اگر مدلی می‌خواهید که روی کار بماند، GLM-4.6—بسته به کار—واقعاً جالب است.

این یک بررسی عمیق/توضیح با یک سوگیری عملی است: چگونه GLM-4.6 روزمرگی خطوط لولهٔ استدلال و هماهنگ‌سازی عامل را تغییر می‌دهد، و چگونه در این فرایند خودتان را فریب ندهید.

GLM-4.6 در واقع چیست (و چی نیست)

«GLM» خانواده‌ای از مدل‌های زبانی بزرگ است. خط 4.x به استدلال چند نوبتی، استفاده از ابزار، و پنجره‌های زمینهٔ گسترده‌تر تکیه دارد. GLM-4.6 نسخهٔ نقطه‌ای جدیدی است که بخش‌هایی را تغییر می‌دهد که فقط هنگام ساختن با آن متوجه می‌شوید: داربست‌بندی زنجیرهٔ فکری ثابت‌تر (درون‌سازمانی)، چسبندگی بهتر به فراخوانی تابع، تناقض کمتر در اعلان‌های طولانی، و مدیریت کمی عاقلانه‌تر ورودی‌های ساختاریافته. نوعی کار که در یک نمایش نمایشی پر زرق و برق خوب به نظر نمی‌رسد، اما وقتی نمایش دادن را متوقف می‌کنید و شروع به عرضه می‌کنید، ظاهر می‌شود.

آنچه نیست: AGI نیست، جادو نیست، و قرار نیست هر مدل دیگری را به شکلی که بیانیه‌های مطبوعاتی هر چهارشنبهٔ دیگر نشان می‌دهند، جایگزین کند. اگر انتظار اثبات‌های یک‌باره یا دقت در سطح قضیه را دارید، خیر. اگر انتظار خطاهای غیرضروری کمتری را هنگام دستکاری چندین فراخوانی ابزار و یک زمینهٔ بزرگ دارید، تقریباً بله.

چه چیز جدیدی در GLM-4.6 وجود دارد (جزئیاتی که مهم هستند)

زمینهٔ طولانی‌تر و چسبنده‌تر: نه فقط توکن‌های بیشتر—حفظ بهتر در سراسر بخش‌ها. احتمال اینکه محدودیتی را که در پاراگراف سه قرار داده‌اید، هنگام فراخوانی یک ابزار در پاراگراف دوازده «فراموش» کند، کمتر است.

فراخوانی تابع دقیق‌تر: آرگومان‌ها به‌طور پیوسته‌تری شکل می‌گیرند. زحمت کمتری برای وادار کردن JSON به شکل مناسب، کلیدهای توهمی کمتر. اگر عامل می‌سازید، می‌دانید که این جایی است که بسیاری از مدل‌ها زمین می‌خورند.

سوگیری استدلال ساختاریافته: می‌توانید GLM-4.6 را با داربست‌بندی سبک به یک حلقهٔ برنامه‌ریزی-سپس-عمل سوق دهید. تظاهر به فکر کردن مانند یک فیلسوف نمی‌کند، اما مراقب مراحلی مانند یک مدیر پروژهٔ شایسته خواهد بود.

لمس‌های چندوجهی (اگر به آن‌ها نیاز دارید): انواع آگاه از تصویر، رفتار قابل پیش‌بینی‌تری در خواندن فرم و تجزیهٔ UI دارند. نه چیزهای اسباب‌بازی هنری—چیزهای خسته‌کننده و مفید.

تغییرات تأخیر/هزینه: نوسانات کمتر، توان عملیاتی قابل پیش‌بینی‌تر. نه، رایگان نیست؛ بله، به اندازه‌ای هست که در داشبوردهای تولید مهم باشد.

معیارها؟ مظنونان همیشگی را خواهید یافت—MMLU این، GSM8K آن—به سمت بالا سوق داده شده‌اند. نکتهٔ اصلی این عدد نیست؛ بلکه ثبات زیر بار و کاهش لحظات «چه جهنمی اتفاق افتاد؟» در طول زنجیره‌های ابزار است.

استدلال با GLM-4.6: آرزو کردن را متوقف کنید، محدود کردن را شروع کنید

«استدلال» در LLMها تکمیل الگوی آماری با سوگیری به سمت متن گام‌به‌گام است. این خوب است. تظاهر به اینکه چیز دیگری است، منجر به اعلان‌های بد و سیستم‌های بدتر می‌شود. GLM-4.6 زمانی بهتر می‌شود که به آن بدهید:

محدودیت‌ها بر هوشمندی: قالب هدف، تست‌های پذیرش و شرایط شکست را مشخص کنید. اگر شکل ریاضیات واضح باشد، مدل محاسبات را انجام خواهد داد.

تجزیه بر تک‌گویی‌ها: مسائل را به مراحلی تقسیم کنید—تجزیه → برنامه‌ریزی → اجرا → تأیید. می‌توانید این را در اعلان سیستم قرار دهید یا به‌طور صریح با فراخوانی ابزار انجام دهید.

حافظهٔ خارجی‌شده: مدل را پایگاه دادهٔ خود نکنید. از آن بخواهید که در یک دفترچهٔ یادداشت خارجی یا ذخیره‌گاه برداری بنویسد و از آن بخواند. GLM-4.6 کمتر فراموش‌کار است، اما هنوز هم یک ماهی قرمز با لحظات شفافیت است.

قلاب‌های تأیید: گذر دوم با یک تأییدکننده—گاهی اوقات همان مدل، گاهی اوقات یک مدل کوچکتر—اشتباهات احمقانه را می‌گیرد. اگر یک پاسخ اشتباه را در تولید ذخیره کند، اضافی نیست.

در اینجا یک حلقهٔ حداقل و به‌طور خسته‌کننده‌ای مؤثر برای استدلال جدولی وجود دارد:

مرحلهٔ 1: از GLM-4.6 بخواهید که طرح و محدودیت‌ها را از سؤال استخراج کند.

مرحلهٔ 2: از آن بخواهید که یک طرح و «ابزارهای مورد نیاز» را پیشنهاد کند.

مرحلهٔ 3: فراخوانی‌های ابزار (SQL، پایتون، هر چیز دیگری) را با آرگومان‌های JSON رمزگذاری شده توسط مدل اجرا کنید.

مرحلهٔ 4: نتایج ابزار را برگردانید و یک پاسخ نهایی با توجیه مرتبط با ردیف‌های بازیابی شده بخواهید.

ترفند، اعلان‌های فانتزی نیست. امتناع از اجازه دادن به مدل برای بداهه‌نوازی در جایی است که نباید.

عامل‌ها با GLM-4.6: گله‌داری گربه‌ها، حالا با افسار

عامل‌ها جایی هستند که هیاهو به لباس مبدل مدیریت محصول می‌رود. بیشتر عامل‌های «خودمختار» یک Roomba هستند که در یک فروشگاه LEGO رها شده است—مشغول، نه مفید. GLM-4.6 به خودی خود این را تغییر نمی‌دهد. کاری که انجام می‌دهد:

قراردادهای ابزار قابل اعتمادتر: وقتی می‌گویید get_flights(origin, destination, date) را فراخوانی کن، تا زمانی که نخواهید، از اختراع cabin_class دست برمی‌دارد. این تفاوت بین یک نمایش و بازپرداخت است.

حسابداری گام بهتر: اگر از آن بخواهید که در N فراخوانی ابزار متوقف شود یا یک ایست بازرسی تأیید را بخواهد، بیشتر اوقات اطاعت می‌کند. اطاعت کردن دست کم گرفته شده است.

وظایف با افق دید طولانی قابل تحمل: با نقاط عطف صریح و یک ذخیره‌گاه حافظه، می‌تواند یک وظیفهٔ چند روزه را بدون انحراف به سمت داستان تخیلی حمل کند.

الگوی برنده با عامل‌های GLM-4.6 «رها کردن آن» نیست. «حلقهٔ تنگ، افسار کوتاه، پاداش‌های واضح» است.

یک داربست عملی: از اعلان تا خط لوله

هر چه دوست دارید آن را بنامید—«استدلال سنجیده»، «برنامه‌ریز-اجراکننده»—خط لوله به این شکل است:

سیستم: شما یک برنامه‌ریز محتاط هستید. بدون برنامه ابزارها را فراخوانی نمی‌کنید. باید JSON را در یک طرح تولید کنید.

کاربر: کار (واضح، محدود، با مثال‌هایی از پاسخ‌های خوب در مقابل پاسخ‌های بد).

دستیار (برنامه): مدل گام‌ها را پیش‌نویس می‌کند، ابزارها را انتخاب می‌کند، فرضیات را بیان می‌کند.

فراخوانی‌های ابزار: آرگومان‌های قطعی و تایپ‌شده. در خطاهای طرح رد کنید. همه چیز را ثبت کنید.

دستیار (سنتز): مدل خروجی‌های ابزار را با طرح ادغام می‌کند و یک پاسخ نهایی برمی‌گرداند.

تأییدکننده: بررسی سبک‌وزن—گاهی اوقات فقط regexها و تست‌های پذیرش—برای گرفتن انحراف.

سهم GLM-4.6: عدم تطابق کمتر برنامه/اجرا و اشکال آرگومان سازگارتر. پر زرق و برق نیست. مفید است.

اعلانی که به شما دروغ نمی‌گوید

نقش یک نابغه را بازی نکنید. ساختار بخواهید: «فرضیات را فهرست کنید»، «تبدیل واحدها را نشان دهید»، «ردیف‌هایی را که استفاده کرده‌اید ذکر کنید».

از محافظ‌هایی استفاده کنید که گاز می‌گیرند. «اگر مطمئن نیستید، درخواست توضیح کنید» بی‌ارزش است مگر اینکه مطمئن نبودن را تعریف کنید و یک سؤال بخواهید.

جفت‌های مثال را بر موعظه‌های طولانی ترجیح دهید. دو مثال خوب از دو صفحه حس بهتر است.

مدل را وادار کنید بگوید «نمی‌دانم». به‌معنای واقعی کلمه این عبارت را مجاز کنید. در غیر این صورت هرگز از آن استفاده نخواهد کرد.

GLM-4.6 راحت‌تر از ساخت‌های قبلی با این برنامه همراه می‌شود. این پیشرفت است: دروغ‌های هوشمندانه‌تر نه، کمتر.

داده‌ها، ابزارها و جادوی خسته‌کنندهٔ فراخوانی تابع

فراخوانی تابع جایی است که استدلال از تئاتر بودن دست برمی‌دارد. با GLM-4.6:

طرح‌ها می‌چسبند: امضای تابع را یک بار آموزش دهید و در نوبت‌ها دوباره از آن استفاده کنید.

دنباله‌های چند ابزاری رفتار می‌کنند: برنامه‌ریزی → جستجو → دریافت → خلاصه‌سازی دیگر به برنامه‌ریزی → خلاصه‌سازی → دوباره خلاصه‌سازی تبدیل نمی‌شود.

سریع شکست بخورید: اگر ابزاری آرگومان را رد کرد، خطا را دوباره به مدل نشان دهید و یک نوبت اصلاحی را اجبار کنید. بی‌صدا تعمیر نکنید؛ از مدل بخواهید که این کار را انجام دهد.

اگر در حال ساختن دستیاران تحقیق، ربات‌های پشتیبانی مشتری یا عامل‌های داده هستید، جادوی خسته‌کننده این است که فراخوانی‌های ابزار را هر بار درست انجام دهید. GLM-4.6 در خسته‌کننده بودن بهتر است.

زمینهٔ طولانی: فضای بیشتر برای پرسه زدن، بهانهٔ کمتر برای گم شدن

پنجره‌های زمینه بزرگ شدند زیرا ما مدام چیزهای بیشتری در آن‌ها می‌چسباندیم. GLM-4.6 زمینه‌های طولانی‌تر را با تداخل کمتر مدیریت می‌کند. با این حال، چند قانون:

تکه تکه کنید و عنوان دهید: از هدرهای کوتاه و صریح استفاده کنید. مدل‌ها برچسب‌ها را بهتر از پاراگراف‌ها «به خاطر می‌آورند».

نشانگرها را بر چسباندن ترجیح دهید: اگر یک نشانگر و قلاب بازیابی کارساز است، ضمیمه را پر نکنید.

با پاسخگویی خلاصه کنید: از مدل بخواهید که شناسه‌های بخش را ذکر کند، نه فقط «اسناد می‌گویند».

نتیجه، خاطرات شبح‌وار کمتر و خلاصه‌های مهارشده‌تر است.

استفاده از GLM-4.6 برای کد: اجازه ندهید که بال بال بزند

اگر تفاوت را کنترل کنید، در بویلرپلیت خوب است و در بازسازی‌ها مناسب است. برای تولید کد غیر پیش پا افتاده:

ابتدا رابط‌ها را مشخص کنید. انواع، امضاها، قراردادهای ورودی/خروجی.

تست‌های واحد قبل از پیاده‌سازی. از مدل بخواهید که تست‌ها را بنویسد، سپس کد را. تست‌ها را اجرا کنید. شکست‌ها را دوباره وارد کنید.

دسته‌های کوچک. یک تابع در یک زمان. ادغام کنید، سپس ادامه دهید.

اگر بر این انضباط اصرار کنید، GLM-4.6 هوشمندتر به نظر می‌رسد. تظاهر نمی‌کند؛ شما احتمال انحراف آن را از مسیر خود کاهش می‌دهید.

موانع استدلال که GLM-4.6 کاهش می‌دهد (اما از بین نمی‌برد)

لنگر انداختن بر حدس‌های اولیه: از آن بخواهید قبل از تصمیم‌گیری، گزینه‌ها را فهرست کند. پاسخ‌های ایدهٔ اول-بهترین-ایده کمتری خواهید دید.

خلاصه‌سازی بیش از حد: نقل قول‌های قابل ردیابی یا شناسه‌های ردیف را بخواهید. در غیر این صورت، خلاصه‌سازی خود را دوباره بیان می‌کند.

انحراف برنامه‌ریزی-اجرا: برنامه را یک قرارداد کنید. اگر پاسخ نهایی منحرف شد، مجبورش کنید دلیل آن را توضیح دهد.

توهم ابزار: یک رجیستری را نگه دارید و ابزارهای ناشناخته را رد کنید. مدل ابزارهای کمتری را اختراع می‌کند—اما صفر هدف است.

ارزیابی GLM-4.6: معیارهایی که می‌توانید به آن‌ها اعتماد کنید (معیارهای خودتان)

تابلوهای امتیاز عمومی مانند ستاره‌های رستوران مفید هستند: سیگنال خوب، نه سلیقهٔ شما. معیارهای شما باید:

محدود به کار: 100–200 اعلان واقعی از تولید، نه دستچین شده.

با تست‌های پذیرش امتیازدهی شده: Regexها، ماشین حساب‌ها، اعتبارسنجی‌های طرح. انسان‌ها تفاوت‌های ظریف را تشخیص می‌دهند. ماشین‌ها چیزهای احمقانه را می‌گیرند.

هزینه‌بندی شده: دلار به ازای هر پاسخ صحیح را اندازه بگیرید، نه فقط دقت.

آگاه از تأخیر: P95 مهمتر از P50 خوش شانس است.

هنگامی که حجم کار سنگین و چند مرحله‌ای است، GLM-4.6 تمایل دارد در «هزینه به ازای هر صحیح» امتیاز خوبی کسب کند. اگر کار شما نثر خام با ساختار صفر است، ممکن است برابری با سایر نام‌های بزرگ پیدا کنید.

نحوهٔ استفاده از GLM-4.6 برای عامل‌ها (کتابی که تظاهر نمی‌کند)

ابزارها را مانند APIها تعریف کنید، نه آرزوها: انواع ورودی، کدهای خطا، مثال‌ها.

دروازه‌های بررسی را اعمال کنید: برای اقدامات پرخطر (ایمیل‌ها، سفارش‌ها)، یک مرحلهٔ تأیید انسانی با یک تفاوت یک صفحه‌ای بخواهید.

حافظه را خارجی نگه دارید: یادداشت‌های پروژه، حالت، اسناد—آن‌ها را ذخیره کنید. مدل می‌خواند و می‌نویسد؛ کیف را حمل نمی‌کند.

همه چیز را ابزار کنید: توکن‌ها، آرگومان‌های ابزار، نتایج را ثبت کنید. اگر نتوانید آن را بازرسی کنید، نمی‌توانید آن را بهبود بخشید.

تلاش‌های مجدد با هدف: اجازه دهید یک پاس اصلاحی با قوانین سخت وجود داشته باشد. اگر هنوز هم با شکست مواجه شد، شکست بسته.

GLM-4.6 میانگین ضربه زدن به توپ بهتری به شما می‌دهد. شما هنوز به قوانین و یک تابلوی امتیاز نیاز دارید.

امنیت، حریم خصوصی و وسوسهٔ تحویل کلیدها

حصارکشی PII: قبل از اینکه مدل آن را ببیند، آن را پنهان کنید. به یک اعلان برای حفظ اسرار اعتماد نکنید.

جعبهٔ ایمنی ابزار: فراخوانی‌های سیستم فایل و شبکه باید به دامنه‌ها و مسیرهای لیست سفید محدود شوند.

تزریق اعلان: تمام متن بازیابی شده را غیرقابل اعتماد در نظر بگیرید. ضدعفونی کنید و آنچه را که یک فراخوانی ابزار می‌تواند انجام دهد، محدود کنید.

مسیرهای حسابرسی: یک رونویسی کامل—اعلان‌ها، فراخوانی‌های ابزار، خروجی‌ها—را نگه دارید. شما در آینده از خودتان تشکر خواهید کرد.

GLM-4.6 «تصمیم» نمی‌گیرد که قوانین را زیر پا بگذارد—اما اگر اجازه دهید، با خوشحالی یک دستورالعمل مسموم را دنبال می‌کند.

یک کلمهٔ کوتاه دربارهٔ Sider.AI (زیرا واقعاً در اینجا کمک می‌کند)

Sider.AI در واقع کار می‌کند—حداقل زمانی که از آن برای کاری که در آن خوب است استفاده می‌کنید، که به‌طور عجیبی دقیقاً همان چیزی نیست که بازاریابی می‌گوید. اگر هدف شما این است که GLM-4.6 را در یک گردش کار استدلال یا عامل درگیر کنید، نقاط قوت Sider نقاطی هستند که پر زرق و برق نیستند: داربست اعلان که می‌چسبد، سیم‌کشی ابزار ساختاریافته و حلقه‌های تکرار عاقلانه که در آن می‌توانید ببینید چه چیزی خراب شده و چرا. شما به مراسم نیاز ندارید؛ شما به اجراها، تفاوت‌ها و محافظ‌ها نیاز دارید. Sider این موارد را با تئاتر کمتری به شما می‌دهد. آن را با GLM-4.6 جفت کنید و شکست‌های رمزآلود کمتری و پیروزی‌های تکرارپذیرتری خواهید داشت.

یادداشت‌های پیاده‌سازی: اهرم‌های کوچک، تفاوت‌های بزرگ

دما: برای برنامه‌ریزی ابزار پایین‌تر (0.0–0.2)، برای ایده‌پردازی بالاتر (0.6–0.8). اگر می‌توانید از ترکیب برنامه‌ریزی و نثر در یک تماس خودداری کنید.

حداکثر توکن‌ها: به‌طور تهاجمی در تماس‌های متوسط محدود کنید. بودجه را برای سنتز رزرو کنید.

توقف دنباله‌ها: از آن‌ها برای محدود کردن خروجی‌های JSON استفاده کنید. شما می‌خواهید هنگامی که براکت بسته می‌شود، مدل ساکت شود.

گذر خود انتقادی: یک اعلان کوتاه و جداگانه—«سه روشی را فهرست کنید که این پاسخ می‌تواند اشتباه باشد»—میوه‌های پایین آویزان را می‌گیرد.

این‌ها «هک» نیستند. آن‌ها مدل را قابل پیش‌بینی می‌کنند.

چه زمانی از GLM-4.6 (یا هر مدل بزرگ) استفاده نکنیم

ریاضیات دقیق و نمادین بدون تأیید: به یک حل‌کنندهٔ واقعی واگذار کنید.

حجم کار سنگین PII که نمی‌توانید پنهان کنید: این کار را نکنید.

وظایفی با تجزیه‌کننده‌های قطعی: اگر یک regex این کار را انجام می‌دهد، از یک regex استفاده کنید.

حوزه‌های تحمل صفر بدون بررسی: به نامه‌های انطباق یا مشاورهٔ پزشکی فکر کنید. یک انسان را در حلقه نگه دارید.

هیچ مدلی یک چکش جهانی نیست. GLM-4.6 یک آچار محکم برای خطوط لولهٔ عامل است، نه یک پتک برای همه چیز.

یک تنظیم کوتاه و بی‌رحمانه برای عامل‌های GLM-4.6

تعریف کنید: tools = {search, fetch_doc, extract_table, run_sql, send_email(draft_only)}

اعلان طرح: «JSON را با مراحل برگردانید، هر مرحله یا THINK، TOOL(name,args) یا DECIDE باشد. حداکثر 6 مرحله.»

محافظت: خروجی‌هایی را که با طرح مطابقت ندارند رد کنید. یک تلاش مجدد را با پیام خطا مجبور کنید.

تأیید: قبل از DECIDE، یک چک لیست بخواهید: منابع ذکر شده، فرضیات بیان شده، خطرات ذکر شده.

دروازهٔ انسانی: فقط send_email با یک پرچم تأیید ‘Y/N’ قابل اجرا می‌شود.

پنج خط انضباط شما را از پنجاه خط گزارش حادثه نجات می‌دهد.

GLM-4.6 در مقابل این زمینه: جایی که احساس بهتری دارد

زنجیره‌های ابزار: آرگومان‌های بدشکل کمتر؛ موفقیت بالاتر در هر تماس.

اسناد طولانی: مراجع متقابل منسجم‌تر با شناسه‌های بخش صریح.

عامل‌ها با افسار: بهتر از محدودیت‌های مرحله و مراحل تأیید اطاعت می‌کند.

هزینه/تأخیر: به اندازهٔ کافی قابل پیش‌بینی است که بدون شمع دعا بودجه بندی شود.

اگر ارزش برنامهٔ شما 90٪ «ابزارها را به‌درستی فراخوانی کنید» است، تفاوت را متوجه خواهید شد. اگر 90٪ «یک پاراگراف زیبا بنویسید» است، ممکن است متوجه نشوید.

بخش دیالکتیکی: آیا «استدلال» حتی واژهٔ درستی است؟

احتمالاً نه. اما واژه‌ای که استفاده می‌کنیم رفتاری را که به آن نیاز داریم تغییر نمی‌دهد. ما سیستم‌هایی می‌خواهیم که بتوانند:

مسائل را تجزیه کنند.

ابزارهای مناسب را با آرگومان‌های مناسب فراخوانی کنند.

کار خود را بررسی کنند.

عدم اطمینان را بپذیرند.

GLM-4.6 آن سوزن را یک درجه در جهت درست حرکت می‌دهد. چشمگیر نیست. ارزش تیتر زدن ندارد. فقط نزدیک‌تر به چیزی که واقعاً به آن اهمیت می‌دهیم: پیچش‌های اشتباه کمتر بین سؤال و پاسخ.

نتیجه: آیندهٔ خسته‌کننده برنده می‌شود

آیندهٔ هیجان‌انگیز هوش مصنوعی آتش‌بازی نیست—بلکه پیش‌بینی‌پذیری تحمل بار است. GLM-4.6 گامی به سوی آن است: فراخوانی‌های تابع ثابت‌تر، رفتار آرام‌تر زمینهٔ طولانی، کمی کمتر خیال‌بافی. می‌توانید با آن بسازید. آن را با قراردادهای واضح، حافظهٔ خارجی و یک تأییدکننده بپیچید، و هوشمندتر از آنچه هست به نظر می‌رسد—زیرا شما سیستم را هوشمندتر از مؤلفه ساخته‌اید. این مهندسی است. و این بخشی است که مقیاس می‌یابد.

اگر برای یک معجزه آمده‌اید، ناامید خواهید شد. اگر برای کاهش بلیط‌ها، کاهش تلاش‌های مجدد و جلوگیری از ایمیل زدن عامل‌ها به «Dear FIRST_NAME» آمده‌اید، خوشحال خواهید شد. خسته‌کننده برنده می‌شود. GLM-4.6 به شما کمک می‌کند به آنجا برسید.

پرسش‌های متداول

سؤال 1: چه چیز جدیدی در GLM-4.6 برای گردش کارهای استدلال وجود دارد؟\nGLM-4.6 فراخوانی تابع را محکم‌تر می‌کند، با زمینهٔ طولانی بهتر رفتار می‌کند و اعلان‌های برنامه‌ریزی-سپس-عمل را با انحراف کمتری دنبال می‌کند. جادو نمی‌کند، اما چیزهای کمتری را در خطوط لولهٔ استدلال چند مرحله‌ای خراب می‌کند.

سؤال 2: چگونه از GLM-4.6 برای عامل‌های هوش مصنوعی بدون هرج و مرج استفاده کنم؟\nیک افسار کوتاه نگه دارید: طرح‌های ابزار سختگیرانه، دروازه‌های بررسی، حافظهٔ خارجی و یک پاس تأییدکننده. GLM-4.6 به محدودیت‌های مرحله احترام می‌گذارد و آرگومان‌های پاک‌تری تولید می‌کند، که باعث کاهش ضربهٔ عامل می‌شود.

سؤال 3: آیا GLM-4.6 برای استفاده از ابزار بهتر از سایر مدل‌ها است؟\nاغلب، بله—به‌ویژه زمانی که به فراخوانی‌های تابع صحیح و قابل تکرار و دنباله‌های چند ابزاری اهمیت می‌دهید. اگر حجم کار شما بیشتر نثر است، ممکن است برابری ببینید. اگر سنگین ابزار است، GLM-4.6 تمایل به درخشش دارد.

سؤال 4: بهترین سبک اعلان برای استدلال GLM-4.6 چیست؟\nکار را تجزیه کنید، طرح‌های خروجی را تعریف کنید و فرضیات ذکر شده یا شناسه‌های ردیف را بخواهید. نقش‌آفرینی را رها کنید؛ GLM-4.6 با مراحل و محافظ‌های صریح بهتر از تملق عمل می‌کند.

سؤال 5: GLM-4.6 هنوز در کجا کوتاهی می‌کند؟\nریاضیات نمادین بدون تأیید، وظایف حساس به حریم خصوصی بدون پنهان کردن و حوزه‌های تحمل صفر. در استدلال ساختاریافته و عامل‌ها قوی‌تر است، نه جایگزینی برای ابزارهای قطعی.