Lieta par “nākamās paaudzes” AI modeļiem ir tāda, ka tie vienmēr ierodas ar diviem koferiem: viens pilns ar etaloniem un otrs pilns ar solījumiem.
GLM‑4.6 neatšķiras. Tas nāk ar jaunām diagrammām, vairāk cipariem aiz komata un jaunu saukli par “spriešanu”. Šis vārds smagi strādā AI mārketingā. Tas ir mašīntelpa “organiskums” — neskaidri tikumīgs, dažreiz jēgpilns, bieži vien tikai uzlīme.
Nometīsim šo uzlīmi. Ja jūsu jautājums ir: “Kas ir GLM‑4.6, kas jauns un kā es to faktiski izmantoju spriešanai un aģentiem?”, godīga atbilde ir: tas ir pakāpenisks, bet reāls solis, kam ir nozīme, ja jums rūp praktiski darbplūsmas, strukturēta rīku izmantošana un aģentu ietvari, kas neiekrīt dubļos, tiklīdz jūs tiem iemetat nepazīstamu izklājlapu. Ja vēlaties ballīšu triku, to var izdarīt daudzi modeļi. Ja vēlaties modeli, kas paliek pie uzdevuma, GLM‑4.6 — atkarībā no darba — patiešām ir interesants.
Šis ir dziļš ieskats/skaidrojums ar darba novirzi: kā GLM‑4.6 maina ikdienu spriešanas cauruļvadiem un aģentu orķestrācijai, un kā neapmānīt sevi šajā procesā.
Kas GLM‑4.6 patiesībā ir (un nav)
“GLM” ir lielu valodu modeļu saime. 4.x līnija tiecas uz daudzpagriezienu spriešanu, rīku izmantošanu un plašākiem konteksta logiem. GLM‑4.6 ir jauns punktu izlaidums, kas pielāgo daļas, kuras jūs pamanāt tikai tad, kad veidojat ar to: vienmērīgāka ķēdes domu sastatne (iekšēji), labāka funkciju zvanu ievērošana, mazāk pretrunu starp gariem uzvedumiem un nedaudz saprātīgāka strukturētu ievades datu apstrāde. Tāda veida darbs, kas neizskatās labi greznā demonstrācijā, bet parādās, kad pārtraucat demonstrēt un sākat piegādāt.
Kas tas nav: tas nav AGI, tas nav maģija, un tas neaizstās katru citu modeli tā, kā preses relīzes liek domāt katru otro trešdienu. Ja jūs sagaidāt vienreizējus pierādījumus vai teorēmas līmeņa stingrību, tad nē. Ja jūs sagaidāt mazāk nepiespiestu kļūdu, žonglējot ar vairākiem rīku zvaniem un lielu kontekstu, tuvāk jā.
Kas jauns GLM‑4.6 (Svarīgās detaļas)
- Ilgāks, pielīpīgāks konteksts: ne tikai vairāk žetonu — labāka saglabāšana starp sadaļām. Mazāka iespēja, ka tas “aizmirsīs” ierobežojumu, ko ievietojāt trešajā rindkopā, kad zvanāt rīku divpadsmitajā rindkopā.
- Ciešāka funkciju izsaukšana: argumenti tiek veidoti konsekventāk. Mazāk jaka skūšanās, lai piespiestu JSON formu, mazāk halucinētu atslēgu. Ja veidojat aģentus, jūs zināt, ka šeit daudzi modeļi paklūp pašu kurpju šņorēs.
- Strukturēta spriešanas novirze: jūs varat pamudināt GLM‑4.6 plānot‑pēc tam‑darboties ciklā ar vieglu sastatni. Tas neizliksies, ka domā kā filozofs, bet tas sekos līdzi soļiem kā pienācīgs projektu vadītājs.
- Vairākmoduļu pieskārieni (ja tie ir nepieciešami): attēlu zinoši varianti uzvedas paredzamāk, lasot veidlapas un analizējot lietotāja interfeisu. Nevis mākslas rotaļlietu lietas — garlaicīgas, noderīgas lietas.
- Latences/izmaksu pielāgojumi: mazāk lēcienu, paredzamāka caurlaidība. Nē, ne bezmaksas; jā, pietiekami, lai būtu nozīme ražošanas informācijas paneļos.
Etaloni? Jūs atradīsiet parastos aizdomās turamos — MMLU šo, GSM8K to — pamudinātu uz augšu. Virsraksts nav skaitlis; tā ir konsekvence zem slodzes un samazinājums “kas pie velna tikko notika?” mirkļos rīku ķēžu laikā.
Spriešana ar GLM‑4.6: beidziet vēlēties, sāciet ierobežot
“Spriešana” LLM ir statistiska modeļa pabeigšana ar novirzi uz pakāpenisku tekstu. Tas ir labi. Izliekoties, ka tas ir kaut kas cits, noved pie sliktiem uzvedumiem un sliktākām sistēmām. GLM‑4.6 kļūst labāks, ja jūs to sniedzat:
- Ierobežojumi pār viltību: norādiet mērķa formātu, pieņemšanas testus un atteices nosacījumus. Modelis veiks aprēķinus, ja aprēķinu forma būs skaidra.
- Sadales par monolgiem: sadaliet problēmas posmos — analizējiet → plānojiet → izpildiet → pārbaudiet. Jūs varat ielikt to sistēmas uzvednē vai darīt to skaidri ar rīku zvaniem.
- Ārējā atmiņa: nelieciet modelim būt jūsu datu bāzei. Lieciet tam rakstīt un lasīt no ārēja melnraksta vai vektoru krātuves. GLM‑4.6 ir mazāk aizmāršīgs, bet tas joprojām ir zelta zivtiņa ar apgaismības mirkļiem.
- Verifikācijas āķi: otrs posms ar verifikatoru — dažreiz tas pats modelis, dažreiz mazāks — uztver muļķīgas kļūdas. Tas nav lieki, ja tas ražošanā ietaupa vienu nepareizu atbildi.
Šeit ir minimāls, garlaicīgi efektīvs cikls tabulārai spriešanai:
- 1. darbība: lūdziet GLM‑4.6 izvilkt shēmu un ierobežojumus no jautājuma.
- 2. darbība: lieciet tam ierosināt plānu un “nepieciešamos rīkus”.
- 3. darbība: izpildiet rīku zvanus (SQL, Python, jebkas cits) ar argumentiem, kas JSON‑kodēti pēc modeļa.
- 4. darbība: ievadiet rīka rezultātus atpakaļ un pieprasiet galīgo atbildi ar pamatojumu, kas saistīts ar izgūtajām rindām.
Triks nav grezni uzvedumi. Tā ir atteikšanās ļaut modelim improvizēt tur, kur nevajadzētu.
Aģenti ar GLM‑4.6: kaķu ganīšana, tagad ar pavadām
Aģenti ir tur, kur ažiotāža dodas spēlēt produktu vadību. Lielākā daļa “autonomo” aģentu ir Roomba, kas palaista LEGO veikalā — aizņemta, nevis noderīga. GLM‑4.6 to nemaina pats par sevi. Ko tas dara:
- Uzticamāki rīku līgumi: kad jūs sakāt zvaniet get_flights(origin, destination, date), tas pārtrauc izgudrot cabin_class, ja vien jūs to neprasāt. Tā ir atšķirība starp demonstrāciju un atmaksu.
- Labāka soļu uzskaite: ja jūs lūdzat to ierobežot ar N rīku zvaniem vai pieprasīt apstiprināšanas kontrolpunktu, tas paklausa biežāk. Paklausība ir nenovērtēta.
- Toleranti ilgtermiņa uzdevumi: ar skaidriem atskaites punktiem un atmiņas krātuvi tas var veikt daudz dienu uzdevumu, neiegrimstot fanu daiļliteratūrā.
Uzvarošais modelis ar GLM‑4.6 aģentiem nav “atlaidiet to brīvu”. Tas ir “ciešs loks, īsa pavada, skaidras balvas”.
Praktiskas sastatnes: no uzvednes līdz cauruļvadam
Nosauciet to, kā vēlaties — “apzināta spriešana”, “plānotājs‑izpildītājs” — cauruļvads izskatās šādi:
- Sistēma: Jūs esat piesardzīgs plānotājs. Jūs nezvanīsiet rīkiem bez plāna. Jums ir jāizveido JSON shēmā.
- Lietotājs: uzdevums (skaidrs, ierobežots, ar labu un sliktu atbilžu piemēriem).
- Palīgs (plāns): modelis izstrādā soļus, izvēlas rīkus, norāda pieņēmumus.
- Rīku zvani: determinēti, tipizēti argumenti. Noraidīt shēmas kļūdu gadījumā. Reģistrēt visu.
- Palīgs (sintēze): modelis integrē rīku izvades ar plānu un atgriež galīgo.
- Verifikators: viegls pārbaude — dažreiz tikai regexes un pieņemšanas testi — lai uztvertu novirzes.
GLM‑4.6 ieguldījums: mazāk plāna/izpildes neatbilstību un konsekventākas argumentu formas. Nav krāšņi. Noderīgi.
Uzvedne, kas jums nemelo
- Nespēlējiet ģēnija lomu. Lūdziet struktūru: “Norādiet pieņēmumus”, “Parādiet vienību konvertēšanu”, “Citējiet rindas, kuras izmantojāt”.
- Izmantojiet aizsargmargas, kas kož. “Ja neesat pārliecināts, lūdziet precizējumu” ir bezvērtīgs, ja vien jūs nedefinējat nepārliecināts un nepieprasāt jautājumu.
- Dodiet priekšroku piemēru pāriem, nevis garām sprediķiem. Divi labi piemēri pārspēj divas vibes lapas.
- Lieciet modelim teikt “Es nezinu”. Burtiski atļaujiet šo frāzi. Pretējā gadījumā tas to nekad neizmantos.
GLM‑4.6 labāk piekrīt šai programmai nekā iepriekšējās būvēs. Tas ir progress: nevis gudrāki meli, bet mazāk.
Dati, rīki un garlaicīgā funkciju izsaukšanas maģija
Funkciju izsaukšana ir tur, kur spriešana beidz būt teātris. Ar GLM‑4.6:
- Shēmas pielīp: iemāciet funkcijas parakstu vienreiz un atkārtoti izmantojiet to pagriezienos.
- Vairāku rīku secības uzvedas: plāns → meklēšana → izgūšana → apkopošana vairs nepārvēršas par plānu → apkopošana → vēlreiz apkopošana.
- Ātri neizdodas: ja rīks noraida argumentu, parādiet kļūdu atpakaļ modelim un piespiediet koriģējošu pagriezienu. Neizlabojiet klusi; pieprasiet, lai modelis to darītu.
Ja veidojat pētniecības palīgus, klientu atbalsta robotus vai datu aģentus, garlaicīgā maģija ir panākt, lai rīku zvani būtu pareizi katru reizi. GLM‑4.6 labāk padodas garlaicīgi.
Ilgs konteksts: vairāk vietas, kur klīst, mazāk attaisnojumu pazust
Konteksta logi pieauga, jo mēs turpinājām tajos ielīmēt vairāk. GLM‑4.6 apstrādā garākus kontekstus ar mazāk savstarpējas sarunas. Tomēr daži noteikumi:
- Sadalīšana un nosaukšana: izmantojiet īsus, skaidrus virsrakstus. Modeļi labāk “atceras” etiķetes nekā rindkopas.
- Norādes pār ielīmēšanu: neielieciet pielikumu, ja norāde un izgūšanas āķis to izdarīs.
- Apkopojiet ar atbildību: lūdziet modelim citēt sadaļu ID, nevis tikai “dokumenti saka”.
Ieguvums ir mazāk fantomu atmiņu un vairāk piesaistītu kopsavilkumu.
GLM‑4.6 izmantošana kodam: neļaujiet tam to darīt
Tas ir labs katlu plāksnē un pienācīgs pārveidošanā, ja jūs kontrolējat atšķirību. Nenovērtējamam kodģeneratoram:
- Vispirms norādiet saskarnes. Veidi, paraksti, ievades/izvades līgumi.
- Vienību testi pirms ieviešanas. Lieciet modelim rakstīt testus, pēc tam kodu. Palaidiet testus. Ievadiet kļūmes atpakaļ.
- Mazas paketes. Viena funkcija vienlaikus. Apvienojiet, pēc tam virzieties tālāk.
GLM‑4.6 izskatīsies gudrāks, ja jūs uzstāsiet uz šo disciplīnu. Tas neizliekas; jūs samazinate iespēju, ka tas pats nobrauks no sliedēm.
Spriešanas slazdi, ko GLM‑4.6 samazina (bet neizslēdz)
- Enkurēšana uz agrīniem minējumiem: lūdziet tam uzskaitīt alternatīvas pirms lēmuma pieņemšanas. Jūs redzēsiet mazāk pirmās idejas‑labākās idejas atbilžu.
- Pārmērīga apkopošana: pieprasiet izsekojamus citātus vai rindu ID. Pretējā gadījumā tas pārfrāzē savu pārfrāzi.
- Plānošanas‑izpildes novirze: padariet plānu par līgumu. Ja galīgā atbilde novirzās, piespiediet to paskaidrot, kāpēc.
- Rīku halucinācijas: glabājiet reģistru un noraidiet nezināmus rīkus. Modelis izgudros mazāk — bet mērķis ir nulle.
GLM‑4.6 novērtēšana: etaloni, kuriem varat uzticēties (jūsu)
Publiskie līderu saraksti ir noderīgi kā restorānu zvaigznes: labs signāls, bet ne jūsu gaume. Jūsu etaloniem jābūt:
- Ar uzdevumiem saistīts: 100–200 reālu uzvedņu no ražošanas, nevis rūpīgi atlasītas.
- Vērtēts ar pieņemšanas testiem: Regexes, kalkulatori, shēmu validatori. Cilvēki pamana nianses; mašīnas uztver muļķīgas lietas.
- Aprēķināts: mēriet dolārus par pareizu atbildi, nevis tikai precizitāti.
- Latences zinošs: P95 ir svarīgāks par veiksmīgu P50.
GLM‑4.6 mēdz labi vērtēt “izmaksas par pareizu” gadījumā, ja slodze ir smaga ar rīkiem un daudzpakāpju. Ja jūsu darbs ir neapstrādāta proza ar nulles struktūru, jūs varat atrast paritāti ar citiem lieliem vārdiem.
Kā izmantot GLM‑4.6 aģentiem (rokasgrāmata, kas neizliekas)
- Definējiet rīkus kā API, nevis vēlmes: ievades veidi, kļūdu kodi, piemēri.
- Ieviesiet pārskatīšanas vārtus: bīstamām darbībām (e‑pastiem, pasūtījumiem) pieprasiet cilvēka apstiprinājuma soli ar viena ekrāna atšķirību.
- Glabājiet atmiņu ārēji: projektu piezīmes, stāvoklis, dokumenti — glabājiet tos. Modelis lasa un raksta; tas nenes somu.
- Instrumentējiet visu: reģistrējiet žetonus, rīku argumentus, rezultātus. Ja nevarat to pārbaudīt, nevarat to uzlabot.
- Mēģinājumi ar mērķi: atļaujiet vienu koriģējošu gājienu ar stingriem noteikumiem. Ja tas joprojām neizdodas, neveiciet slēgtu.
GLM‑4.6 nodrošina labāku sitienu vidējo rādītāju. Jums joprojām ir nepieciešami noteikumi un rezultātu tablo.
Drošība, privātums un kārdinājums nodot atslēgas
- PII nožogošana: maskējiet to, pirms modelis to redz. Neuzticieties uzvednei, lai saglabātu noslēpumus.
- Rīku smilšu kaste: failu sistēmas un tīkla zvaniem jābūt ierobežotiem ar baltajā sarakstā iekļautiem domēniem un ceļiem.
- Ātrā ievadīšana: izturieties pret visu izgūto tekstu kā neuzticamu. Sanitizējiet un ierobežojiet to, ko rīka zvans var darīt.
- Audita izsekojamība: glabājiet pilnu transkriptu — uzvednes, rīku zvanus, izvades. Nākotnes jūs jums pateiks paldies.
GLM‑4.6 “nelems” pārkāpt noteikumus, bet tas labprāt sekos saindētai instrukcijai, ja ļausiet.
Īss vārds par Sider.AI (jo tas patiesībā palīdz šeit)
Sider.AI patiešām darbojas — vismaz tad, kad to izmantojat tam, kam tas ir labs, kas, dīvainā kārtā, nav gluži tas, ko saka mārketings. Ja vēlaties iedzīvināt GLM‑4.6 spriešanas vai aģenta darbplūsmā, Sider stiprās puses ir neizskatīgās: uzvedņu sastatnes, kas pielīp, strukturēta rīku vadu savienošana un saprātīgi atkārtošanas cikli, kur varat redzēt, kas salūza un kāpēc. Jums nav nepieciešama ceremonija; jums ir nepieciešami braucieni, atšķirības un aizsargmargas. Sider sniedz jums tos ar mazāku teātri. Savienojiet to pārī ar GLM‑4.6 un jūs saņemsiet mazāk noslēpumainu kļūmju un vairāk atkārtojamu uzvaru. Ieviešanas piezīmes: mazas sviras, lielas atšķirības
- Temperatūra: zemāka rīku plānošanai (0,0–0,2), augstāka ideju ģenerēšanai (0,6–0,8). Nejauciet plānošanu un prozu vienā zvanā, ja varat palīdzēt.
- Maksimālais žetonu skaits: agresīvi ierobežojiet starpzvanus; rezervējiet budžetu sintēzei.
- Apstāšanās secības: izmantojiet tos, lai ierobežotu JSON izvades. Jūs vēlaties, lai modelis apklusētu, tiklīdz iekava aizveras.
- Paš‑kritikas posms: īsa, atsevišķa uzvedne — “Norādiet trīs veidus, kā šī atbilde varētu būt nepareiza” — uztver viegli nokarenus augļus.
Tie nav “uzlaušanas”. Tie padara modeli paredzamu.
Kad neizmantot GLM‑4.6 (vai jebkuru lielu modeli)
- Precīza, simboliska matemātika bez verifikācijas: novirziet uz īstu risinātāju.
- PII‑smagas darba slodzes, kuras nevarat maskēt: nedariet to.
- Uzdevumi ar determinētiem analizatoriem: ja to dara regex, izmantojiet regex.
- Nulles tolerances domēni bez pārskatīšanas: domājiet par atbilstības vēstulēm vai medicīniskiem padomiem. Saglabājiet cilvēku cilpā.
Neviens modelis nav universāls āmurs. GLM‑4.6 ir stabila uzgriežņu atslēga aģenta cauruļvadiem, nevis veseris visam.
Īss, brutāli godīgs GLM‑4.6 aģentu iestatījums
- Definēt: tools = {search, fetch_doc, extract_table, run_sql, send_email(draft_only)}
- Plāna uzvedne: “Atgriezt JSON ar soļiem, katrs solis ir vai nu THINK, TOOL(name,args), vai DECIDE. Maksimāli 6 soļi.”
- Aizsargs: noraidiet izvades, kas neatbilst shēmai. Piespiediet atkārtotu mēģinājumu ar kļūdas ziņojumu.
- Pārbaudīt: pirms DECIDE pieprasiet kontrolsarakstu: citēti avoti, norādīti pieņēmumi, atzīmēti riski.
- Cilvēka vārti: tikai send_email kļūst izpildāms ar “J/N” apstiprinājuma karodziņu.
Piecas disciplīnas līnijas ietaupa piecdesmit incidentu ziņojuma līnijas.
GLM‑4.6 pret lauku: kur tas jūtas labāk
- Rīku ķēdes: mazāk nepareizi veidotu argumentu; lielāki panākumi par zvanu.
- Ilgi dokumenti: saskaņotākas savstarpējas atsauces ar skaidriem sadaļu ID.
- Aģenti pie pavadas: labāk paklausa soļu ierobežojumiem un apstiprināšanas soļiem.
- Izmaksas/latence: pietiekami paredzams, lai budžetu bez lūgšanu sveces.
Ja jūsu lietotnes vērtība ir 90% “pareizi izsaukt rīkus”, jūs pamanīsiet atšķirību. Ja tas ir 90% “uzrakstiet skaistu rindkopu”, jūs to varētu nepamanīt.
Dialektiskā daļa: vai “spriešana” vispār ir pareizais vārds?
Iespējams, nē. Bet vārds, ko mēs izmantojam, nemaina uzvedību, kas mums ir nepieciešama. Mēs vēlamies sistēmas, kas var:
- Izsaukt pareizos rīkus ar pareiziem argumentiem.
GLM‑4.6 pārvieto šo adatu par robu pareizajā virzienā. Nav dramatiski. Nav virsraksta cienīgi. Vienkārši tuvāk lietai, kas mums patiesībā rūp: mazāk nepareizu pagriezienu starp jautājumu un atbildi.
Secinājums: garlaicīgā nākotne uzvar
Aizraujoša AI nākotne nav uguņošana — tā ir slodzi nesoša paredzamība. GLM‑4.6 ir solis uz to: vienmērīgāki funkciju zvani, rāmāka ilgtermiņa konteksta uzvedība, nedaudz mazāk izlikšanās. Jūs varat būvēt ar to. Aptiniet to ar skaidriem līgumiem, ārēju atmiņu un verifikatoru, un tas izskatīsies gudrāks, nekā ir patiesībā — jo jūs padarījāt sistēmu gudrāku par komponentu. Tā ir inženierija. Un tā ir daļa, kas mērogojas.
Ja atnācāt pēc brīnuma, jūs būsiet vīlušies. Ja atnācāt, lai samazinātu biļetes, noskūtu atkārtotus mēģinājumus un neļautu aģentiem nosūtīt e‑pastu “Cienījamais VĀRDS”, jūs būsiet laimīgi. Garlaicīgi uzvar. GLM‑4.6 palīdz jums tur nokļūt.
BUJ
Q1:Kas jauns GLM‑4.6 spriešanas darbplūsmām?
GLM‑4.6 pastiprina funkciju izsaukšanu, labāk uzvedas ar garu kontekstu un seko plāna‑pēc tam‑darbības uzvednēm ar mazāku novirzi. Tas neveiks maģiju, bet salauzīs mazāk lietu daudzpakāpju spriešanas cauruļvados.
Q2:Kā es varu izmantot GLM‑4.6 AI aģentiem bez haosa?
Glabājiet īsu pavadu: stingras rīku shēmas, pārskatīšanas vārti, ārējā atmiņa un verifikatora posms. GLM‑4.6 ievēro soļu ierobežojumus un rada tīrākus argumentus, kas samazina aģenta izstrādes laiku.
Q3:Vai GLM‑4.6 ir labāks par citiem modeļiem rīku izmantošanai?
Bieži vien, jā — īpaši, ja jums rūp pareizi, atkārtojami funkciju zvani un vairāku rīku secības. Ja jūsu darba slodze pārsvarā ir proza, jūs varat redzēt paritāti; ja tā ir smaga ar rīkiem, GLM‑4.6 mēdz spīdēt.
Q4:Kāds ir labākais uzvednes stils GLM‑4.6 spriešanai?
Sadaliet uzdevumu, definējiet izvades shēmas un pieprasiet citētus pieņēmumus vai rindu ID. Izlaidiet lomu spēli; GLM‑4.6 labāk padodas skaidri soļi un aizsargmargas nekā glaimi.
Q5:Kur GLM‑4.6 joprojām neizdodas?
Simboliska matemātika bez verifikācijas, privātumam jutīgi uzdevumi bez maskēšanas un nulles tolerances domēni. Tas ir spēcīgāks strukturētā spriešanā un aģentos, nevis determinētu rīku aizstājējs.