Su „naujos kartos“ AI modeliais visada atkeliauja du lagaminai: vienas pilnas etaloninių testų rezultatų, o kitas – pažadų.
GLM‑4.6 nėra išimtis. Jis pasirodo su naujomis diagramomis, daugiau skaičių po kablelio ir nauju šūkiu apie „argumentavimą“. Šis žodis labai svarbus AI rinkodaroje. Tai tarsi „ekologiškas“ mašininio intelekto atitikmuo – miglotai dorybingas, kartais reikšmingas, dažnai tiesiog lipdukas.
Atsisakykime to lipduko. Jei jūsų klausimas yra „Kas yra GLM‑4.6, kas naujo ir kaip aš iš tikrųjų galiu jį naudoti argumentavimui ir agentams?“, sąžiningas atsakymas yra: tai nuoseklus, bet realus žingsnis, kuris yra svarbus, jei jums rūpi praktiniai darbo srautai, struktūruotas įrankių naudojimas ir agentų sistemos, kurios nesugriūna, kai tik įmetate joms nepažįstamą skaičiuoklę. Jei norite triuko vakarėliui, daugybė modelių tai gali padaryti. Jei norite modelio, kuris laikosi užduoties, GLM‑4.6, priklausomai nuo užduoties, iš tikrųjų yra įdomus.
Tai yra išsamus paaiškinimas su praktiniu požiūriu: kaip GLM‑4.6 keičia kasdienį argumentavimo procesų ir agentų orkestravimo darbą ir kaip neapgauti savęs šiame procese.
Kas iš tikrųjų yra GLM‑4.6 (ir kas nėra)
„GLM“ yra didelių kalbos modelių šeima. 4.x linija orientuota į daugiapakopį argumentavimą, įrankių naudojimą ir platesnius konteksto langus. GLM‑4.6 yra naujas taško leidimas, kuris patobulina dalis, kurias pastebite tik kurdami su juo: stabilesnis grandinės-minties karkasas (viduje), geresnis funkcijų iškvietimo laikymasis, mažiau prieštaravimų sau ilguose raginimuose ir šiek tiek protingesnis struktūruotų įvesčių tvarkymas. Tai toks darbas, kuris neatrodo gerai įspūdingoje demonstracijoje, bet pasirodo, kai nustojate demonstruoti ir pradedate tiekti.
Kas tai nėra: tai nėra AGI, tai nėra magija ir tai nepakeis kiekvieno kito modelio taip, kaip pranešimai spaudai teigia kas antrą trečiadienį. Jei tikitės vieno šūvio įrodymų ar teoremų lygio griežtumo, ne. Jei tikitės mažiau neišprovokuotų klaidų žongliruojant keliais įrankių iškvietimais ir dideliu kontekstu, arčiau taip.
Kas naujo GLM‑4.6 (Svarbios detalės)
- Ilgesnis, geresnis kontekstas: ne tik daugiau žetonų – geresnis išlaikymas visuose skyriuose. Mažiau tikėtina, kad jis „pamirš“ apribojimą, kurį įdėjote į trečią pastraipą, kai iškviečiate įrankį dvyliktoje pastraipoje.
- Griežtesnis funkcijų iškvietimas: argumentai formuojami nuosekliau. Mažiau „yak‑shaving“ prievartaujant JSON į formą, mažiau haliucinuotų raktų. Jei kuriate agentus, žinote, kad čia daugelis modelių užkliūva už savo batų raištelių.
- Struktūruotas argumentavimo šališkumas: galite paraginti GLM‑4.6 į plano-tada-veikimo ciklą su lengvu karkasu. Jis neapsimes mąstantis kaip filosofas, bet seks žingsnius kaip padorus projektų vadovas.
- Daugiapakopiai prisilietimai (jei jums jų reikia): vaizdą suvokiantys variantai elgiasi labiau nuspėjamai skaitant formas ir analizuojant vartotojo sąsają. Ne meno žaislai – nuobodūs, naudingi dalykai.
- Latentiškumo / kainos patobulinimai: mažiau šuolių, labiau nuspėjamas pralaidumas. Ne, ne nemokamai; taip, pakankamai, kad būtų svarbu gamybos prietaisų skydeliuose.
Etaloniniai testai? Rasite įprastus įtariamuosius – MMLU tai, GSM8K aną – pastumtus aukštyn. Antraštė nėra skaičius; tai nuoseklumas esant apkrovai ir „kas ką tik įvyko?“ momentų sumažėjimas įrankių grandinėse.
Argumentavimas su GLM‑4.6: nustokite norėti, pradėkite apibrėžti ribas
„Argumentavimas“ LLM yra statistinis šablonų užbaigimas su šališkumu pakopinio teksto link. Tai gerai. Apsimetimas, kad tai kažkas kita, veda prie blogų raginimų ir blogesnių sistemų. GLM‑4.6 tampa geresnis, kai jam duodate:
- Apribojimai, o ne sumanumas: išdėstykite tikslinį formatą, priėmimo testus ir gedimų sąlygas. Modelis atliks matematiką, jei matematikos forma bus aiški.
- Skaidymas, o ne monologai: suskaidykite problemas į etapus – analizė → planas → vykdymas → patikrinimas. Galite įdėti tai į sistemos raginimą arba padaryti tai aiškiai naudodami įrankių iškvietimus.
- Išorinė atmintis: neleiskite modeliui būti jūsų duomenų baze. Leiskite jam rašyti į išorinį bloknotą arba vektorių saugyklą ir skaityti iš jos. GLM‑4.6 yra mažiau užmaršus, bet vis dar yra auksinė žuvelė su šviesumo momentais.
- Patikrinimo kabliukai: antrasis etapas su tikrintuvu – kartais tuo pačiu modeliu, kartais mažesniu – pagauna kvailas klaidas. Tai nėra perteklinis dalykas, jei jis išsaugo vieną neteisingą atsakymą gamyboje.
Štai minimalus, nuobodžiai efektyvus ciklas lentelių argumentavimui:
- 1 žingsnis: paprašykite GLM‑4.6 išgauti schemą ir apribojimus iš klausimo.
- 2 žingsnis: leiskite jam pasiūlyti planą ir „reikalingus įrankius“.
- 3 žingsnis: vykdykite įrankių iškvietimus (SQL, Python, bet ką) su argumentais, JSON užkoduotais modelio.
- 4 žingsnis: grąžinkite įrankio rezultatus ir reikalaukite galutinio atsakymo su pagrindimu, susietu su atgautais eilutėmis.
Triukas nėra įmantrūs raginimai. Tai atsisakymas leisti modeliui improvizuoti ten, kur jis neturėtų.
Agentai su GLM‑4.6: kačių ganymas, dabar su pavadžiais
Agentai yra vieta, kur ažiotažas virsta produkto valdymu. Dauguma „autonominių“ agentų yra Roomba, paleista LEGO parduotuvėje – užsiėmusi, bet ne naudinga. GLM‑4.6 to nepakeičia savaime. Ką jis daro:
- Patikimesnės įrankių sutartys: kai sakote iškviesti get_flights(origin, destination, date), jis nustoja išgalvoti cabin_class, nebent paprašote. Tai yra skirtumas tarp demonstracijos ir pinigų grąžinimo.
- Geresnė žingsnių apskaita: jei paprašote apriboti N įrankių iškvietimais arba reikalauti patvirtinimo kontrolinio punkto, jis klauso dažniau. Klausymas yra nepakankamai įvertintas.
- Pakenčiamos ilgo horizonto užduotys: su aiškiais etapais ir atminties saugykla jis gali atlikti kelių dienų užduotį nenukrypdamas į gerbėjų fantastiką.
Laimėjimo modelis su GLM‑4.6 agentais nėra „paleiskite jį laisvai“. Tai „griežtas ciklas, trumpas pavadys, aiškūs atlygiai“.
Praktinis karkasas: nuo raginimo iki dujotiekio
Vadinkite tai kaip norite – „apgalvotas argumentavimas“, „planuotojas-vykdytojas“ – dujotiekis atrodo taip:
- Sistema: esate atsargus planuotojas. Neiškviesite įrankių be plano. Turite pateikti JSON schemoje.
- Vartotojas: užduotis (aiški, apibrėžta, su gerais ir blogais atsakymais).
- Padėjėjas (Planas): modelis rengia žingsnius, pasirenka įrankius, nurodo prielaidas.
- Įrankių iškvietimai: deterministiniai, tipizuoti argumentai. Atmesti dėl schemos klaidų. Registruoti viską.
- Padėjėjas (Sintezė): modelis integruoja įrankių išvestis su planu ir grąžina galutinį rezultatą.
- Tikrintuvas: lengvas patikrinimas – kartais tik reguliarieji reiškiniai ir priėmimo testai – kad būtų sugautas nuokrypis.
GLM‑4.6 indėlis: mažiau plano / vykdymo neatitikimų ir nuoseklesnės argumentų formos. Neblėstantis. Naudingas.
Raginimas, kuris jums nemeluoja
- Neapsimetinėkite genijumi. Paprašykite struktūros: „Išvardykite prielaidas“, „Parodykite vienetų konvertavimus“, „Cituokite eilutes, kurias naudojote“.
- Naudokite apsaugas, kurios kanda. „Jei nesate tikri, paprašykite paaiškinimo“ yra bevertis, nebent apibrėžiate, kas yra netikras, ir reikalaujate klausimo.
- Pirmenybę teikite pavyzdžių poroms, o ne ilgiems pamokslams. Du geri pavyzdžiai pralenkia du puslapius nuotaikų.
- Priverskite modelį pasakyti „Aš nežinau“. Pažodžiui leiskite šią frazę. Priešingu atveju jis niekada jos nenaudos.
GLM‑4.6 lengviau prisitaiko prie šios programos nei ankstesni kūriniai. Tai yra pažanga: ne protingesni melai, o mažiau.
Duomenys, įrankiai ir nuobodi funkcijų iškvietimo magija
Funkcijų iškvietimas yra vieta, kur argumentavimas nustoja būti teatru. Su GLM‑4.6:
- Schemos laikosi: vieną kartą išmokykite funkcijos parašo ir naudokite jį pakartotinai per kelis posūkius.
- Kelių įrankių sekos elgiasi: planas → paieška → gavimas → apibendrinimas nebeverčia į planą → apibendrinimas → vėl apibendrinimas.
- Greitai nepavyksta: jei įrankis atmeta argumentą, pateikite klaidą atgal modeliui ir priverskite pataisyti. Tyliai netaisykite; reikalaukite, kad modelis tai padarytų.
Jei kuriate tyrimo padėjėjus, klientų aptarnavimo robotus ar duomenų agentus, nuobodi magija yra teisingai atlikti įrankių iškvietimus kiekvieną kartą. GLM‑4.6 geriau atlieka nuobodžius dalykus.
Ilgas kontekstas: daugiau vietos klajoti, mažiau pasiteisinimų pasiklysti
Konteksto langai padidėjo, nes mes vis į juos klijavome daugiau. GLM‑4.6 tvarko ilgesnius kontekstus su mažesniu persidengimu. Vis dėlto kelios taisyklės:
- Suskaldykite ir pavadinkite: naudokite trumpas, aiškias antraštes. Modeliai geriau „prisimena“ etiketes nei pastraipas.
- Nuorodos, o ne įklijavimas: nekimškite priedo, jei nuoroda ir gavimo kabliukas padės.
- Apibendrinkite su atsakomybe: paprašykite modelio cituoti skyrių ID, o ne tik „dokumentuose sakoma“.
Atsipirkimas yra mažiau fantominių prisiminimų ir daugiau susietų santraukų.
GLM‑4.6 naudojimas kodui: neleiskite jam sparnuoti
Jis gerai atlieka standartines dalis ir padoriai atlieka refaktoringus, jei kontroliuojate skirtumą. Netrivialiam kodų generavimui:
- Pirmiausia nurodykite sąsajas. Tipai, parašai, įvesties / išvesties sutartys.
- Vienetų testai prieš įgyvendinimą. Leiskite modeliui parašyti testus, tada kodą. Paleiskite testus. Grąžinkite gedimus.
- Mažos partijos. Viena funkcija vienu metu. Sujunkite, tada judėkite toliau.
GLM‑4.6 atrodys protingesnis, jei primygtinai reikalausite šios disciplinos. Jis neapsimetinėja; jūs mažinate tikimybę, kad jis pats nuklys.
Argumentavimo spąstai, kuriuos GLM‑4.6 sumažina (bet nepanaikina)
- Įsitvirtinimas prie ankstyvų spėjimų: paprašykite jo išvardyti alternatyvas prieš nusprendžiant. Pamatysite mažiau pirmos idėjos-geriausios idėjos atsakymų.
- Per didelis apibendrinimas: reikalaukite atsekamų citatų arba eilučių ID. Priešingu atveju jis perfrazuoja savo paties perfrazavimą.
- Plano-vykdymo nuokrypis: paverskite planą sutartimi. Jei galutinis atsakymas nukrypsta, priverskite jį paaiškinti, kodėl.
- Įrankių haliucinacijos: laikykite registrą ir atmeskite nežinomus įrankius. Modelis išgalvos mažiau, bet tikslas yra nulis.
GLM‑4.6 įvertinimas: etaloniniai testai, kuriais galite pasitikėti (savais)
Viešosios lyderių lentelės yra naudingos kaip restoranų žvaigždės: geras signalas, ne jūsų skonis. Jūsų etaloniniai testai turėtų būti:
- Su užduotimi susietas: 100–200 realių raginimų iš gamybos, o ne atrinktų.
- Įvertinta su priėmimo testais: reguliarieji reiškiniai, skaičiuotuvai, schemos validatoriai. Žmonės pastebi niuansus; mašinos pagauna kvailus dalykus.
- Apskaičiuota: išmatuokite dolerius už teisingą atsakymą, o ne tikslumą.
- Informuotas apie latentiškumą: P95 yra svarbesnis nei sėkmingas P50.
GLM‑4.6 linkęs gerai įvertinti „kainą už teisingą“, kai darbo krūvis yra sunkus įrankiais ir daugiažingsnis. Jei jūsų darbas yra gryna proza be jokios struktūros, galite rasti paritetą su kitais dideliais vardais.
Kaip naudoti GLM‑4.6 agentams (vadovėlis, kuris neapsimeta)
- Apibrėžkite įrankius kaip API, o ne norus: įvesties tipai, klaidų kodai, pavyzdžiai.
- Vykdykite peržiūros vartus: rizikingiems veiksmams (el. laiškams, užsakymams) reikalaukite žmogaus patvirtinimo žingsnio su vieno ekrano skirtumu.
- Laikykite atmintį išorine: projekto pastabos, būsena, dokumentai – saugokite juos. Modelis skaito ir rašo; jis neneša maišo.
- Instrumentuokite viską: registruokite žetonus, įrankių argumentus, rezultatus. Jei negalite to patikrinti, negalite to patobulinti.
- Pakartotiniai bandymai su tikslu: leiskite vieną taisymo žingsnį su griežtomis taisyklėmis. Jei vis dar nepavyksta, uždarykite.
GLM‑4.6 suteikia jums geresnį atmušimo vidurkį. Jums vis dar reikia taisyklių ir rezultatų lentelės.
Saugumas, privatumas ir pagunda perduoti raktus
- PII aptvėrimas: užmaskuokite jį, kol modelis jį pamatys. Nepasikliaukite raginimu išsaugoti paslaptis.
- Įrankių smėlio dėžė: failų sistemos ir tinklo iškvietimai turėtų būti apriboti tik įtrauktais į baltąjį sąrašą domenais ir keliais.
- Raginimo įterpimas: traktuokite visą atgautą tekstą kaip nepatikimą. Sanitarizuokite ir apribokite, ką įrankio iškvietimas gali padaryti.
- Audito pėdsakai: laikykite visą nuorašą – raginimus, įrankių iškvietimus, išvestis. Ateities jūs jums padėkos.
GLM‑4.6 „nepasirinks“ pažeisti taisyklių, bet mielai seks apnuodytu nurodymu, jei leisite.
Trumpas žodis apie Sider.AI (nes tai iš tikrųjų padeda čia)
Sider.AISiderSider iš tikrųjų veikia – bent jau kai naudojate jį tam, kam jis yra geras, o keista, bet tai nėra visai tai, ką sako rinkodara. Jei siekiate įtraukti GLM‑4.6 į argumentavimo ar agento darbo eigą, Sider.AISiderSider stipriosios pusės yra neblėstantys dalykai: raginimo karkasas, kuris laikosi, struktūruotas įrankių prijungimas ir protingi iteracijos ciklai, kuriuose galite pamatyti, kas sugedo ir kodėl. Jums nereikia ceremonijos; jums reikia paleidimų, skirtumų ir apsaugų. Sider.AISiderSider jums tai suteikia su mažesniu teatru. Suporuokite jį su GLM‑4.6 ir gausite mažiau paslaptingų gedimų ir daugiau pakartojamų pergalių. Įgyvendinimo pastabos: mažos svirtys, dideli skirtumai
- Temperatūra: žemesnė įrankių planavimui (0,0–0,2), aukštesnė idėjų generavimui (0,6–0,8). Nemaišykite planavimo ir prozos viename iškvietime, jei galite to išvengti.
- Maks. žetonų: agresyviai apribokite tarpinius iškvietimus; rezervuokite biudžetą sintezei.
- Sustabdymo sekos: naudokite jas JSON išvestims apriboti. Norite, kad modelis užsičiauptų, kai tik užsidaro skliaustas.
- Savikritikos etapas: trumpas, atskiras raginimas – „Išvardykite tris būdus, kaip šis atsakymas gali būti klaidingas“ – pagauna lengvai pasiekiamus vaisius.
Tai nėra „įsilaužimai“. Jie daro modelį nuspėjamą.
Kada nenaudoti GLM‑4.6 (ar bet kurio didelio modelio)
- Tikslus, simbolinis matematinis skaičiavimas be patikrinimo: perkelkite į tikrą sprendėją.
- Didelis PII darbo krūvis, kurio negalite užmaskuoti: nedarykite.
- Užduotys su deterministiniais analizatoriais: jei reguliarusis reiškinys tai daro, naudokite reguliarųjį reiškinį.
- Nulinės tolerancijos sritys be peržiūros: pagalvokite apie atitikties laiškus ar medicinos patarimus. Laikykite žmogų ciklo dalimi.
Nė vienas modelis nėra universalus plaktukas. GLM‑4.6 yra tvirtas veržliaraktis agentų dujotiekiams, o ne kūjis viskam.
Trumpas, žiauriai sąžiningas GLM‑4.6 agentų nustatymas
- Apibrėžkite: tools = {search, fetch_doc, extract_table, run_sql, send_email(draft_only)}
- Plano raginimas: „Grąžinkite JSON su žingsniais, kiekvienas žingsnis yra THINK, TOOL(name,args) arba DECIDE. Maks. 6 žingsniai.“
- Apsauga: atmeskite išvestis, kurios neatitinka schemos. Priverskite bandyti dar kartą su klaidos pranešimu.
- Patikrinkite: prieš DECIDE, reikalaukite kontrolinio sąrašo: cituojami šaltiniai, nurodytos prielaidos, pažymėtos rizikos.
- Žmogaus vartai: tik send_email tampa vykdomas su „Y/N“ patvirtinimo vėliava.
Penkios disciplinos eilutės išsaugo jums penkiasdešimt incidento ataskaitos eilučių.
GLM‑4.6 prieš lauką: kur jaučiasi geriau
- Įrankių grandinės: mažiau neteisingų argumentų; didesnė sėkmė vienam iškvietimui.
- Ilgas dokumentas: nuoseklesnės kryžminės nuorodos su aiškiais skyrių ID.
- Agentai ant pavadžio: geriau klauso žingsnių ribų ir patvirtinimo žingsnių.
- Kaina / latentiškumas: pakankamai nuspėjamas, kad būtų galima sudaryti biudžetą be maldos žvakės.
Jei jūsų programos vertė yra 90 % „teisingai iškviesti įrankius“, pastebėsite skirtumą. Jei tai 90 % „parašyti gražią pastraipą“, galbūt ne.
Dialektinis bitas: ar „argumentavimas“ išvis yra tinkamas žodis?
Turbūt ne. Bet žodis, kurį naudojame, nekeičia elgesio, kurio mums reikia. Norime sistemų, kurios galėtų:
- Iškvieskite tinkamus įrankius su tinkamais argumentais.
- Pripažinkite neapibrėžtumą.
GLM‑4.6 pajudina tą adatą viena rieve teisinga kryptimi. Nebaigiamasis. Ne vertas antraštės. Tiesiog arčiau to, kas mums iš tikrųjų rūpi: mažiau neteisingų posūkių tarp klausimo ir atsakymo.
Išvada: nuobodi ateitis laimi
Įdomi AI ateitis nėra fejerverkai – tai apkrovą nešantis nuspėjamumas. GLM‑4.6 yra žingsnis link to: nuoseklesni funkcijų iškvietimai, ramesnis ilgo konteksto elgesys, šiek tiek mažiau apsimetinėjimo. Galite kurti su tuo. Apvyniokite jį aiškiomis sutartimis, išorine atmintimi ir tikrintuvu, ir jis atrodys protingesnis, nei yra – nes jūs padarėte sistemą protingesnę už komponentą. Tai yra inžinerija. Ir tai yra dalis, kuri masteliasi.
Jei atėjote dėl stebuklo, nusivilsite. Jei atėjote sumažinti bilietus, sumažinti pakartotinius bandymus ir apsaugoti agentus nuo el. laiškų „Gerb. VARDAS_PAVARDĖ“, būsite laimingi. Nuobodumas laimi. GLM‑4.6 padeda jums ten patekti.
DUK
Q1: Kas naujo GLM‑4.6 argumentavimo darbo eigose?
GLM‑4.6 sugriežtina funkcijų iškvietimą, geriau elgiasi su ilgu kontekstu ir seka plano-tada-veikimo raginimus su mažesniu nuokrypiu. Jis nedarys magijos, bet sugadins mažiau dalykų daugiažingsniuose argumentavimo dujotiekiuose.
Q2: Kaip naudoti GLM‑4.6 AI agentams be chaoso?
Laikykite trumpą pavadį: griežtos įrankių schemos, peržiūros vartai, išorinė atmintis ir tikrintuvo etapas. GLM‑4.6 gerbia žingsnių ribas ir pateikia švaresnius argumentus, o tai sumažina agento triuškinimą.
Q3: Ar GLM‑4.6 geresnis už kitus modelius naudojant įrankius?
Dažnai, taip – ypač kai jums rūpi teisingi, pakartojami funkcijų iškvietimai ir kelių įrankių sekos. Jei jūsų darbo krūvis daugiausia proza, galite pamatyti paritetą; jei tai yra sunkus įrankiais, GLM‑4.6 linkęs spindėti.
Q4: Koks yra geriausias raginimo stilius GLM‑4.6 argumentavimui?
Skaidykite užduotį, apibrėžkite išvesties schemas ir reikalaukite cituojamų prielaidų arba eilučių ID. Praleiskite vaidmenų žaidimą; GLM‑4.6 geriau atlieka su aiškiais žingsniais ir apsaugomis nei su meilikavimu.
Q5: Kur GLM‑4.6 vis dar nepavyksta?
Simbolinė matematika be patikrinimo, privatumui jautrios užduotys be maskavimo ir nulinės tolerancijos sritys. Jis yra stipresnis struktūruotame argumentavime ir agentuose, o ne pakaitalas deterministiniams įrankiams.