Pri predlogah za pozive je tako, da se prodajajo kot kode za goljufanje.
Vsi lovijo čudežno rešitev: niz čarobnih besed, ki spremeni 4.5 v nezmotljivega večstopenjskega agenta. Lahko si predstavljate, kako se to konča. Bolj ko kopičite "okvirje", počasnejši, bolj neumni in bolj krhki postane vaš sistem. To je, kot da bi dodajali več daljinskih upravljalnikov za popravilo televizije. Na koncu celo noč preživite s preklapljanjem vhodov in nihče nič ne gleda.
Tukaj je neprivlačna resnica: zanesljivi večstopenjski agenti izhajajo iz predlog za pozive, ki policijsko nadzorujejo stanje, zmanjšujejo dvoumnost in držijo orodja na zelo kratki vrvici. Ne želite navdiha. Želite zaščitne ograje in ponovljivost. 4.5 je zelo dober, ko mu dovolite, da je dobeseden, in zelo slab, ko mu dovolite, da je pameten.
Torej, da, 25 predlog za pozive za 4.5, vendar ne kot oglasna deska s kul oblikami. To so predloge, ki dejansko zmanjšujejo varianco in povečujejo zanesljivost pri večstopenjskih agentih. Dobro se razumejo s funkcijskimi klici, strukturiranimi izhodi, pridobivanjem in nadležno realnostjo, da nedeterministični modeli še vedno potrebujejo deterministične sisteme.
Zakaj so predloge za pozive za 4.5 pomembne za dejansko delo
Modeli halucinirajo; sistemi ne bi smeli. Če je vaš večstopenjski agent odvisen od 4.5, da se odloči, kaj storiti, in se spomni, kaj se je odločil, sta to dva neodvisna načina odpovedi. Predloge za pozive – pravilno izvedene – spremenijo agenta v strog avtomat s stanjem z mehko-možganskim uradnikom v notranjosti. Uradnik () piše potrdila; avtomat s stanjem preverja matematiko. To je oblika zanesljivosti.
In ker ste zahtevali 25 predlog, jih bomo naredili 25. Vendar jih bomo naredili na edini način, ki se obnese v proizvodnji: jedrnato, izvršljivo, merljivo. Brez puhlic "predstavljajmo si". Ko rečem predloga, bom pokazal, kako se prilega večstopenjskemu agentu in zakaj deluje s prednostmi 4.5: uporabo orodij, močnim sledenjem navodilom, ko odstranite dvoumnost, in vedenjem zavračanja, na katerega se lahko oprete, ne pa se borite.
1) Sistemska pogodba najprej, vse ostalo kasneje
Cilj: Zamrznite zakone vesolja, preden se pogovor začne.
Predloga: Sistemsko sporočilo na najvišji ravni, ki navaja vloge, ne-cilje, zahtevo po izhodu samo v formatu, obravnavo napak in merila za eskalacijo. Ponovite shemo v sistemskem sporočilu, ne samo shemo orodja.
Zakaj deluje: 4.5 je poslušen jasnim omejitvam. Prava sistemska pogodba zoži porazdelitev možnih vedenj.
Izrezek:
- Ste orkestrator. Izhodni mora ustrezati tej shemi. Ne smete izumljati polj. Če manjkajo podatki, odgovorite z {"status":"need_info","fields":[...]} .
2) En sam vir resnice za stanje
Cilj: Ohranjajte spomin zunaj. pripoveduje; ne spomni se.
Predloga: Agent se nikoli ne "spomni" prejšnjih korakov v skritem kontekstu. Ob vsaki potezi rehidrira stanje iz kanonične shrambe beležke in jo vrne v sistemsko sporočilo.
Zakaj deluje: Preprečuje subtilni odklon in "gnitje konteksta".
3) Veriga razmišljanja brez verige (oznake razlage)
Cilj: Pridobite revidirnost brez vabljenja k potepanju.
Predloga: Zaprosite za kratko razlago v omejenem polju, npr. razlaga: en stavek, ni izpostavljen orodjem.
Zakaj deluje: 4.5 daje boljše rezultate, če dovolite minimalno sklepanje, vendar omejite besednost, da preprečite prekomerno prilagajanje puhlicam.
4) Strogo nadzorovanje funkcij
Cilj: Ne dovolite modelu improvizirati orodij.
Predloga: Navedite imena orodij, shemo argumentov in pravilo: če orodje ni navedeno, odgovorite z cannot_execute.
Zakaj deluje: Odstrani cel razred haluciniranih zmožnosti.
5) Deterministični načrtovalec korakov
Cilj: Ločite "kaj storiti" od "izvajanja".
Predloga: Načrtovalna shema z dovoljenimi vrstami korakov: retrieve, transform, call_api, validate, finalize. Model izpiše načrt; izvajalno okolje ga izvede; model potrdi rezultate.
Zakaj deluje: 4.5 je odličen pri naštevanju korakov, ko so glagoli vnaprej določeni in končni.
6) Predloga za pridobivanje na prvem mestu
Cilj: Odpravite halucinirano znanje pri koreninah.
Predloga: Za dejanska vprašanja zahtevajte začetni korak pridobivanja. Če pridobivanje vrne nizko zaupanje, odgovorite z need_info.
Zakaj deluje: Zanesljivi agenti ne blefirajo. "Najboljša ocena" ni vir.
7) Dvostopenjsko odgovarjanje (osnutek, preverjanje)
Cilj: Zmanjšajte tihe napake.
Predloga: 1. korak: Osnutek s citati ali izhodi orodja. 2. korak: Korak preverjanja primerja trditve z viri; neskladja povzročijo revizijo.
Zakaj deluje: Samokritika 4.5 je trdna, če zahtevate binarne preglede glede na vhode.
8) Samo-shematski izhod za stranske učinke
Cilj: Ohranjajte dejanje in komentar ločeno.
Predloga: Ko korak zahteva mutacijo (npr. book_flight), mora model izpisati samo dejanja. Brez prostega besedila.
Zakaj deluje: Preprečuje nenamerno izvedbo na podlagi klepetavega besedila.
9) Idempotentni klici orodij
Cilj: Varne ponovitve.
Predloga: Zahtevajte ključe idempotentnosti pri vsakem klicu orodja. mora ponoviti prejšnji ključ, če se ponavlja.
Zakaj deluje: Ponovitve niso več grozljive.
10) Zaščitne ograje za zavrnitev
Cilj: Oprite se na varnostni model .
Predloga: Naštejte nedovoljene naloge in prosite , da na kratko pojasni, zakaj je zavrnil (v polju refusal_reason).
Zakaj deluje: Omogoča predvidljive in razčlenljive zavrnitve.
11) Navodila z nizko entropijo za matematiko in kodo
Cilj: Prisilite dobesednost.
Predloga: "Ne razlagajte. Vrnite samo rezultat in minimalno izpeljavo. Če niste prepričani, vrnite cannot_compute."
Zakaj deluje: 4.5 spoštuje dobesedne matematične/kodne omejitve, ko odstranite manevrski prostor.
12) Povzemanje z drsnim oknom za dolge kontekste
Cilj: Ustavite nabrekanje žetonov.
Predloga: Predhodno povzemite velike dokumente s stabilno predlogo (razdelki, točke, ključne entitete). V vnesite samo prečiščen pogled.
Zakaj deluje: Bolje kot upanje, da bo model prezrl 120 strani.
13) Semantično razlikovanje pri popolni regeneraciji
Cilj: Izogibajte se kaskadnim prepisovanjem.
Predloga: Za urejanje opravil zahtevajte popravek ali enoten diff glede na prejšnji artefakt.
Zakaj deluje: Manjša površina, manj novih napak.
14) Utemeljeni slogovni vodniki
Cilj: Dosledni izhodi, ki jih lahko ljudje berejo.
Predloga: Zagotovite kratek, konkreten slogovni vodnik (ton, občinstvo, prepovedane besedne zveze) in testni odstavek, ki ga ponazarja.
Zakaj deluje: 4.5 posnema primere bolje kot uboga pridevnike.
15) Taksonomija napak in obnovitev
Cilj: Naredite napake dolgočasne.
Predloga: Določite vrste napak: missing_field, tool_timeout, auth_error, schema_mismatch. Določite recept za obnovitev za vsako vrsto.
Zakaj deluje: Spremeni naključno napako v kontrolni seznam.
16) Navzkrižni pregledi orodij
Cilj: Zaupajte, vendar preverite.
Predloga: Po kritičnem klicu orodja zaženite drugo orodje, ki potrdi izhod (npr. sintaksa e-poštnega naslova, cenovne omejitve).
Zakaj deluje: Večstopenjski agenti odpovejo tiho brez preverjanja pravilnosti.
17) Trditve z označenimi dokazi
Cilj: Sledljivost.
Predloga: Model mora vsako trditev označiti z source_ids, ki se preslikajo v pridobljene izrezke. Brez vira, brez trditve.
Zakaj deluje: Pregled postane mehanski namesto teološki.
18) Vprašaj-Potrdi-Ukrepaj za tvegane operacije
Cilj: Ne uničite uporabnikovega računa.
Predloga: Model izdela človeku berljiv povzetek potrditve in nosilnost dejanja; sistem blokira izvedbo, dokler človek ne odobri.
Zakaj deluje: 4.5 je dober v povzetkih; ljudje so dobri v krivdi.
19) Pesimistične privzete vrednosti
Cilj: Varno odpovejte, ne hitro.
Predloga: Če je zaupanje < prag ali so vhodi nepopolni, vrnite need_info z izrecnimi vprašanji.
Zakaj deluje: Ščiti pred krhkimi potmi do uspeha.
20) Enotski testi v pozivu (malo posnetkov, minimalno)
Cilj: Pokažite, ne povejte.
Predloga: Vključite 2–3 majhne, raznolike primere, ki preslikajo vhode v natančne izhode. Naj bodo kratki. Ne utopite modela.
Zakaj deluje: 4.5 posplošuje iz jasnih primerov z malo posnetki.
21) Stiskanje vlog: En mozak, veliko kap
Cilj: Zmanjšajte odklon med sporočili.
Predloga: V enem samem sistemskem sporočilu določite pod-vloge (načrtovalec, izvajalec, preveritelj) in zahtevajte, da model izpolni določena polja za vsako vlogo v enem odgovoru.
Zakaj deluje: Manj potez, manj izgube stanja.
22) Temperaturna disciplina
Cilj: Predvidljivost nad "ustvarjalnostjo".
Predloga: Zaženite načrtovanje in uporabo orodij pri nizki temperaturi; samo končno površinsko besedilo (če sploh) pri zmerni temperaturi.
Zakaj deluje: Ohranja strukturo stabilno, medtem ko proza diha.
23) Deterministični čas in lokalizacija
Cilj: Odpravite časovno odvisno dvoumnost.
Predloga: Vedno vnesite uro, časovni pas, valuto in lokalizacijo v sistemski kontekst. Zahtevajte, da jih model ponovi v izhodih.
Zakaj deluje: "Jutri" pomeni nekaj. Naj bo to izrecno.
24) Prisilno naštevanje za dvoumne zahteve
Cilj: Ne ugibajte, kaj je uporabnik mislil.
Predloga: Če ima naloga več verjetnih interpretacij, mora model predstaviti možnosti s prednostmi/slabostmi in prositi uporabnika, da izbere.
Zakaj deluje: Dvoumnost je tam, kjer zanesljivost umre; naštejte jo.
25) Končni arbiter: Veto validatorja sheme
Cilj: Preverjanje realnosti pred pošiljanjem.
Predloga: Obravnavajte neuspehe pri potrditvi sheme kot prvorazredne. Če izhod modela ne potrdi, vrnite napako z enim samim navodilom: popravite, da bo potrditev uspela, brez nove vsebine.
Zakaj deluje: 4.5 je v redu pri urejanju po specifikacijah, ko prikažete natančno razliko med pričakovanim in dejanskim.
Izgradnja zanesljivega večstopenjskega agenta s 4.5 (brez vilinskega prahu)
Če združite te predloge za pozive za 4.5, dobite sistem, ki se počuti manj kot "UI" in bolj kot dobro vodena kuhinja. Vstopnice noter, kuharji na žaru, pospeševalnik na prehodu. Čarovnija ni v tem, da je kateri koli korak pameten – ampak v tem, da noben korak ni dvoumen. Klici orodij so vezani na shemo. Načrt je naštet. Dokazi so označeni. Zavrnitve so jasne. Ko gre kaj narobe, agent ne izmišlja zgodbe; prosi za sol.
Praktičen diagram ožičenja:
- Sistemska pogodba določa vloge in sheme.
- Prva poteza: načrtovalec našteje korake z uporabo zaprtega nabora glagolov.
- Izvajalno okolje idempotentno izvaja klice orodij; vsi stranski učinki so nadzorovani s potrditvami.
- Vloga preveritelja preverja izhode glede na vire in sheme.
- V primeru napake ali negotovosti agent izda need_info z izrecnimi, oštevilčenimi vprašanji.
In da, še vedno boste naleteli na nenavadne kotičke – omejitve žetonov, raztrgan izvorni material, nezanesljivi -ji. Za to so namenjene predloge, kot sta povzemanje z drsnim oknom (12) in taksonomije napak (15). Zanesljivost ni v tem, da nikoli ne odpoveš. Gre za to, da odpoveš vsakič na enak način in se obnoviš, kot da si to nameraval.
Predloge za pozive za 4.5 za opravila, obogatena s pridobivanjem
Bodimo specifični, ker je "" tam, kjer dobri sistemi obljubljajo preveč.
- Vnaprej se zavežite pridobivanju (6) pred kakršno koli dejansko trditvijo.
- Označite vsako trditev z dokazi (17). Če trditev zajema več izrezkov, jih vse navedite.
- Uporabite dvostopenjsko odgovarjanje (7), da lahko preveritelj zavrne vsako trditev brez vira.
- Povzemite vire s fiksno predlogo (12), da model ne bo več bral celotnih -jev.
4.5 je močan pri sintetiziranju različnih izrezkov – ko ga prisilite, da citira. V trenutku, ko sprostite citiranje, bo "zgladil" nasprotujoča si dejstva v nekaj verjetnega. Verjetno ni zanesljivo.
Predloge za pozive za uporabo orodij in funkcijske klice
Orodja so tam, kjer modeli prelomijo četrto steno. Naj bo dolgočasno.
- Nadzorujte orodja (4). Ne skušajte ga s prepovedanimi glagoli.
- Ključi idempotentnosti (9) na katerem koli transakcijskem orodju.
- Ločite dejanja (8) od pripovedi. Pošljite ; pokažite pripoved človeku.
- Navzkrižni pregledi orodij (16) po vsem, kar je povezano z denarjem, zasebnostjo ali načrtovanjem.
4.5 obravnava funkcijske klice čisto, ko je shema tesna. Če so vaši argumenti ohlapen niz "stvari", se pripravite na "stvari".
"Ampak ali mu ne moremo samo reči, naj razmišlja korak za korakom?"
Lahko. Bo. In potem bo taval. Trik ni v razmišljanju korak za korakom – ampak v dovoljenju korak za korakom. Koraki so smiselni samo, če jih izvajalno okolje uveljavlja. Zato deterministični načrtovalci (5) in stiskanje vlog (21) vsakič premagajo ohlapno verigo razmišljanja. Manj razmišljajte o "naj razmišlja kot oseba", bolj "naj se obnaša kot prevajalnik".
del, po katerega ste prišli, brez puhlic
Če potrebujete ključne besede na glas: predloge za pozive za 4.5, večstopenjski agenti, zanesljivi poteki dela agentov, pozivi za uporabo orodij, s , pozivi za funkcijske klice. Bistvo je enako: želite preizkusljive predloge. Predloge, okoli katerih lahko zavijete enotske teste. Predloge, zaradi katerih vaša operativna ekipa zeha.
Kje Sider.AI dejansko pomaga in kje ne
Stranska opomba, ki pravzaprav ni stranska opomba: Sider.AI dejansko deluje – vsaj ko jo uporabljate za to, za kar je dobra, kar, nenavadno, ni povsem to, kar pravi trženje. Najboljša uporaba je dolgočasno inženirstvo: skupne knjižnice pozivov z uveljavljenimi shemami; nadzorovano ožičenje orodij; hitro ponavljanje s potrditvijo v zanki. Če poskušate poslati agenta, ki zanesljivo rezervira stvari, usklajuje podatke ali pripravlja osnutke z viri – in želite, da ekipa ponovno uporabi iste predloge, ne da bi se igrala s telefonom – je model delovnega prostora poteza za odrasle. Če iščete fantazijo "enkrat napiši, za vedno avtopilot", boste razočarani. Ampak to ni krivda ; to je gravitacija. Pogoste pasti, ki pokvarijo sicer dobre predloge za pozive za 4.5
- Preobremenjeni konteksti. Če potrebujete 60k žetonov, da poveste modelu, kaj naj stori, ne veste, kaj želite.
- Mešanje pripovedi in dejanja. Ljudje berejo prozo; sistemi berejo . Ne silite jih k ugibanju.
- Pretvarjanje, da so zavrnitve hrošči. 4.5 zavrača z razlogom. Usmerjajte ga.
- Dvoumen čas in lokalizacija. "Do petka" je hrošč pri izračunu koledarja, ki čaka, da se zgodi.
- Nepreizkušene poti za obnovitev. Vaša "srečna pot" ni zanesljiva; vaša "žalostna pot" je.
Praktična mini-predloga za krajo
Sistem:
- Ste orkestrator za večstopenjskega agenta. Dovoljene vrste korakov: ["retrieve","transform","call_api","validate","finalize"].
- Vsi izhodi morajo biti veljavni , ki ustreza spodnji shemi.
- Če niste prepričani, vrnite {"status":"need_info","questions":[...]} .
- Razpoložljiva orodja: [seznam]. Ne smete izumljati orodij.
- Lokalizacija: en-. Časovni pas: America/New_York. Valuta: .
Shema:
{
"status": "plan|act|validate|final|need_info|cannot_execute|cannot_compute",
"rationale": "string <= 180 chars",
"steps": [ {"step_type":"retrieve|transform|call_api|validate|finalize","args":{}} ],
"action": {"tool":"string","idempotency_key":"string","args":{}},
"evidence": [ {"source_id":"string","snippet":"string"} ],
"claims": [ {"text":"string","source_ids":["..."]} ],
"errors": [ {"type":"missing_field|tool_timeout|auth_error|schema_mismatch","detail":"string"} ],
"questions": ["..."]
}
Uporabnikova poteza → načrtovalec (nizka temperatura) → izvajalno okolje izvaja orodja (idempotentno) → preveritelj primerja trditve z dokazi → končno.
Tihi zaključek, ki ga nihče ne trži: zanesljivost je odštevanje
Zanesljivi večstopenjski agenti se ne rodijo iz pametnih pozivov; ustvarjeni so z odstranjevanjem načinov za odpoved. Vsaka zgornja predloga je odštevanje: manj glagolov, manj interpretacij, manj mest za skrivanje. 4.5 je odličen znotraj ozke hodnika s svetlimi lučmi in oštevilčenimi vrati. Postavite ga na polje ponoči in ga prosite, naj najde vaše ključe, in dobili boste poezijo.
Če želite poezijo, super. Če želite zanesljive agente, izberite svoj hodnik, obesite luči, označite vrata. Potem se sprijaznite z dolgočasnimi deli. Tam se delo opravi.
V1:Kaj so predloge za pozive za 4.5 in zakaj so pomembne za večstopenjske agente?
To so ponovljive predloge za navodila, ki omejujejo 4.5, da se obnaša predvidljivo v vseh korakih. Pri večstopenjskih agentih predloge za pozive zmanjšujejo dvoumnost, uveljavljajo sheme in spreminjajo nezanesljive naloge v preizkusljive poteke dela.
V2:Kako ustavim 4.5, da ne halucinira orodij ali dejstev?
Nadzorujte orodja z izrecnimi shemami in prisilite pridobivanje pred kakršno koli dejansko trditvijo. To združite s trditvami, označenimi z dokazi, in dvostopenjskim korakom preverjanja – brez vira, brez izjave.
V3:Kateri je najboljši način za strukturiranje funkcijskih klicev s 4.5?
Uporabite stroge sheme funkcij, ključe idempotentnosti in samo izhode dejanja. Ločite načrtovanje od izvedbe in zaženite potrditev po vsakem klicu, ki spreminja stanje.
V4: Ali pozivi naredijo Claude 4.5 bolj zanesljivega za agente?
Samo, če so omejeni. Kratka polja z razlogi pomagajo; neomejeni monologi ne. Zanesljivost izhaja iz determinističnega načrtovanja korakov in validacije shem, ne pa iz obsežnega notranjega dialoga.
V5: Kje se Sider.AI prilega pri izgradnji zanesljivih agentov z več koraki?
Sider.AI je uporaben za kodificiranje in ponovno uporabo teh vzorcev pozivov Claude 4.5 – sheme v skupni rabi, povezovanje orodij in validacija v zanki. Ne bo čarobno odpravil dvoumnosti, vam bo pa pomagal ohranjati dobro osvetljeno preddverje.