“నెక్స్ట్-జెన్” AI మోడల్స్ గురించి చెప్పాలంటే, అవి ఎప్పుడూ రెండు సూట్కేసులతో వస్తాయి: ఒకటి బెంచ్మార్క్లతో నిండి ఉంటుంది, మరొకటి వాగ్దానాలతో నిండి ఉంటుంది.
GLM-4.6 కూడా దీనికి మినహాయింపు కాదు. ఇది కొత్త చార్ట్లు, దశాంశం తర్వాత మరిన్ని అంకెలు మరియు “రీజనింగ్” గురించి ఒక కొత్త నినాదంతో వస్తుంది. AI మార్కెటింగ్లో ఈ పదం చాలా బరువును మోస్తుంది. ఇది మెషిన్ ఇంటెలిజెన్స్ యొక్క “ఆర్గానిక్”—అస్పష్టంగా మంచిది, కొన్నిసార్లు అర్థవంతమైనది, తరచుగా కేవలం ఒక స్టిక్కర్ మాత్రమే.
ఆ స్టిక్కర్ను తీసివేద్దాం. మీ ప్రశ్న “GLM-4.6 అంటే ఏమిటి, కొత్తగా ఏమి ఉంది మరియు రీజనింగ్ మరియు ఏజెంట్ల కోసం నేను దీన్ని ఎలా ఉపయోగించగలను?” అయితే, నిజాయితీ సమాధానం ఏమిటంటే: ఇది ఒక చిన్న కానీ నిజమైన ముందడుగు, ఇది ఆచరణాత్మక వర్క్ఫ్లోలు, నిర్మాణాత్మక టూల్ వినియోగం మరియు మీకు తెలియని స్ప్రెడ్షీట్ను విసిరిన వెంటనే కుప్పకూలిపోని ఏజెంట్ ఫ్రేమ్వర్క్ల గురించి మీరు పట్టించుకుంటే ఇది చాలా ముఖ్యం. మీకు ఏదైనా ట్రిక్ కావాలంటే, చాలా మోడల్స్ చేస్తాయి. మీరు పనిలో ఉండే మోడల్ను కోరుకుంటే, GLM-4.6—పనిని బట్టి—వాస్తవానికి ఆసక్తికరంగా ఉంటుంది.
ఇది GLM-4.6 రీజనింగ్ పైప్లైన్లు మరియు ఏజెంట్ ఆర్కెస్ట్రేషన్ కోసం రోజువారీ పనిని ఎలా మారుస్తుంది మరియు ఈ ప్రక్రియలో మిమ్మల్ని మీరు ఎలా మోసం చేసుకోకూడదు అనే దానిపై ఒక లోతైన డైవ్/వివరణ.
GLM-4.6 అంటే ఏమిటి (మరియు ఏమి కాదు)
“GLM” అనేది పెద్ద భాషా నమూనాల కుటుంబం. 4.x లైన్ మల్టీ-టర్న్ రీజనింగ్, టూల్ వినియోగం మరియు విస్తృత సందర్భ విండోస్లోకి వస్తుంది. GLM-4.6 అనేది కొత్త పాయింట్ విడుదల, ఇది మీరు దానితో నిర్మించేటప్పుడు మాత్రమే మీరు గమనించే భాగాలను సర్దుబాటు చేస్తుంది: స్థిరమైన చైన్-ఆఫ్-థాట్ స్కఫోల్డింగ్ (అంతర్గతంగా), మెరుగైన ఫంక్షన్-కాలింగ్ అడరెన్స్, పొడవైన ప్రాంప్ట్లలో తక్కువ స్వీయ-వైరుధ్యం మరియు నిర్మాణాత్మక ఇన్పుట్లను కొద్దిగా తెలివిగా నిర్వహించడం. ఇది ఆకర్షణీయమైన డెమోలో బాగా కనిపించని పని, కానీ మీరు డెమో చేయడం ఆపి షిప్పింగ్ చేయడం ప్రారంభించినప్పుడు కనిపిస్తుంది.
ఇది ఏమి కాదు: ఇది AGI కాదు, ఇది మాయాజాలం కాదు మరియు ప్రతి ఇతర బుధవారం పత్రికా ప్రకటనలు సూచించే విధంగా ఇది ప్రతి ఇతర మోడల్ను భర్తీ చేయదు. మీరు వన్-షాట్ ప్రూఫ్లు లేదా సిద్ధాంత-స్థాయి ఖచ్చితత్వాన్ని ఆశిస్తుంటే, కాదు. మీరు బహుళ టూల్ కాల్స్ మరియు పెద్ద సందర్భాన్ని బ్యాలెన్స్ చేస్తున్నప్పుడు తక్కువ బలవంతపు లోపాలను ఆశిస్తుంటే, అవును అని చెప్పవచ్చు.
GLM-4.6లో కొత్తగా ఏమి ఉంది (ముఖ్యమైన వివరాలు)
- పొడవైన, స్టిక్కీ సందర్భం: ఎక్కువ టోకెన్లు మాత్రమే కాదు—విభాగాలలో మెరుగైన నిలుపుదల. మీరు పన్నెండవ పేరాలో ఒక సాధనాన్ని ఉపయోగించినప్పుడు మీరు మూడవ పేరాలో ఉంచిన పరిమితిని ఇది “మర్చిపోయే” అవకాశం తక్కువ.
- గట్టి ఫంక్షన్ కాలింగ్: వాదనలు మరింత స్థిరంగా ఏర్పడతాయి. JSONను ఆకారంలోకి తీసుకురావడానికి తక్కువ యాక్-షేవింగ్, తక్కువ గాల్యూసినేటెడ్ కీలు. మీరు ఏజెంట్లను నిర్మిస్తే, చాలా నమూనాలు వారి స్వంత బూట్లపైనే ఎక్కడ పడిపోతాయో మీకు తెలుస్తుంది.
- నిర్మాణాత్మక రీజనింగ్ బయాస్: మీరు తేలికపాటి స్కఫోల్డింగ్తో GLM-4.6ను ప్లాన్-థెన్-యాక్ట్ లూప్లోకి నెట్టవచ్చు. ఇది తాత్వికుడిలా ఆలోచించినట్లు నటించదు, కానీ ఇది మంచి ప్రాజెక్ట్ మేనేజర్ లాగా దశలను ట్రాక్ చేస్తుంది.
- మల్టీ-మోడల్ టచ్లు (మీకు అవసరమైతే): ఇమేజ్-అవేర్ వేరియంట్లు ఫారం రీడింగ్ మరియు UI పార్సింగ్పై మరింత ఊహించదగిన విధంగా ప్రవర్తిస్తాయి. ఆర్ట్-టాయ్ స్టఫ్ కాదు—బోరింగ్, ఉపయోగకరమైన స్టఫ్.
- లేటెన్సీ/ఖర్చు సర్దుబాట్లు: తక్కువ స్పైక్లు, మరింత ఊహించదగిన త్రూపుట్. లేదు, ఉచితం కాదు; అవును, ఉత్పత్తి డ్యాష్బోర్డ్లలో ముఖ్యమైనది.
బెంచ్మార్క్లు? మీరు సాధారణంగా కనిపించే వాటిని కనుగొంటారు—MMLU ఇది, GSM8K అది—పైకి నెట్టబడింది. ముఖ్యాంశం సంఖ్య కాదు; ఇది లోడ్ కింద స్థిరత్వం మరియు టూల్ గొలుసుల సమయంలో “ఏమి జరిగింది?” క్షణాలలో తగ్గింపు.
GLM-4.6తో రీజనింగ్: కోరుకోవడం ఆపండి, బౌండింగ్ ప్రారంభించండి
LLMలలో “రీజనింగ్” అనేది దశల వారీ వచనానికి పక్షపాతంతో కూడిన గణాంక నమూనా పూర్తి. అది సరే. ఇది వేరే ఏదో అని నటిస్తే చెడు ప్రాంప్ట్లకు మరియు అధ్వాన్నమైన సిస్టమ్లకు దారితీస్తుంది. మీరు GLM-4.6కు ఇస్తే అది మెరుగ్గా ఉంటుంది:
- తెలివితేటలపై పరిమితులు: లక్ష్య ఆకృతి, అంగీకార పరీక్షలు మరియు వైఫల్య పరిస్థితులను వివరించండి. గణితం యొక్క ఆకృతి స్పష్టంగా ఉంటే మోడల్ గణితాన్ని చేస్తుంది.
- మోనోలాగ్లపై విచ్ఛిన్నం: సమస్యలను దశలుగా విభజించండి—పార్స్ → ప్లాన్ → ఎక్స్క్యూట్ → వెరిఫై. మీరు దీన్ని సిస్టమ్ ప్రాంప్ట్లో ఉంచవచ్చు లేదా టూల్ కాల్స్తో స్పష్టంగా చేయవచ్చు.
- బాహ్య మెమరీ: మోడల్ను మీ డేటాబేస్ చేయవద్దు. దానిని బాహ్య స్క్రాచ్ప్యాడ్ లేదా వెక్టర్ స్టోర్కు వ్రాయమని మరియు చదవమని చెప్పండి. GLM-4.6 తక్కువ మరచిపోయేది, కానీ ఇది ఇంకా స్పష్టమైన క్షణాలతో ఒక బంగారు చేప.
- ధృవీకరణ హుక్స్: వెరిఫైయర్తో రెండవ పాస్—కొన్నిసార్లు అదే మోడల్, కొన్నిసార్లు చిన్నది—మూర్ఖపు తప్పులను పట్టుకుంటుంది. ఇది ఉత్పత్తిలో ఒక తప్పుడు సమాధానాన్ని సేవ్ చేస్తే అది అనవసరం కాదు.
పట్టిక రీజనింగ్ కోసం ఇక్కడ ఒక కనిష్ట, బోరింగ్గా ప్రభావవంతమైన లూప్ ఉంది:
- దశ 1: ప్రశ్నకు సంబంధించిన స్కీమా మరియు పరిమితులను సంగ్రహించమని GLM-4.6ని అడగండి.
- దశ 2: ప్రణాళిక మరియు “అవసరమైన సాధనాలను” ప్రతిపాదించమని చెప్పండి.
- దశ 3: మోడల్ ద్వారా JSON-ఎన్కోడ్ చేయబడిన ఆర్గ్యుమెంట్లతో టూల్ కాల్స్ను (SQL, Python, ఏదైనా) అమలు చేయండి.
- దశ 4: టూల్ ఫలితాలను తిరిగి ఫీడ్ చేయండి మరియు తిరిగి పొందిన వరుసలకు బౌండ్ చేయబడిన సమర్థనతో తుది సమాధానం అవసరం.
ట్రిక్ ఫ్యాన్సీ ప్రాంప్ట్లు కాదు. మోడల్ చేయకూడని చోట మెరుగుపరచడానికి అనుమతించకుండా నిరాకరించడం.
GLM-4.6తో ఏజెంట్లు: పిల్లులను మేపడం, ఇప్పుడు లీష్లతో
ఏజెంట్లు అనేవి ఉత్పత్తి నిర్వహణగా నటించడానికి హైప్ వెళ్ళే ప్రదేశం. చాలా “స్వయంప్రతిపత్తి” గల ఏజెంట్లు LEGO స్టోర్లో విడుదల చేయబడిన రూంబా—బిజీగా ఉంటుంది, సహాయకరంగా ఉండదు. GLM-4.6 దాని స్వంతంగా దానిని మార్చదు. అది ఏమి చేస్తుంది:
- మరింత నమ్మకమైన టూల్ కాంట్రాక్ట్లు: మీరు get_flights(origin, destination, date) అని చెప్పినప్పుడు, మీరు అడగకపోతే అది క్యాబిన్_క్లాస్ను కనుగొనడం ఆపివేస్తుంది. అది డెమో మరియు వాపసు మధ్య వ్యత్యాసం.
- మెరుగైన స్టెప్ అకౌంటింగ్: మీరు N టూల్ కాల్స్లో క్యాప్ చేయమని లేదా ఆమోదం చెక్పాయింట్ అవసరమని అడిగితే, అది చాలా తరచుగా కట్టుబడి ఉంటుంది. కట్టుబడి ఉండటం అనేది తక్కువగా అంచనా వేయబడింది.
- సహించదగిన లాంగ్-హారిజన్ టాస్క్లు: స్పష్టమైన మైలురాళ్ళు మరియు మెమరీ స్టోర్తో, ఇది ఫ్యాన్-ఫిక్షన్లో పడిపోకుండా బహుళ-రోజుల పనిని కొనసాగించగలదు.
GLM-4.6 ఏజెంట్లతో గెలుపొందిన నమూనా “దానిని విడిచిపెట్టడం” కాదు. ఇది “గట్టి లూప్, చిన్న లీష్, స్పష్టమైన రివార్డులు.”
ఆచరణాత్మక స్కఫోల్డ్: ప్రాంప్ట్ నుండి పైప్లైన్ వరకు
మీరు దానిని ఎలా పిలిచినా—“ఉద్దేశపూర్వక రీజనింగ్,” “ప్లానర్-ఎగ్జిక్యూటర్”—పైప్లైన్ ఈ విధంగా ఉంటుంది:
- సిస్టమ్: మీరు జాగ్రత్తగా ప్రణాళిక చేసే వ్యక్తి. మీరు ప్రణాళిక లేకుండా సాధనాలను ఉపయోగించరు. మీరు JSONను స్కీమాలో ఉత్పత్తి చేయాలి.
- వినియోగదారు: పని (స్పష్టమైన, బౌండెడ్, మంచి vs. చెడ్డ సమాధానాల ఉదాహరణలతో).
- అసిస్టెంట్ (ప్రణాళిక): మోడల్ దశలను రూపొందిస్తుంది, సాధనాలను ఎంచుకుంటుంది, ఊహలను తెలియజేస్తుంది.
- టూల్ కాల్స్: నిర్ధారిత, టైప్ చేసిన ఆర్గ్యుమెంట్లు. స్కీమా లోపాలపై తిరస్కరించండి. ప్రతిదీ లాగ్ చేయండి.
- అసిస్టెంట్ (సింథసిస్): మోడల్ టూల్ అవుట్పుట్లను ప్రణాళికతో అనుసంధానిస్తుంది మరియు తుది ఫలితాన్ని అందిస్తుంది.
- వెరిఫైయర్: తేలికపాటి తనిఖీ—కొన్నిసార్లు సాధారణ వ్యక్తీకరణలు మరియు అంగీకార పరీక్షలు—డ్రిఫ్ట్ను పట్టుకోవడానికి.
GLM-4.6 యొక్క సహకారం: తక్కువ ప్రణాళిక/కార్యాచరణ మిస్మ్యాచ్లు మరియు మరింత స్థిరమైన ఆర్గ్యుమెంట్ ఆకారాలు. ఆకర్షణీయం కాదు. ఉపయోగకరమైనది.
మిమ్మల్ని మీరు మోసం చేయని ప్రాంప్టింగ్
- మేధావి పాత్రను పోషించవద్దు. నిర్మాణం కోసం అడగండి: “ఊహలను జాబితా చేయండి,” “యూనిట్ మార్పిడులను చూపండి,” “మీరు ఉపయోగించిన వరుసలను పేర్కొనండి.”
- కాటు వేసే గార్డ్రెయిల్లను ఉపయోగించండి. మీరు నిర్వచించకపోతే మరియు ప్రశ్న అవసరం లేకపోతే “మీకు ఖచ్చితంగా తెలియకపోతే, స్పష్టీకరణ కోసం అడగండి” విలువలేనిది.
- పొడవైన ప్రసంగాల కంటే ఉదాహరణ జతలను ఇష్టపడండి. రెండు మంచి ఉదాహరణలు రెండు పేజీల వైబ్లను ఓడిస్తాయి.
- మోడల్ను ‘నాకు తెలియదు’ అని చెప్పనివ్వండి. అక్షరాలా ఆ పదబంధాన్ని అనుమతించండి. లేకపోతే అది ఎప్పటికీ ఉపయోగించదు.
GLM-4.6 మునుపటి బిల్డ్ల కంటే ఈ ప్రోగ్రామ్తో మరింత సులభంగా కలిసిపోతుంది. అది పురోగతి: తెలివైన అబద్ధాలు కాదు, తక్కువ.
డేటా, సాధనాలు మరియు ఫంక్షన్ కాలింగ్ యొక్క బోరింగ్ మ్యాజిక్
ఫంక్షన్ కాలింగ్ అనేది రీజనింగ్ థియేటర్గా ఉండటం ఆగిపోయే ప్రదేశం. GLM-4.6తో:
- స్కీమాలు అంటుకుంటాయి: ఫంక్షన్ సంతకాన్ని ఒక్కసారి నేర్పండి మరియు మలుపుల్లో తిరిగి ఉపయోగించండి.
- మల్టీ-టూల్ సీక్వెన్స్లు ప్రవర్తిస్తాయి: ప్లాన్ → శోధన → ఫెచ్ → సారాంశం ఇకపై ప్లాన్ → సారాంశం → మళ్లీ సారాంశంగా మారదు.
- వేగంగా విఫలం: ఒక సాధనం ఒక ఆర్గ్యుమెంట్ను తిరస్కరిస్తే, లోపాన్ని తిరిగి మోడల్కు చూపండి మరియు సరిదిద్దే మలుపును బలవంతం చేయండి. నిశ్శబ్దంగా పరిష్కరించవద్దు; మోడల్ను చేయమని అడగండి.
మీరు పరిశోధన సహాయకులు, కస్టమర్ సపోర్ట్ బోట్లు లేదా డేటా ఏజెంట్లను నిర్మిస్తుంటే, ప్రతిసారీ టూల్ కాల్స్ను సరిగ్గా పొందడం బోరింగ్ మ్యాజిక్. GLM-4.6 బోరింగ్లో మెరుగైనది.
లాంగ్ కాంటెక్స్ట్: తిరగడానికి ఎక్కువ గది, తప్పించుకోవడానికి తక్కువ సాకు
మేము వాటిలో ఎక్కువ అతికించడం కొనసాగించినందున కాంటెక్స్ట్ విండోస్ పెరిగాయి. GLM-4.6 తక్కువ క్రాస్-టాక్తో ఎక్కువ సందర్భాలను నిర్వహిస్తుంది. ఇప్పటికీ, కొన్ని నియమాలు:
- ముక్కలు మరియు శీర్షిక: చిన్న, స్పష్టమైన హెడర్లను ఉపయోగించండి. మోడల్స్ పేరాల కంటే లేబుల్లను బాగా “గుర్తుంచుకుంటాయి”.
- పేస్ట్ కంటే పాయింటర్లు: పాయింటర్ మరియు రిట్రీవల్ హుక్ చేస్తే అనుబంధాన్ని స్టఫ్ చేయవద్దు.
- జవాబుదారీతనంతో సారాంశం: “డాక్స్ చెబుతున్నాయి” కాకుండా సెక్షన్ IDలను పేర్కొనమని మోడల్ను అడగండి.
ఫలితం తక్కువ ఫాంటమ్ జ్ఞాపకాలు మరియు ఎక్కువ కట్టిన సారాంశాలు.
కోసం GLM-4.6ని ఉపయోగించడం: దానిని రెక్కలు విప్పనివ్వవద్దు
మీరు భేదాన్ని నియంత్రిస్తే ఇది బాయిలర్ప్లేట్ మరియు రిఫాక్టర్లలో మంచిది. నాన్-ట్రివియల్ కోడ్జెన్ కోసం:
- మొదట ఇంటర్ఫేస్లను పేర్కొనండి. రకాలు, సంతకాలు, ఇన్పుట్/అవుట్పుట్ కాంట్రాక్ట్లు.
- అమలు చేయడానికి ముందు యూనిట్ పరీక్షలు. మోడల్ను పరీక్షలు వ్రాయమని చెప్పండి, ఆపై కోడ్ను. పరీక్షలు అమలు చేయండి. వైఫల్యాలను తిరిగి ఫీడ్ చేయండి.
- చిన్న బ్యాచ్లు. ఒకేసారి ఒక ఫంక్షన్. విలీనం చేయండి, ఆపై కొనసాగించండి.
మీరు ఈ క్రమశిక్షణను పట్టుబడితే GLM-4.6 తెలివిగా కనిపిస్తుంది. ఇది నకిలీ కాదు; మీరు దానిని దానికదే పట్టాలు తప్పించే అవకాశాన్ని తగ్గిస్తున్నారు.
రీజనింగ్ చిక్కులు GLM-4.6 తగ్గిస్తుంది (కానీ తొలగించదు)
- మునుపటి అంచనాలపై లంగరు వేయడం: నిర్ణయించే ముందు ప్రత్యామ్నాయాలను జాబితా చేయమని అడగండి. మీరు తక్కువ మొదటి-ఆలోచన-ఉత్తమ-ఆలోచన సమాధానాలను చూస్తారు.
- ఓవర్-సమ్మరైజేషన్: గుర్తించదగిన కోట్లు లేదా వరుస IDలు అవసరం. లేకపోతే అది తన సొంత పారాఫ్రేజ్ను పారాఫ్రేజ్ చేస్తుంది.
- ప్రణాళిక-కార్యాచరణ డ్రిఫ్ట్: ప్రణాళికను ఒక ఒప్పందంగా చేయండి. తుది సమాధానం విభిన్నంగా ఉంటే, ఎందుకు అని వివరించమని బలవంతం చేయండి.
- టూల్ గాల్యూసినేషన్: రిజిస్ట్రీని ఉంచండి మరియు తెలియని సాధనాలను తిరస్కరించండి. మోడల్ తక్కువ కనుగొంటుంది—కానీ సున్నా లక్ష్యం.
GLM-4.6ని మూల్యాంకనం చేయడం: మీరు విశ్వసించగల బెంచ్మార్క్లు (మీవి)
ప్రజా లీడర్బోర్డ్లు రెస్టారెంట్ నక్షత్రాల వంటి ఉపయోగకరంగా ఉంటాయి: మంచి సంకేతం, మీ అభిరుచి కాదు. మీ బెంచ్మార్క్లు ఇలా ఉండాలి:
- టాస్క్-బౌండ్: చెర్రీ-పిక్ చేయని ఉత్పత్తి నుండి 100-200 నిజమైన ప్రాంప్ట్లు.
- అంగీకార పరీక్షలతో స్కోర్ చేయబడింది: వ్యక్తీకరణలు, కాలిక్యులేటర్లు, స్కీమా వాలిడేటర్లు. మానవులు సూక్ష్మ నైపుణ్యాన్ని గుర్తించారు; యంత్రాలు మూర్ఖపు విషయాలను పట్టుకుంటాయి.
- ఖరీదైనది: ఖచ్చితత్వం మాత్రమే కాకుండా, సరైన సమాధానానికి డాలర్లను కొలవండి.
- లేటెన్సీ-అవేర్: అదృష్ట P50 కంటే P95 చాలా ముఖ్యం.
పనిభారం టూల్-హెవీ మరియు బహుళ-దశలగా ఉన్నప్పుడు GLM-4.6 “సరిగ్గా ఒక్కొక్కటి ఖర్చు”పై బాగా రేట్ చేస్తుంది. మీ పని నిర్మాణం లేని ముడి గద్యం అయితే, మీరు ఇతర పెద్ద పేర్లతో సమానత్వాన్ని కనుగొనవచ్చు.
ఏజెంట్ల కోసం GLM-4.6ను ఎలా ఉపయోగించాలి (నటించని ప్లేబుక్)
- కోరికలు కాకుండా APIల వంటి సాధనాలను నిర్వచించండి: ఇన్పుట్ రకాలు, ఎర్రర్ కోడ్లు, ఉదాహరణలు.
- సమీక్ష గేట్లను అమలు చేయండి: ప్రమాదకరమైన చర్యల కోసం (ఇమెయిల్లు, ఆర్డర్లు), ఒక-స్క్రీన్ భేదంతో మానవ-ఆమోదం దశ అవసరం.
- మెమరీని బాహ్యంగా ఉంచండి: ప్రాజెక్ట్ నోట్లు, స్టేట్, డాక్స్—వాటిని నిల్వ చేయండి. మోడల్ చదువుతుంది మరియు వ్రాస్తుంది; అది బ్యాగ్ను తీసుకువెళ్లదు.
- ప్రతిదీ పరికరం చేయండి: టోకెన్లు, టూల్ ఆర్గ్యుమెంట్లు, ఫలితాలను లాగ్ చేయండి. మీరు దానిని తనిఖీ చేయలేకపోతే, మీరు దానిని మెరుగుపరచలేరు.
- ఉద్దేశ్యంతో మళ్లీ ప్రయత్నించండి: కఠినమైన నియమాలతో ఒక సరిదిద్దే పాస్ను అనుమతించండి. అది ఇంకా విఫలమైతే, మూసివేయడంలో విఫలం అవ్వండి.
GLM-4.6 మీకు మంచి బ్యాటింగ్ సగటును అందిస్తుంది. మీకు ఇప్పటికీ నియమాలు మరియు స్కోర్బోర్డ్ అవసరం.
భద్రత, గోప్యత మరియు కీలను అప్పగించే ప్రలోభం
- PII ఫెన్సింగ్: మోడల్ చూసే ముందు దాన్ని మాస్క్ చేయండి. రహస్యాలు ఉంచడానికి ప్రాంట్ను విశ్వసించవద్దు.
- టూల్ శాండ్బాక్సింగ్: ఫైల్ సిస్టమ్ మరియు నెట్వర్క్ కాల్లు తప్పనిసరిగా వైట్లిస్ట్ చేయబడిన డొమైన్లు మరియు మార్గాలకు పరిమితం చేయబడాలి.
- ప్రాంప్ట్ ఇంజెక్షన్: తిరిగి పొందిన మొత్తం వచనాన్ని విశ్వసించని విధంగా పరిగణించండి. శానిటైజ్ చేయండి మరియు టూల్ కాల్ ఏమి చేయగలదో పరిమితం చేయండి.
- ఆడిట్ ట్రైల్స్: పూర్తి లిపితో ఉంచండి—ప్రాంప్ట్లు, టూల్ కాల్లు, అవుట్పుట్లు. భవిష్యత్తులో మీరు మీకు కృతజ్ఞతలు తెలుపుతారు.
GLM-4.6 నియమాలను ఉల్లంఘించాలని “నిర్ణయించుకోదు”—కానీ మీరు అనుమతిస్తే అది సంతోషంగా విషపూరితమైన సూచనను అనుసరిస్తుంది.
Sider.AI గురించి ఒక శీఘ్ర పదం (ఎందుకంటే ఇది ఇక్కడ నిజంగా సహాయపడుతుంది)
Sider.AI వాస్తవానికి పని చేస్తుంది—కనీసం మీరు దానిని దేనికి ఉపయోగించాలో దాని కోసం ఉపయోగించినప్పుడు, అది వింతగా ఉంది, మార్కెటింగ్ చెప్పేది కాదు. మీరు GLM-4.6ని రీజనింగ్ లేదా ఏజెంట్ వర్క్ఫ్లోగా మార్చాలని లక్ష్యంగా పెట్టుకుంటే, సైడర్ యొక్క బలాలు ఆకర్షణీయం కానివి: స్టిక్ చేసే ప్రాంప్ట్ స్కఫోల్డింగ్, నిర్మాణాత్మక టూల్ వైరింగ్ మరియు విచ్ఛిన్నమైనది ఏమిటో మరియు ఎందుకు అని మీరు చూడగలిగే తెలివైన పునరావృత లూప్లు. మీకు వేడుక అవసరం లేదు; మీకు రన్స్, డిఫ్స్లు మరియు గార్డ్రెయిల్లు అవసరం. సైడర్ మీకు తక్కువ థియేటర్తో వాటిని అందిస్తుంది. దీనిని GLM-4.6తో జత చేయండి మరియు మీకు తక్కువ మిస్టరీ వైఫల్యాలు మరియు మరింత పునరావృతమయ్యే విజయాలు లభిస్తాయి. అమలు గమనికలు: చిన్న లివర్లు, పెద్ద తేడాలు
- ఉష్ణోగ్రత: టూల్ ప్రణాళిక కోసం తక్కువ (0.0–0.2), ఆలోచన కోసం ఎక్కువ (0.6–0.8). మీరు సహాయం చేయగలిగితే ఒకే కాల్లో ప్రణాళిక మరియు గద్యాన్ని కలపవద్దు.
- గరిష్ట టోకెన్లు: మధ్యంతర కాల్లపై దూకుడుగా క్యాప్ చేయండి; సింథసిస్ కోసం బడ్జెట్ను రిజర్వ్ చేయండి.
- స్టాప్ సీక్వెన్స్లు: JSON అవుట్పుట్లను బౌండ్ చేయడానికి వాటిని ఉపయోగించండి. బ్రాకెట్ మూసివేయబడిన తర్వాత మోడల్ మూసుకోవాలని మీరు కోరుకుంటున్నారు.
- స్వీయ-విమర్శ పాస్: ఒక చిన్న, ప్రత్యేక ప్రాంప్ట్—“ఈ సమాధానం తప్పుగా ఉండటానికి మూడు మార్గాలను జాబితా చేయండి”—తక్కువ-వేలాడే పండ్లను పట్టుకుంటుంది.
ఇవి “హ్యాక్లు” కాదు. వారు మోడల్ను ఊహించదగిన విధంగా చేస్తున్నారు.
GLM-4.6 (లేదా ఏదైనా పెద్ద మోడల్) ఎప్పుడు ఉపయోగించకూడదు
- ధృవీకరణ లేకుండా ఖచ్చితమైన, సింబాలిక్ గణితం: నిజమైన పరిష్కారికి ఆఫ్లోడ్ చేయండి.
- మీరు మాస్క్ చేయలేని PII-హెవీ వర్క్లోడ్లు: చేయవద్దు.
- నిర్ధారిత పార్సర్లతో పనులు: రెగెక్స్ చేస్తే, రెగెక్స్ను ఉపయోగించండి.
- సమీక్ష లేకుండా జీరో-టాలరెన్స్ డొమైన్లు: సమ్మతి లేఖలు లేదా వైద్య సలహా గురించి ఆలోచించండి. మానవుడిని లూప్లో ఉంచండి.
ఏ మోడల్ సార్వత్రిక సుత్తి కాదు. GLM-4.6 ఏజెంట్ పైప్లైన్ల కోసం ఒక దృఢమైన రెంచ్, ప్రతిదానికీ ఒక స్లెడ్జ్హామర్ కాదు.
GLM-4.6 ఏజెంట్ల కోసం ఒక చిన్న, క్రూరంగా నిజాయితీగా ఏర్పాటు
- నిర్వచించండి: సాధనాలు = {శోధన, ఫెచ్_డాక్, సారం_పట్టిక, రన్_sql, send_email(డ్రాఫ్ట్_మాత్రమే)}
- ప్లాన్ ప్రాంప్ట్: “దశలతో JSONను తిరిగి ఇవ్వండి, ప్రతి దశ THINK, TOOL(పేరు, ఆర్గ్స్) లేదా DECIDE. గరిష్టంగా 6 దశలు.”
- గార్డ్: స్కీమాకు సరిపోలని అవుట్పుట్లను తిరస్కరించండి. లోపం సందేశంతో మళ్లీ ప్రయత్నించమని బలవంతం చేయండి.
- ధృవీకరించండి: DECIDEకి ముందు, ఒక చెక్లిస్ట్ అవసరం: మూలాలు పేర్కొనబడ్డాయి, ఊహలు పేర్కొనబడ్డాయి, ప్రమాదాలు గుర్తించబడ్డాయి.
- మానవ గేట్: 'Y/N' ఆమోదం ఫ్లాగ్తో మాత్రమే send_email అమలు చేయబడుతుంది.
క్రమశిక్షణ యొక్క ఐదు పంక్తులు మీకు యాభై పంక్తుల సంఘటన నివేదికను ఆదా చేస్తాయి.
GLM-4.6 vs. ఫీల్డ్: ఇది ఎక్కడ మెరుగ్గా ఉంది
- టూల్ గొలుసులు: తక్కువ తప్పుగా ఏర్పడిన ఆర్గ్స్; కాల్కు అధిక విజయం.
- పొడవైన డాక్స్: స్పష్టమైన సెక్షన్ IDలతో మరింత పొందికైన క్రాస్-రిఫరెన్స్లు.
- లీష్పై ఏజెంట్లు: దశ టోపీలు మరియు ఆమోద దశలను బాగా పాటిస్తారు.
- ఖర్చు/లేటెన్సీ: ప్రార్థన కొవ్వొత్తి లేకుండా బడ్జెట్ చేయడానికి తగినంత ఊహించదగినది.
మీ యాప్ విలువ 90% “సాధనాలను సరిగ్గా ఉపయోగించడం” అయితే, మీరు వ్యత్యాసాన్ని గమనిస్తారు. అది 90% “అందమైన పేరా వ్రాయడం” అయితే, మీరు గమనించకపోవచ్చు.
విరుద్ధమైన బిట్: “రీజనింగ్” సరైన పదమేనా?
బహుశా కాదు. కానీ మనం ఉపయోగించే పదం మనకు అవసరమైన ప్రవర్తనను మార్చదు. మనకు సామర్థ్యం ఉన్న వ్యవస్థలు కావాలి:
- సమస్యలను విచ్ఛిన్నం చేయండి.
- సరైన ఆర్గ్స్తో సరైన సాధనాలను ఉపయోగించండి.
- అనిశ్చితిని అంగీకరించండి.
GLM-4.6 ఆ సూదిని ఒక గీతను కుడి దిశలో కదిలిస్తుంది. నాటకీయంగా లేదు. ముఖ్యాంశం విలువైనది కాదు. ప్రశ్న మరియు సమాధానం మధ్య తక్కువ తప్పు మలుపులకు దగ్గరగా ఉంది, మనం నిజంగా పట్టించుకునే విషయం.
ముగింపు: బోరింగ్ భవిష్యత్తు గెలుస్తుంది
AI యొక్క ఉత్తేజకరమైన భవిష్యత్తు బాణసంచా కాదు—ఇది లోడ్-బేరింగ్ ప్రిడిక్టబిలిటీ. GLM-4.6 దాని వైపు ఒక అడుగు: స్థిరమైన ఫంక్షన్ కాల్లు, ప్రశాంతమైన లాంగ్-కాంటెక్స్ట్ ప్రవర్తన, కొద్దిగా తక్కువ మేక్-బిలీవ్. మీరు దానితో నిర్మించవచ్చు. స్పష్టమైన ఒప్పందాలు, బాహ్య మెమరీ మరియు వెరిఫైయర్తో చుట్టండి మరియు అది ఉన్నదానికంటే తెలివిగా కనిపిస్తుంది—ఎందుకంటే మీరు భాగానికంటే సిస్టమ్ను తెలివిగా చేసారు. అది ఇంజనీరింగ్. మరియు అది స్కేల్ చేసే భాగం.
మీరు అద్భుతం కోసం వస్తే, మీరు నిరాశ చెందుతారు. మీరు టిక్కెట్లను తగ్గించడానికి, రిట్రీలను తగ్గించడానికి మరియు ఏజెంట్లను “ప్రియమైన FIRST_NAME”కి ఇమెయిల్ చేయకుండా ఉంచడానికి వస్తే, మీరు సంతోషంగా ఉంటారు. బోరింగ్ గెలుస్తుంది. GLM-4.6 మీరు అక్కడికి చేరుకోవడానికి సహాయపడుతుంది.
FAQ
Q1:రీజనింగ్ వర్క్ఫ్లోల కోసం GLM-4.6లో కొత్తగా ఏమి ఉంది?
GLM-4.6 ఫంక్షన్ కాలింగ్ను గట్టి చేస్తుంది, పొడవైన సందర్భంతో మెరుగ్గా ప్రవర్తిస్తుంది మరియు తక్కువ డ్రిఫ్ట్తో ప్లాన్-థెన్-యాక్ట్ ప్రాంప్ట్లను అనుసరిస్తుంది. ఇది మ్యాజిక్ చేయదు, కానీ ఇది బహుళ-దశల రీజనింగ్ పైప్లైన్లలో తక్కువ విషయాలను విచ్ఛిన్నం చేస్తుంది.
Q2:గందరగోళం లేకుండా AI ఏజెంట్ల కోసం నేను GLM-4.6ని ఎలా ఉపయోగించగలను?
చిన్న లీష్ను ఉంచండి: కఠినమైన టూల్ స్కీమాలు, సమీక్ష గేట్లు, బాహ్య మెమరీ మరియు వెరిఫైయర్ పాస్. GLM-4.6 స్టెప్ టోపీలను గౌరవిస్తుంది మరియు క్లీనర్ ఆర్గ్యుమెంట్లను ఉత్పత్తి చేస్తుంది, ఇది ఏజెంట్ థ్రాష్ను తగ్గిస్తుంది.
Q3:టూల్ ఉపయోగం కోసం ఇతర మోడల్ల కంటే GLM-4.6 మంచిదా?
తరచుగా, అవును—ముఖ్యంగా మీరు సరైన, పునరావృతమయ్యే ఫంక్షన్ కాల్లు మరియు మల్టీ-టూల్ సీక్వెన్స్ల గురించి పట్టించుకుంటే. మీ పనిభారం ఎక్కువగా గద్యం అయితే, మీరు సమానత్వాన్ని చూడవచ్చు; ఇది టూల్-హెవీ అయితే, GLM-4.6 ప్రకాశిస్తుంది.
Q4:GLM-4.6 రీజనింగ్ కోసం ఉత్తమ ప్రాంప్ట్ శైలి ఏమిటి?
పనిని విడదీయండి, అవుట్పుట్ స్కీమాలను నిర్వచించండి మరియు పేర్కొన్న ఊహలు లేదా వరుస IDలు అవసరం. రోల్-ప్లేను దాటవేయండి; GLM-4.6 మెప్పించడం కంటే స్పష్టమైన దశలు మరియు గార్డ్రెయిల్లతో మెరుగ్గా చేస్తుంది.
Q5:GLM-4.6 ఇంకా ఎక్కడ తక్కువగా ఉంది?
ధృవీకరణ లేకుండా సింబాలిక్ గణితం, మాస్కింగ్ లేకుండా గోప్యత-సున్నితమైన పనులు మరియు జీరో-టాలరెన్స్ డొమైన్లు. ఇది నిర్మాణాత్మక రీజనింగ్ మరియు ఏజెంట్లలో బలంగా ఉంది, నిర్ధారిత సాధనాలకు ప్రత్యామ్నాయం కాదు.