वह भाग जहाँ पीपीटी एआई को सरल दिखाने की कोशिश करता है
कृत्रिम बुद्धिमत्ता में निर्णय लेने के बारे में यह है कि हर कोई इसे समझने का दिखावा करता है - जब तक कि यह या तो एक शानदार कॉल नहीं करता है या एक स्पष्ट गलती में मुँह के बल नहीं गिर जाता। फिर अचानक यह “बहुत जटिल” या “एक ब्लैक बॉक्स” है, जैसे कि गणित केले के छिलके पर फिसल गया हो। यदि आपने कभी कृत्रिम बुद्धिमत्ता पीपीटी में निर्णय लेने के दौरान भाग लिया है, तो आप दिनचर्या जानते हैं: बड़े तीर, फ्लोचार्ट और क्लिपआर्ट के टुकड़े जो अनिवार्यता का सुझाव देते हैं। यह अपरिहार्य नहीं है। यह अंत तक विकल्प हैं।
यह एल्गोरिदम में एक गहरी डुबकी है - वास्तविक वाले - एआई निर्णय लेने के लिए उपयोग किए जाते हैं। बॉक्स वाले तीरों के साथ एक स्लाइड डेक नहीं। लक्ष्य “एआई हमारे लिए तय करेगा” थिएटर के माध्यम से कटौती करना और इस बारे में बात करना है कि ये सिस्टम वास्तव में कैसे चुनते हैं। स्पॉइलर: वे सर्वज्ञ देववाणी की तरह कम हैं और बहुत तेज़, बहुत शाब्दिक तर्क करने वालों की तरह अधिक हैं, जिन्हें कभी भी ट्रैफिक में नहीं बैठना पड़ा या एक बच्चे के सोने के समय पर बातचीत नहीं करनी पड़ी।
“एआई में निर्णय लेने” से हमारा क्या मतलब है (और पीपीटी शायद ही कभी क्या मानते हैं)
“कृत्रिम बुद्धिमत्ता में निर्णय लेना” ऊंचा लगता है, लेकिन व्यवहार में यह तकनीकों का एक सेट है: नियम-आधारित तर्क, खोज, अनुकूलन, संभाव्य अनुमान, सुदृढीकरण सीखना, योजना और हाइब्रिड सिस्टम जो पूरे झमेले को एक साथ जोड़ते हैं। एल्गोरिदम कुछ भी “नहीं चाहते” हैं। वे विशिष्ट बाधाओं के तहत विशिष्ट कार्यों को अनुकूलित करते हैं। फ़ंक्शन या बाधाओं को स्वैप करें और आपको एक अलग “बुद्धि” मिलती है। यदि यह स्पष्ट लगता है, तो बधाई हो - आप SlideShare पर आधे डेक से आगे हैं।
अधिकांश कृत्रिम बुद्धिमत्ता पीपीटी में निर्णय लेने के साथ वास्तविक समस्या यह नहीं है कि वे सरल करते हैं। यह है कि वे गलत दिशा में सरल करते हैं। उनका तात्पर्य है कि मॉडल इसलिए तय करते हैं क्योंकि उन्होंने “सीखा” है। सीखना तय करना नहीं है। सीखना आपको एक नीति या एक मॉडल प्राप्त कराता है; निर्णय लेना उस नीति को उस संदर्भ में चलाना है जो प्रशिक्षण डेटा की तरह बिल्कुल नहीं है। शतरंज की शुरुआत को याद करने और मध्य खेल के अराजकता से बचने के बीच का अंतर - पूर्व एक बुलेट बिंदु में अच्छा लगता है; बाद वाला वही है जो जीतता है।
वास्तविक उपकरण: नियमों से लेकर पुरस्कारों तक
आइए स्टैक पर चलते हैं, उन सामानों से जो विचित्र लगते हैं (लेकिन अभी भी मायने रखते हैं) उन तकनीकों के लिए जो आधुनिक प्रणालियों को शक्ति प्रदान करते हैं। सादा भाषण, कोई रोमांस नहीं।
नियम-आधारित प्रणालियाँ: अभी भी मृत नहीं, बस ईमानदार
नियम कुछ एआई लोगों के लिए शर्मनाक हैं, जैसे सैंडल के साथ मोजे पहनना। लेकिन नियम-आधारित निर्णय लेने का एक बड़ा फायदा है: पारदर्शिता। यदि कृत्रिम बुद्धिमत्ता पीपीटी में निर्णय लेना नियमों को “विरासत” के रूप में छोड़ देता है, तो यह आधी कहानी छिपा रहा है। विशेषज्ञ प्रणालियाँ डोमेन ज्ञान को यदि-तब कथनों के रूप में एन्कोड करती हैं। वे भंगुर हैं, हाँ, लेकिन वे लेखापरीक्षित हैं। जब आपको नियतत्ववाद और पता लगाने की क्षमता की आवश्यकता होती है - अनुपालन जाँच, चिकित्सा जाँच प्रोटोकॉल - नियम अभी भी काम नहीं करते हैं; वे बेहतर काम करते हैं।
- पक्ष: नियतात्मक, व्याख्या योग्य, डिबग करना आसान
- विपक्ष: भंगुर, गन्दा डोमेन में स्केल करना मुश्किल
आपको पता है कि एक नियम प्रणाली कब विफल होती है क्योंकि यह आपको बताती है। अधिकांश आधुनिक प्रणालियाँ चुपचाप विफल हो जाती हैं।
खोज और अनुकूलन: निर्णय नेविगेशन के रूप में
इससे पहले कि हमने सब कुछ डेटा के महासागरों पर प्रशिक्षित किया, हमने खोज की। चौड़ाई-पहली खोज, गहराई-पहली खोज, ए *, बीम खोज। यह ग्लैमरस नहीं है, लेकिन जब भी आप पथ ढूँढने की समस्या को हल कर रहे हों - शाब्दिक या लाक्षणिक रूप से - खोज रीढ़ की हड्डी है। एक अच्छे ह्यूरिस्टिक के साथ A* एक बेवकूफ उद्देश्य के साथ एक “स्मार्ट” मॉडल को हराता है।
अनुकूलन इसे सामान्य करता है: आप एक उद्देश्य फ़ंक्शन और बाधाएँ निर्धारित करते हैं, फिर उस सर्वोत्तम समाधान की ओर धकेलते हैं जिसे आप अपने पास मौजूद कंप्यूट के साथ वहन कर सकते हैं। रैखिक प्रोग्रामिंग, मिश्रित-पूर्णांक प्रोग्रामिंग, विकासवादी एल्गोरिदम - समय सीमा के तहत “लगभग अच्छा” से “पर्याप्त अच्छा” तक पहुँचने का वर्णमाला सूप।
- पक्ष: सिद्ध करने योग्य गारंटी, नियंत्रणीय ट्रेड-ऑफ
- विपक्ष: मॉडलिंग मुश्किल है; उद्देश्यों को सूक्ष्म, विनाशकारी तरीकों से गलत तरीके से निर्दिष्ट किया जा सकता है
जब एक मॉडल कुछ अजीब करता है, तो ऐसा अक्सर इसलिए होता है क्योंकि आपको वही मिला जो आपने मांगा था - बस वह नहीं जो आपका मतलब था।
संभाव्य तर्क: अनिश्चितता एक विशेषता है
बयेसियन नेटवर्क, हिडन मार्कोव मॉडल, कलमन फिल्टर: क्लासिक्स। दुनिया को निश्चित होने का दिखावा करने के बजाय, ये विधियाँ अनिश्चितता का एक रनिंग टैली रखती हैं और उन कार्यों को चुनती हैं जो इसके खिलाफ बचाव करते हैं। दूसरे शब्दों में, यथार्थवाद।
- पक्ष: अनिश्चितता के तहत सिद्धांत; व्याख्या योग्य संरचना
- विपक्ष: उच्च-आयामी गड़बड़ी में स्केलिंग दर्दनाक है; धारणाएँ वापस काटती हैं
संभाव्य विधियाँ वही हैं जो अधिकांश कृत्रिम बुद्धिमत्ता पीपीटी डेक “आत्मविश्वास स्कोर” के साथ इशारा करते हैं। आत्मविश्वास संभावना नहीं है। संभावना रसीदों के साथ गणित है।
सुदृढीकरण सीखना: पुरस्कार नियम बनाते हैं
सुदृढीकरण सीखना - क्यू-लर्निंग, नीति ग्रेडिएंट, अभिनेता-आलोचक वेरिएंट - निर्णय लेने को स्कोरबोर्ड के साथ परीक्षण और त्रुटि के रूप में फ़्रेम करता है। आप क्रियाएं चुनते हैं, पर्यावरण आपको पुरस्कार देता है, और आप अपनी नीति को उन कार्यों की ओर धकेलते हैं जो समय के साथ भुगतान करते हैं। यह वह जगह है जहाँ AI वास्तव में “तय करता है”, इस अर्थ में कि यह एक खेल खेलता है - वह खेल जिसे आपने डिज़ाइन किया है, चाहे आपको इसका एहसास हो या न हो।
- पक्ष: अनुक्रमिक निर्णय कार्यों के लिए मजबूत; उन रणनीतियों को सीखता है जिन्हें आपने स्पष्ट रूप से कोड नहीं किया है
- विपक्ष: इनाम हैकिंग; नमूना अक्षमता; नाजुक सामान्यीकरण जब दुनिया थोड़ा भी बदल जाती है
लोग यह दावा करना पसंद करते हैं कि सुदृढीकरण सीखना “मनुष्य कैसे सीखते हैं” की तरह है। वास्तव में नहीं। मनुष्यों में प्राथमिकताएं, शरीर, ऊब और सामान्य ज्ञान होता है। RL एजेंटों के पास एक इनाम फ़ंक्शन और बकवास तब तक करने का अनंत धैर्य होता है जब तक कि यह काम न करे।
योजना और POMDPs: दुनिया आधी दिखाई देती है
वास्तविक दुनिया में निर्णय लेना शायद ही कभी सही जानकारी के साथ आता है। आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाएं (POMDPs) उस अनिश्चितता को स्पष्ट रूप से मॉडल करती हैं: आप राज्य को नहीं जानते हैं, केवल अवलोकन जो इसका संकेत देते हैं। आंशिक दर्शनीयता के तहत योजना बनाने से आप एक विश्वास स्थिति बनाए रखने के लिए मजबूर हो जाते हैं - “जो हमने देखा है, उसे देखते हुए हम क्या सोचते हैं कि हो रहा है” के लिए एक फैंसी शब्द।
- पक्ष: अनिश्चितता के बारे में ईमानदार; समझदार कार्रवाई के लिए औपचारिक नींव
- विपक्ष: कम्प्यूटेशनल रूप से क्रूर; अनुमान एक आवश्यक बुराई है
यदि कृत्रिम बुद्धिमत्ता पीपीटी में आपका निर्णय लेना कम से कम “POMDP” की फुसफुसाहट नहीं करता है, तो यह वास्तविकता को एक वैकल्पिक सेटिंग के रूप में मान रहा है।
हाइब्रिड सिस्टम और न्यूरो-सिम्बोलिक मैशअप
तंत्रिका नेटवर्क देखते हैं और लेबल करते हैं; प्रतीकात्मक प्रणाली व्याख्या करती है और बाधा डालती है। उन्हें एक साथ गोंद करें और आपको कुछ उपयोगी मिलेगा। धारणा के लिए विजन मॉडल, सुरक्षा के लिए नियम। उम्मीदवार कार्यों के लिए भाषा मॉडल, व्यवहार्यता के लिए योजनाकार। ये संकर सिर्फ ट्रेंडी नहीं हैं; वे इंजीनियरिंग विनम्रता को दर्शाते हैं: एक सीखा हुआ मॉडल का उपयोग करें जहां धारणा मुश्किल है, स्पष्ट तर्क का उपयोग करें जहां दांव ऊंचे हैं।
- पक्ष: व्यावहारिक, नियंत्रणीय, दोनों में सर्वश्रेष्ठ
- विपक्ष: एकीकरण सिरदर्द, भंगुर इंटरफेस, दोहराया गया जटिलता
निर्णय लूप: मशीनों के लिए OODA, कम परिवर्णी शब्दों के साथ
अधिकांश AI निर्णय प्रणालियाँ एक लूप चलाती हैं: निरीक्षण करें, अनुमान लगाएं, योजना बनाएं, कार्य करें, दोहराएं। स्लाइड डेक को मंडलियां और तीर पसंद हैं; महत्वपूर्ण बिट तनाव है। प्रत्येक चरण समझौता करता है। निरीक्षण करें (लेकिन सब कुछ नहीं)। अनुमान लगाएं (लेकिन अपनी अनिश्चितता बनाए रखें)। योजना बनाएं (लेकिन समय के अनुसार)। कार्य करें (लेकिन दुनिया को न जलाएं)।
- धारणा से लेकर प्रतीकों तक: कच्चे डेटा से लेकर विशेषताओं तक। जानकारी खो दें, उम्मीद है कि सही जानकारी।
- भविष्यवाणी से लेकर विश्वास तक: सुविधाओं से लेकर इस बात के वितरण तक कि वास्तव में क्या हो रहा है।
- नीति से योजना तक: वर्तमान विश्वास से लेकर कार्रवाई अनुक्रम तक, जो कंप्यूट और जोखिम भूख से बंधा है।
- कार्रवाई से लेकर प्रतिक्रिया तक: कार्य करें, परिणामों को मापें, मान्यताओं और मापदंडों को अपडेट करें। यदि आपका लूप अनुभव के साथ बेहतर नहीं होता है, तो यह स्वचालन है, AI नहीं।
कृत्रिम बुद्धिमत्ता पीपीटी में निर्णय लेने में सबसे बड़ी गलती यह दिखावा करना है कि लूप साफ है। उत्पादन में, सेंसर बहते हैं, मनुष्य हस्तक्षेप करते हैं और मेट्रिक्स एक-दूसरे से लड़ते हैं। महान सिस्टम वे हैं जो दुनिया के कंधा झुकाने पर सुंदर ढंग से खराब हो जाते हैं।
एल्गोरिदम में गहरी डुबकी (बज़वर्ड सॉस के बिना)
आइए वास्तव में उन एल्गोरिदम पर एक नज़र डालें जिनका लोग उपयोग करते हैं - वे क्या हल करते हैं, वे कैसे विफल होते हैं और वे कहाँ चमकते हैं।
मल्टी-आर्म्ड बैंडिट्स: नाटक के बिना अन्वेषण
जब आपको यह पता लगाने के साथ कि क्या काम करता है, उसे भुनाने के लिए नई चीजों को आज़माने को संतुलित करने की आवश्यकता होती है - विज्ञापन चयन, अनुशंसा बदलाव, यूआई प्रयोग - मल्टी-आर्म्ड बैंडिट्स गति के लिए ए/बी परीक्षण को हराते हैं। थॉम्पसन सैंपलिंग व्यावहारिक पसंदीदा है: बायेसियन, सरल, प्रभावी। यह एक पूर्ण RL एजेंट होने का दिखावा नहीं करता है। यह इसके लिए बेहतर है।
- इसके लिए उपयोग करें: प्रतिक्रिया के साथ तेजी से ऑनलाइन निर्णय लेना
- इसके लिए उपयोग न करें: लंबी-क्षितिज रणनीति, जटिल निर्भरताएँ, सुरक्षा-महत्वपूर्ण कुछ भी
मोंटे कार्लो ट्री सर्च: बजट पर दूरदर्शिता खेलना
MCTS भविष्य के नमूनों को लेता है, उन सभी को नहीं, बस पर्याप्त प्रशंसनीय लोगों को। यह एल्गोरिथम रूप से “आइए इस बारे में सोचें, लेकिन पूरी दोपहर नहीं” के बराबर है। खेलों और संरचित योजना में, यह जीतता है। खुले अंत वाली गड़बड़ियों में, यह उस संरचना को भ्रमित करता है जो वहां नहीं है।
- इसके लिए बढ़िया: बंधे हुए, अच्छी तरह से मॉडल किए गए निर्णय स्थान (खेल, विवश योजना)
- इसके लिए कमजोर: अनमोडल अराजकता (मनुष्य, बाजार, ट्विटर)
गतिशील प्रोग्रामिंग: एक पकड़ के साथ इष्टतम
बेलमैन समीकरण, मूल्य पुनरावृत्ति, नीति पुनरावृत्ति। नियंत्रण सिद्धांत के क्राउन ज्वेल्स, घातीय विकास से बने मुकुट के साथ। यदि राज्य स्थान फट जाता है, तो आपका आशावाद भी।
- इसके लिए बढ़िया: ज्ञात गतिशीलता के साथ छोटे से मध्यम मार्कोवियन दुनिया
- इसके लिए कमजोर: बाकी सब कुछ, जब तक कि आप अनुमान न लगाएं (जो कि हमेशा कहना है)
ह्यूरिस्टिक्स और मेटाहेरिस्टिक्स: अप्रतिम वर्कहॉर्स
सिम्युलेटेड एनीलिंग, टैबू सर्च, जेनेटिक एल्गोरिदम। ये महिमा मंडित “बहुत सी चीजों को आज़माएं, सबसे अच्छा रखें, चलते रहें” हैं। यह एक अपमान नहीं है। अधिकांश वास्तविक निर्णय पैमाने पर इस तरह दिखते हैं क्योंकि वास्तविकता आपको घड़ी के समाप्त होने पर बैठने और एक सटीक समीकरण को हल नहीं करने देगी।
- इसके लिए बढ़िया: कठिन कॉम्बिनेटरियल समस्याएँ जहाँ इष्टतम एक कल्पना है
- इसके लिए कमजोर: डोमेन जहाँ गारंटी गति से अधिक मायने रखती है
कारण मॉडल: क्योंकि सहसंबंध एक कलाकार है
कारण निर्णय लेना - हाँ, पर्ल, ग्राफ़, हस्तक्षेप - आपको “क्या होगा यदि हम वास्तव में कुछ बदलते हैं?” पूछने का एक तरीका देता है, इसके बजाय “पिछली बार क्या हुआ?” यदि कृत्रिम बुद्धिमत्ता पीपीटी में आपका निर्णय लेना कारण अनुमान का नाम नहीं देता है, लेकिन आपका उत्पाद ऐसे विकल्प बनाता है जो लोगों को प्रभावित करते हैं, तो आप अफसोस के लिए एक अनुशंसा इंजन बना रहे हैं।
- इसके लिए बढ़िया: नीति, चिकित्सा, द्वितीयक प्रभावों के साथ उत्पाद परिवर्तन
- इसके लिए कमजोर: विशुद्ध रूप से भविष्य कहनेवाला कार्य जहाँ प्रतितथ्यात्मक मायने नहीं रखते
दो कठिन समस्याएँ: उद्देश्य और बाधाएँ
AI निर्णय लेने में पहला झूठ यह है कि हम “प्रदर्शन” को अनुकूलित कर रहे हैं। बिल्कुल क्या अनुकूलित करना? क्लिक? अपटाइम? राजस्व? सुरक्षा? निष्पक्षता? विलंबता? यदि आप इसे स्पष्ट नहीं करते हैं, तो आपके पास कोई सिस्टम नहीं है - आपके पास एक इच्छा है। उद्देश्य फ़ंक्शन उत्पाद है। इसे कानूनी बॉइलरप्लेट की तरह समझें और यह कानूनी बॉइलरप्लेट की तरह काटेगा।
- बहु-उद्देश्यीय ट्रेड-ऑफ बग नहीं हैं। वे नौकरी हैं। उन्हें स्पष्ट रूप से भारित करें, दर्द को ईमानदारी से मापें और यह दिखावा न करें कि पारेटो फ्रंट नैतिक कम्पास हैं।
- बाधाएँ बाद की सोच नहीं हैं। वे वही हैं जो आप नुकसान को बांधते हैं। कठिन बाधाएँ (नहीं, वास्तव में, कभी भी X से अधिक न हों) नरम दंडों से अलग हैं (कृपया X से अधिक न हों जब तक कि यह लाभदायक न हो)। उन्हें इस तरह लिखें जैसे आपका मतलब है।
उद्योग का पसंदीदा आत्म-भ्रम यह सोचना है कि अधिक डेटा एक बुरे उद्देश्य को ठीक करता है। ऐसा नहीं होता। यह गलत चीज को बहुत कुशल बनाता है।
व्याख्या योग्यता वैकल्पिक नहीं है; यह संदर्भ है
व्याख्या योग्य एआई के लिए धक्का को अक्सर अनुपालन उपद्रव के रूप में तैयार किया जाता है। यह उल्टा है। “व्याख्या योग्यता” वह तरीका है जिससे आप उन लोगों के साथ विश्वास बनाते हैं जो निर्णय पर भरोसा करते हैं - भले ही वे इंजीनियर हों। आपको यह जानने की जरूरत है कि मॉडल ने “बाएं मुड़ें” क्यों कहा, नियामक को खुश करने के लिए नहीं, बल्कि दुर्घटना होने से पहले डिबग करने के लिए।
- पोस्ट-हॉक स्पष्टीकरण (सैलेंसी मैप्स, SHAP) कुछ भी नहीं से बेहतर हैं, लेकिन वे लिपस्टिक हैं - एक सुअर पर उपयोगी लिपस्टिक जो एक रेसहॉर्स हो सकती है।
- निर्मित व्याख्यात्मकता (मोनोटोनिक मॉडल, सामान्यीकृत योगात्मक मॉडल, सीखा हुआ थ्रेसहोल्ड वाले नियम) पूर्वानुमेय व्यवहार के लिए कुछ कच्ची सटीकता का व्यापार करते हैं। कई डोमेन में, यह एक सौदा है।
यदि कृत्रिम बुद्धिमत्ता पीपीटी में आपका निर्णय लेना एक रंगीन हीटमैप दिखाता है और इसे एक दिन कहता है, तो आपने ठीक से सीख लिया है कि उत्पादन में एक सिस्टम कैसे नहीं चलाया जाए।
बड़े भाषा मॉडल और निर्णय मृगतृष्णा
हाँ, LLM तय कर सकते हैं - या कम से कम वे अलौकिक प्रवाह के साथ निर्णय प्रस्तावित कर सकते हैं। वे विकल्प स्थानों को स्केच करने, ट्रेड-ऑफ की सूची बनाने, यहां तक कि एक योजना लूप के आसपास मचान लिखने में बहुत अच्छे हैं। लेकिन मोहक भाग सबसे खराब भाग है: वे आत्मविश्वास से भरे लगते हैं, तब भी जब वे इसे बना रहे होते हैं।
सुरक्षित पैटर्न “मॉडल को तय करने देना” नहीं है। यह है: मॉडल को सुझाव देने दें, नियमों के साथ विवश करें, एक योजनाकार या ऑप्टिमाइज़र के साथ मान्य करें, और हर कदम को लॉग करें। LLM को लूप में रखें, पहिया पर नहीं। आप अपनी कार को स्वत: सुधार नहीं करने देंगे।
स्लाइड से सिस्टम तक: उत्पादन में वास्तव में क्या काम करता है
AI में एक कार्यात्मक निर्णय लेने वाला सिस्टम स्लाइड की तरह नहीं दिखता है। यह इस तरह दिखता है:
- एक स्पष्ट उद्देश्य जो आशा नहीं, बल्कि वास्तविकता को दर्शाता है।
- बाधाएँ जो कठोर हैं जहाँ उन्हें होना चाहिए, नरम जहाँ वे हो सकते हैं।
- एक डेटा पाइपलाइन जो अपने स्वयं के लापता टुकड़ों को स्वीकार करती है।
- एक निर्णय इंजन जो विधियों को मिलाता है: सीखा हुआ धारणा, संभाव्य अनुमान और एक नीति जो कह सकती है “मुझे यकीन नहीं है।”
- अवलोकनीयता: ट्रेसिंग, स्पष्टीकरण और रोलबैक।
- अधिकार को ओवरराइड करने के लिए मानव निरीक्षण।
उस आखिरी भाग को कुछ हलकों में भोंडा माना जाता है। “AI को स्वायत्त होना चाहिए।” शायद। या हो सकता है कि व्यावसायिक विनम्रता प्रेस-रिलीज़ मकिस्मो को हरा दे।
अपरिहार्य “उपकरण” प्रश्न
आप पुस्तकालयों और सेवाओं के एक नक्षत्र के साथ इस निर्णय स्टैक को इकट्ठा कर सकते हैं। बहुत सारे अच्छे हैं। कम संगत हैं। सर्वश्रेष्ठ सेटअप घर्षण को कम करते हैं - संकेत लिखना, आउटपुट का निरीक्षण करना, तर्क को जोड़ना, किनारे के मामलों का परीक्षण करना - और गार्ड्रेल को वहां रखना आसान बनाते हैं जहाँ वे मायने रखते हैं।
एक व्यावहारिक उदाहरण के रूप में Sider.AI पर विचार करें। यह आपको एक संवेदनशील प्राणी को बेचने की कोशिश नहीं कर रहा है। यह टूलिंग है जो वास्तव में गन्दा मध्य को कुश्ती करने में मदद करता है: तर्क श्रृंखला का मसौदा तैयार करना, एल्गोरिथम विकल्पों की तुलना करना और LLM सहायता को स्लॉट करना जहाँ यह प्रदर्शनकारी के बजाय उत्पादक है। यह अनाकर्षक बिट्स में अच्छा है - पुनरावृत्ति, निरीक्षण और “संस्करण 12 और 13 के बीच क्या बदला?” प्रचार की दुनिया में, “वास्तव में काम करता है” एक महाशक्ति है। AI पीपीटी सर्किट में निर्णय लेने से आम मिथक
- मिथक: “अधिक डेटा बेहतर मॉडल को हराता है।” कभी-कभी। अक्सर यह बुरी सोच को हरा देता है। मामूली डेटा के साथ एक स्पष्ट उद्देश्य गलत मीट्रिक पर लक्षित एक फायरहोस को मात दे सकता है।
- मिथक: “ब्लैक बॉक्स अपरिहार्य है।” नहीं। यह कभी-कभी सुविधाजनक होता है। आप अपारदर्शी कोर के चारों ओर व्याख्या योग्य परतें बना सकते हैं। आपको बस परवाह करनी होगी।
- मिथक: “अन्वेषण जोखिम भरा है।” निश्चित रूप से - और इसलिए ठहराव है। बैंडिट्स एक कारण से मौजूद हैं।
- मिथक: “स्वायत्तता लक्ष्य है।” स्वायत्तता एक साधन है। विश्वसनीयता लक्ष्य है।
केसलेट्स: जहाँ रबर सड़क से मिलता है
- लॉजिस्टिक्स रूटिंग: व्यवहार्यता के लिए ए *, लागत के लिए MILP, अंतिम-मील अराजकता के लिए ह्यूरिस्टिक्स। अनिश्चितता के साथ एक मांग पूर्वानुमान में छिड़कें और आपको एक मजबूत प्रणाली मिलती है। नहीं, एक एकल एंड-टू-एंड डीप नेट सप्ताह दो में बेहतर नहीं करेगा जब शहर एक पुल बंद कर देता है।
- चिकित्सा जाँच: कठोर सुरक्षा के लिए नियम, जोखिम स्कोरिंग के लिए संभाव्य मॉडल, आउटलेयर के लिए मानव-इन-द-लूप। सिस्टम का गुण गति नहीं है; यह जानना है कि कब धीमा होना है।
- सामग्री मॉडरेशन: जाँच के लिए क्लासीफायर, कानूनी बाधाओं के लिए नीति नियम, मनुष्यों को अपील। आप इसे “हल” नहीं करेंगे, आप इसे प्रबंधित करेंगे - एक लॉन की तरह जो बग़ल में बढ़ता है।
एक निर्णय प्रणाली का न्याय कैसे करें (स्लाइड डेक नहीं)
तीन प्रश्न पूछें:
- आप वास्तव में क्या अनुकूलित कर रहे हैं? यदि उत्तर में एक वाक्य से अधिक या एक वाक्य से कम लगता है, तो चिंता करें।
- जब दुनिया बदलती है तो क्या होता है? यदि उत्तर “पुनः प्रशिक्षित” है, तो उन्होंने बहाव के बारे में नहीं सोचा है।
- आपको कैसे पता चलेगा कि आप गलत हैं? यदि उत्तर मौन है, तो दूर चले जाओ।
अपनी खुद की गहरी डुबकी का निर्माण: एक व्यावहारिक रूपरेखा
यदि आप कृत्रिम बुद्धिमत्ता पीपीटी में अपना निर्णय ले रहे हैं - क्योंकि हम सभी दोषी हैं, अंततः - इसे ईमानदारी के आसपास बनाएं:
- निर्णय लूप और अपने उद्देश्य फ़ंक्शन से प्रारंभ करें। एक स्लाइड, सादा पाठ।
- “सीखने” को “तय करने” से अलग करें। दो स्लाइड, केवल उदाहरण।
- अपनी बाधाएँ दिखाएँ और वे कठोर क्यों हैं। एक स्लाइड, कोई सुखोक्ति नहीं।
- धारणा, अनुमान, योजना के लिए एल्गोरिदम चुनें। प्रत्येक के लिए, विफलता मोड की सूची बनाएं।
- निगरानी की व्याख्या करें: बहाव, ओवरराइड, घटना प्लेबुक।
- अनसुलझे जोखिमों के साथ समाप्त करें। यदि आपके पास कोई नहीं है, तो आप अभी तक नहीं हुए हैं।
“मुझे नहीं पता” कहने की शांत शक्ति
AI सिस्टम्स में परहेज करने की क्षमता होनी चाहिए। इसे अनिश्चितता-जागरूक निर्णय लेने, चयनात्मक भविष्यवाणी, जो भी चाहें कहें। 'पास' कहने की क्षमता एक उपकरण और एक दायित्व के बीच का अंतर है। मनुष्य यह स्वाभाविक रूप से करते हैं। हमने बहुत सारे ऐसे सिस्टम बनाए हैं जो ऐसा नहीं कर सकते।
यह हमें कहाँ छोड़ता है
कृत्रिम बुद्धिमत्ता में निर्णय लेना कोई जादू नहीं है, और एल्गोरिदम में गहराई से उतरना किसी नए धर्म के लिए पिच डेक की तरह नहीं पढ़ना चाहिए। यह इंजीनियरिंग है—सावधानीपूर्वक उद्देश्य, स्पष्ट बाधाएं, स्पष्ट अनिश्चितता और विश्वसनीयता के लिए सुंदरता का व्यापार करने की इच्छा। अगली बार जब कोई PPT आपको बताए कि सिस्टम ने 'निर्णय लेना सीखा', तो उससे पूछें कि तब क्या होता है जब पुल टूटा हुआ है, मीट्रिक गलत है, या उपयोगकर्ता कुछ ऐसा करता है जिसकी किसी ने भविष्यवाणी नहीं की थी।
यदि उत्तर एक बड़ा तीर है, तो आपके पास अपना निर्णय है।
कीवर्ड-जागरूक परिशिष्ट (बिना कीवर्ड स्टफिंग के)
- कृत्रिम बुद्धिमत्ता में निर्णय लेना: स्पष्ट उद्देश्यों और बाधाओं का उपयोग करके अनिश्चितता के तहत कार्यों को चुनने का अभ्यास।
- एल्गोरिदम में गहराई से उतरना: कोई रूपक नहीं—खोज, अनुकूलन, संभाव्य अनुमान, सुदृढीकरण सीखना, योजना बनाना, कारण मॉडलिंग, संकर।
- व्यावहारिक उपाय: तरीकों को मिलाएं, बाधाओं को सख्त करें, अनिश्चितता को अपनाएं, हर चीज को मापें, और एक स्लाइड को एक सिस्टम होने का दिखावा करने की इच्छा का विरोध करें।
सामान्य प्रश्न
Q1: कृत्रिम बुद्धिमत्ता में निर्णय लेना वास्तव में क्या है?
यह एक स्पष्ट उद्देश्य और बाधाओं के साथ अनिश्चितता के तहत कार्यों को चुनना है—न कि भावनाओं से। दिलचस्प हिस्सा मॉडल नहीं है; यह है कि मॉडल, डेटा और गार्डरेल एक साथ कैसे काम करते हैं जब दुनिया प्रशिक्षण सेट से मेल खाने से इनकार करती है।
Q2: AI निर्णय लेने में गहराई से उतरने के लिए कौन से एल्गोरिदम मायने रखते हैं?
खोज, अनुकूलन, संभाव्य तर्क, सुदृढीकरण सीखना, योजना बनाना और कारण मॉडल रीढ़ हैं। संकर सिस्टम जो सीखे हुए धारणा को प्रतीकात्मक नियमों के साथ जोड़ते हैं, वास्तव में उत्पादन में जीवित रहते हैं।
Q3: क्या बड़े भाषा मॉडल निर्णय लेने के लिए अच्छे हैं?
वे विकल्प प्रस्तावित करने और योजनाओं को तैयार करने में बहुत अच्छे हैं, लेकिन बिना जांच किए निर्णय लेने वालों के रूप में भयानक हैं। LLM का उपयोग लूप में करें: सुझाव दें, बाधित करें, मान्य करें—फिर हर चरण को लॉग करें जैसे कि आपको इसे एक वकील को समझाने की आवश्यकता होगी।
Q4: कृत्रिम बुद्धिमत्ता PPT में निर्णय लेने में सबसे बड़ी गलतियों से मैं कैसे बचूँ?
सीखने को निर्णय लेने से अलग करें, उद्देश्य को परिभाषित करें और बाधाओं को बताएं। विफलता मोड और निगरानी दिखाएं—यदि आपकी डेक पूरी तरह से तीर है और कोई ट्रेड-ऑफ नहीं है, तो यह थिएटर है, इंजीनियरिंग नहीं।
Q5: Sider.AI AI निर्णय कार्यप्रवाह में कहाँ फिट बैठता है?
Sider.AI गंदे मध्य में मदद करता है—तर्क कार्यप्रवाहों को लिखना, तुलना करना और निरीक्षण करना—ताकि आप LLM सहायता को वहां रख सकें जहाँ यह काम करता है न कि जहाँ मार्केटिंग चाहती है। व्यावहारिक पुनरावृत्ति के बारे में सोचें, जादू की छड़ी के बारे में नहीं।