How do I prepare data to fine-tune my own AI model with Tinker API?

Use JSONL with clear instruction–response or chat-style pairs. Keep tone consistent, anonymize sensitive info, and hold out 10–20% for testing so you don’t fool yourself with inflated scores.

Is fine-tuning with Tinker API better than prompt engineering?

Use prompts for quick tone tweaks and simple behaviors; use fine-tuning when you need durable style, structure, or domain patterns. Many teams combine both—RAG for facts, fine-tune for voice.

How much data do I need to fine-tune a model with Tinker API?

Quality beats quantity. A few hundred strong examples can outperform thousands of noisy ones. Start small, evaluate, then add targeted examples where the model struggles.

How do I deploy a fine-tuned model in Tinker API?

After training, Tinker returns a model ID you can call via the standard completions or chat endpoint. Set a helpful system prompt, tune temperature, and monitor outputs in real traffic.

How do I stop my fine-tuned model from hallucinating?

Train with examples that admit uncertainty, lower temperature, and pair with retrieval for facts. Make “cite sources” or “say you don’t know” part of the instruction and the training data.

कभी आपने ये चाहा है कि आपकी AI एक मौसम के रोबोट की तरह कम और...आपकी तरह ज़्यादा लगे?

ज़रा सोचिए: आप अपनी AI से एक ग्राहक के ईमेल का सारांश लिखने के लिए कहते हैं, और वो ऐसे जवाब देती है जैसे वो शिपिंग फ़ॉरकास्ट का वर्णन कर रही हो। तकनीकी रूप से सही; आध्यात्मिक रूप से बेकार। आप असल में ये चाहते हैं कि आपकी AI—आपका लहजा, आपकी शब्दावली, आपकी प्राथमिकताएँ—आपके गैरेज में एक रिसर्च लैब बनाए बिना ही मिल जाए।

यहीं पर फाइन-ट्यूनिंग काम आती है। और अगर आपने "Tinker API" के बारे में सुना है, तो आप सही जगह पर हैं। यह Tinker API के साथ अपने खुद के AI मॉडल को फाइन-ट्यून करने के लिए एक गाइड है—इसलिए अगली बार जब आप "एक जवाब ड्राफ्ट करें" टाइप करें, तो आपको कुछ ऐसा मिले जो आपकी टीम की तरह लगे, HAL 9000 के चचेरे भाई की तरह नहीं।

हम पूरी प्रक्रिया के बारे में बात करेंगे: फाइन-ट्यूनिंग का क्या मतलब है, अपने डेटा को कैसे तैयार करें, Tinker API के साथ फाइन-ट्यून कैसे चलाएं, और अपने बजट (या अपने धैर्य) को कैसे बचाएं। मैं आपको ये भी बताऊँगा कि परेशानियाँ कहाँ रहती हैं—क्योंकि फाइन-ट्यूनिंग शक्तिशाली है, लेकिन ये कोई परी माँ नहीं है।

कीवर्ड पर ध्यान दें: हम "Tinker API का उपयोग कैसे करें" बहुत बार कहेंगे, क्योंकि आप इसी सवाल के लिए आए हैं। हम "अपने खुद के AI मॉडल को फाइन-ट्यून करें," "Tinker API ट्यूटोरियल," "फाइन-ट्यूनिंग के लिए डेटासेट की तैयारी," और "फाइन-ट्यून किए गए मॉडल को डिप्लॉय करना" जैसे लंबे शब्दों का भी इस्तेमाल करेंगे। अगर ये बहुत ज़्यादा लगता है, तो चिंता न करें—मैं इसे इंसानी बनाए रखूँगा।

फाइन-ट्यूनिंग क्या है—और क्या नहीं है

अगर एक सामान्य AI मॉडल एक स्विस आर्मी नाइफ है, तो फाइन-ट्यूनिंग का मतलब है कि आप कह रहे हैं, "सुनो, चाकू, हम तुम्हें पैकेज खोलने में बहुत, बहुत अच्छा बनाने जा रहे हैं।" आप चाकू का आविष्कार नहीं कर रहे हैं। आप इसे अपने पसंदीदा कार्डबोर्ड के बारे में सिखा रहे हैं।

व्यवहार में, फाइन-ट्यूनिंग का मतलब है कि आप एक बेस मॉडल (जो पहले से ही इंटरनेट टेक्स्ट के समुद्रों पर प्रशिक्षित है) लेते हैं और इसे अपने उदाहरणों—अपनी लेखन शैली, अपने डोमेन-विशिष्ट प्रश्नोत्तर, अपनी सहायता स्क्रिप्ट—के साथ थोड़ा बदलते हैं ताकि ये आपकी पसंद के अनुसार प्रतिक्रिया दे। यह मॉडल को एक स्टाइल गाइड और अभ्यास क्विज़ का एक स्टैक सौंपने जैसा है।

लेकिन फाइन-ट्यूनिंग कोई जादुई मंत्र नहीं है। ये अचानक उन तथ्यों को नहीं सीखेगा जिन्हें उसने कभी नहीं देखा है जब तक कि आपका डेटा उन पैटर्न को न सिखाए। ये बड़ी मालिकाना दस्तावेज़ों को भी "याद" नहीं रखेगा जब तक कि आप प्रतिनिधि स्निपेट न दें। और अगर आपका डेटा अस्त-व्यस्त, विरोधाभासी या छोटा है, तो आपका मॉडल उन आदतों को उसी तरह अपना लेगा जैसे एक किशोर रॉक बैंड अपने ड्रमर की गति को अपनाता है।

त्वरित यात्रा कार्यक्रम

Tinker API का उपयोग करके अपने खुद के AI मॉडल को फाइन-ट्यून करने का एक विहंगम दृश्य यहाँ दिया गया है:

Tinker API में एक बेस मॉडल चुनें।

प्रॉम्प्ट और आदर्श प्रतिक्रियाओं के साथ एक साफ, संतुलित डेटासेट तैयार करें।

अपने डेटासेट को Tinker पर अपलोड करें।

स्पष्ट हाइपरपैरामीटर के साथ एक फाइन-ट्यूनिंग जॉब बनाएँ।

प्रशिक्षण की निगरानी करें, एक हेल्ड-आउट टेस्ट सेट के साथ परिणामों का मूल्यांकन करें।

उत्पादन में अपने फाइन-ट्यून किए गए मॉडल को डिप्लॉय और कॉल करें।

जब आपको अजीब चीज़ें दिखें तो दोहराएँ।

हम स्टेप-बाय-स्टेप चलेंगे, जिसमें आप कोड-शैली के उदाहरणों को कॉपी-पेस्ट कर सकते हैं, और टिप्स जो मुझे अपनी स्क्रीन पर चिल्लाने से बचाते हैं।

स्टेप 1: अपने बेस मॉडल को ऐसे चुनें जैसे आप एक किराये की कार चुनते हैं

आप मैनहट्टन में समानांतर-पार्क करने के लिए 15-सीट वाली वैन किराए पर नहीं लेंगे। इसी तरह, अगर आपको लाखों दैनिक अनुरोधों के लिए तेज़, सस्ते उत्तरों की आवश्यकता है तो एक विशाल मॉडल न चुनें। Tinker API आमतौर पर कुछ मॉडल परिवार प्रदान करता है—हल्का, मध्यम आकार का, और "वाह, ये तो बहुत स्मार्ट है।"

अगर आपको गति और लागत बचत की आवश्यकता है: छोटे बेस को चुनें।

अगर आपको बारीकियों, तर्क या लंबे समय तक लिखने की आवश्यकता है: बड़े बेस को चुनें।

अगर आपके डोमेन में बहुत सारे शब्दजाल हैं (चिकित्सा, कानूनी, सहायता मैक्रो): मध्यम से बड़े मॉडल ज़्यादा सफलतापूर्वक फाइन-ट्यून होते हैं।

प्रो टिप: प्रोटोटाइप के लिए छोटे से शुरुआत करें। अगर आपके प्रमुख मीट्रिक बढ़ते हैं, तो उसी डेटासेट को एक बड़े बेस पर ले जाएँ।

स्टेप 2: अपने डेटासेट को एक रेसिपी कार्ड की तरह तैयार करें, न कि अपने जंक ड्रॉर की तरह

गुणवत्ता के लिए आपका डेटासेट सबसे बड़ा लीवर है। मॉडल नकल करके सीखता है; अगर उदाहरण अस्पष्ट हैं, तो मॉडल अस्पष्ट होना सीखता है। अगर वे कुरकुरे, सुसंगत और विविध हैं, तो आपका मॉडल एक मददगार सहकर्मी बन जाता है जो वास्तव में मेमो पढ़ता है।

स्पष्ट निर्देश-प्रतिक्रिया जोड़े के साथ एक JSONL (JSON लाइन्स) फॉर्मेट का लक्ष्य रखें। चैट-शैली फाइन-ट्यूनिंग के लिए, सिस्टम/उपयोगकर्ता/सहायक जैसी भूमिकाएँ शामिल करें। प्रत्येक उदाहरण को छोटा-से-मध्यम रखें; दर्जनों उच्च-गुणवत्ता वाले उदाहरण एक हजार शोर वाले लोगों को हरा देते हैं।

उदाहरण (निर्देश-शैली):

{"instruction": "इस सहायता टिकट का सारांश 2 वाक्यों में, दोस्ताना लहजे में दें।", "input": "ग्राहक 'ट्रैक ऑर्डर' पर क्लिक करने पर 404 त्रुटि की रिपोर्ट करता है", "output": "इसे फ़्लैग करने के लिए धन्यवाद! साइट पर ग्राहकों द्वारा 'ट्रैक ऑर्डर' पर क्लिक करने पर 404 दिखाता है। हम ऑर्डर-ट्रैकिंग पृष्ठ में एक टूटे हुए लिंक की जाँच कर रहे हैं और एक समाधान के साथ फ़ॉलो अप करेंगे।"}

उदाहरण (चैट-शैली):

{"messages": [ {"role": "system", "content": "आप एक संक्षिप्त, दोस्ताना सहायता एजेंट हैं। सरल अंग्रेजी का प्रयोग करें।"}, {"role": "user", "content": "मेरा सब्सक्रिप्शन नवीनीकृत हो गया लेकिन कार्ड समाप्त हो गया था। मदद करें?"}, {"role": "assistant", "content": "परेशानी के लिए माफ़ करें! मैंने आपकी योजना को फिर से जाँच लिया है—समाप्त हो चुके कार्ड पर नवीनीकरण का प्रयास किया गया। कृपया बिलिंग पृष्ठ पर अपने कार्ड को अपडेट करें; इसे सहेजने के बाद मैं चार्ज को फिर से आज़माऊँगा।"} ]}

फाइन-ट्यूनिंग के लिए डेटासेट तैयार करने के लिए युक्तियाँ:

निरंतरता रानी है। हमेशा एक ही लहजे, साइन-ऑफ और संरचना का उपयोग करें।

अपने विषयों को संतुलित करें। अगर 90% उदाहरण रिफंड हैं, तो आपका मॉडल रिफंड परी बन जाता है।

मुश्किल मामलों को लेबल करें। नकारात्मक उदाहरण शामिल करें (क्या नहीं कहना है), अगर Tinker API एक वरीयता संकेत का समर्थन करता है।

इसे सुरक्षित रखें। व्यक्तिगत डेटा हटाएँ। अगर आप संवेदनशील जानकारी के साथ काम करते हैं, तो गुमनाम करें या संश्लेषित करें।

अपने डेटा का 10-20% टेस्ट सेट के रूप में निकालें। अगर आप प्रशिक्षण सेट पर ग्रेड देते हैं, तो आप खुद को ये सोचने के लिए धोखा देंगे कि मॉडल एक जीनियस है। मुझसे पूछो मुझे कैसे पता।

स्टेप 3: बिना आँसुओं के Tinker API पर अपना डेटा अपलोड करें

अधिकांश फाइन-ट्यूनिंग प्लेटफ़ॉर्म एक स्टोरेज एंडपॉइंट प्रदान करते हैं। Tinker API के साथ, आप आमतौर पर:

एक डेटासेट संसाधन बनाएँ (उदाहरण के लिए, POST /datasets)

अपनी JSONL फ़ाइल अपलोड करें

स्कीमा को मान्य करें (Tinker आमतौर पर एक आसान रिपोर्ट लौटाता है: OK काउंट, त्रुटियाँ, अजीब फ़ील्ड)

छद्म-उदाहरण (कर्ल-शैली):

curl -X POST -H "Authorization: Bearer YOUR_TINKER_KEY" -F "file=@my_finetune_data.jsonl" -F "purpose=finetune"

अगर Tinker API एक CLI का समर्थन करता है, तो जीवन आसान हो जाता है:

अपलोड करें

tinker datasets upload my_finetune_data.jsonl --purpose finetune

वैलिडेट करें

tinker datasets validate DATASET_ID

सत्यापन त्रुटियाँ आपके मित्र हैं। वे कठोर महसूस करते हैं, लेकिन वे आपको सुबह 2 बजे रहस्यमय प्रशिक्षण विफलताओं से बचाते हैं।

स्टेप 4: एक फाइन-ट्यून जॉब शुरू करें और समझदार सेटिंग्स चुनें

आप एक जॉब शुरू करेंगे जो आपके डेटासेट और आपके चुने हुए बेस मॉडल की ओर इशारा करता है। अधिकांश Tinker API फाइन-ट्यूनिंग एंडपॉइंट युगों, सीखने की दर, बैच आकार और मूल्यांकन आवृत्ति जैसे पैरामीटर स्वीकार करते हैं। अनुवाद: आपके डेटा पर कितने पास, मॉडल कितनी आक्रामक रूप से सीखता है, एक बार में कितने उदाहरणों का अध्ययन करता है, और कितनी बार आपको एक प्रगति रिपोर्ट दिखाता है।

उदाहरण अनुरोध:

curl -X POST -H "Authorization: Bearer YOUR_TINKER_KEY" -H "Content-Type: application/json" -d '{ "base_model": "tinker-large-1", "dataset_id": "ds_abc123", "epochs": 3, "learning_rate": 1e-5, "batch_size": 8, "eval_dataset_id": "ds_eval789", "suffix": "support-tone-v1" }'

समझदार डिफ़ॉल्ट:

युग: छोटे से मध्यम डेटासेट के लिए 3-5। ज़्यादा हमेशा बेहतर नहीं होता; कभी-कभी यह सिर्फ़ अतिरिक्त चरणों के साथ ओवरफिटिंग होती है।

सीखने की दर: रूढ़िवादी रूप से शुरू करें (1e-5 या 2e-5)। अगर मॉडल बहुत तेज़ी से सीखता है, तो यह अपनी सामान्य बुद्धिमत्ता को भूल जाता है।

बैच आकार: जो भी आपका कोटा अनुमति देता है, लेकिन इस पर ज़्यादा ध्यान न दें—प्रदर्शन लाभ ज़्यादातर अच्छे डेटा से आते हैं।

प्रारंभिक रोक: अगर Tinker API इसे प्रदान करता है, तो इसे सक्षम करें। यह मशीन लर्निंग का "क्या हम वहाँ हैं?" है जो कभी-कभी कहता है, "हाँ।"

स्टेप 5: एक बाज़ की तरह प्रशिक्षण की निगरानी करें—लेकिन एक शांत बाज़

Tinker आमतौर पर लॉग स्ट्रीम करता है: प्रशिक्षण हानि, मूल्यांकन हानि, और शायद आपके द्वारा परिभाषित कस्टम मीट्रिक (जैसे प्रश्नोत्तर के लिए सटीक मिलान)। चाय की पत्तियाँ पढ़ने का तरीका यहाँ दिया गया है:

प्रशिक्षण हानि नीचे जा रही है, मूल्यांकन हानि सपाट या ऊपर? आप ओवरफिटिंग कर रहे हैं—अपने प्रशिक्षण उत्तरों को याद कर रहे हैं लेकिन नए उत्तरों को गलत कर रहे हैं।

दोनों नीचे की ओर रुझान कर रहे हैं? आप सही रास्ते पर हैं।

एक पोगो स्टिक की तरह उछलने वाली हानि? आपकी सीखने की दर बहुत ज़्यादा हो सकती है, या आपका डेटासेट असंगत है।

अगर Tinker प्रशिक्षण के बीच पूर्वावलोकन पीढ़ी प्रदान करता है तो आंशिक आउटपुट की जाँच करें। अपने परीक्षण सेट से कुछ प्रॉम्प्ट का नमूना लें और लहजे/सटीकता को देखें। हाँ, यह गुणात्मक है—लेकिन आप शैली को प्रशिक्षित कर रहे हैं, भौतिकी प्रमाणों को नहीं।

स्टेप 6: इसे नाम दें, इसे डिप्लॉय करें, इसे कॉल करें

जब जॉब समाप्त हो जाती है, तो Tinker API आपको ft:tinker-large-1:support-tone-v1:abc123 जैसे मॉडल ID के साथ आशीर्वाद देगा। फिर आप इसे एक एंडपॉइंट के पीछे डिप्लॉय कर सकते हैं और इसे बेस मॉडल की तरह ही कॉल कर सकते हैं—केवल अब यह आपकी टीम की तरह बोलता है।

उदाहरण पीढ़ी कॉल:

curl -X POST -H "Authorization: Bearer YOUR_TINKER_KEY" -H "Content-Type: application/json" -d '{ "model": "ft:tinker-large-1:support-tone-v1:abc123", "messages": [ {"role": "system", "content": "आप एक संक्षिप्त, दोस्ताना सहायता एजेंट हैं।"}, {"role": "user", "content": "मेरा रिफंड देर से आया है और मैं नाराज़ हूँ।"} ], "temperature": 0.4 }'

आप एक उच्च "presence_penalty" या निम्न "temperature" भी सेट कर सकते हैं अगर आपका मॉडल बहुत ज़्यादा बातूनी या बहुत कम बोलता है। Tinker के दस्तावेज़ नॉब को स्पष्ट करेंगे—प्रयोग करने में संकोच न करें।

स्टेप 7: एक कोच की तरह मूल्यांकन करें, न कि एक जज की तरह

आपको एक स्वचालित स्कोरकार्ड और एक मानवीय स्कोरकार्ड चाहिए। स्वचालित मीट्रिक (BLEU, ROUGE, सटीकता) साफ-सुथरे हैं लेकिन लहजे के प्रति अंधे हैं। मनुष्य "यह स्निप्पी लगता है" समस्या को पकड़ते हैं।

एक छोटा रुब्रिक सेट करें:

टोन मैच (1-5)

निर्देश-अनुसरण (1-5)

तथ्यात्मकता (1-5)

लंबाई नियंत्रण (1-5)

सुरक्षा/अनुपालन (1-5)

अपने हेल्ड-आउट सेट से 50-100 आउटपुट का नमूना लें। दो लोगों को स्वतंत्र रूप से उन्हें रेट करने के लिए कहें। अगर एक श्रेणी औसतन 3 से कम है, तो इसे अपने डेटासेट पर वापस ट्रेस करें और अधिक उदाहरण जोड़ें जो आपके इच्छित व्यवहार को प्रदर्शित करते हैं।

स्टेप 8: लागत और प्रदर्शन: आपकी CFO और आपके सर्वर को किस बात की परवाह है

Tinker API के साथ फाइन-ट्यूनिंग में दो जगहों पर पैसे लगते हैं: प्रशिक्षण और अनुमान। प्रशिक्षण एक बार का स्प्रिंट है; अनुमान मैराथन है।

टोकन लंबाई कम करें। छोटे प्रॉम्प्ट और आउटपुट = छोटे बिल।

एक सिस्टम प्रॉम्प्ट का उपयोग करें जो आपकी शैली को फ्रेम करता है, लेकिन हर कॉल पर भारी निर्देशों को न दोहराएँ अगर Tinker डिप्लॉयमेंट-लेवल डिफ़ॉल्ट का समर्थन करता है।

जहाँ संभव हो सामान्य प्रॉम्प्ट को कैश करें।

एक रूटिंग रणनीति पर विचार करें: केवल आवश्यकता होने पर अपने फाइन-ट्यून किए गए बड़े मॉडल का उपयोग करें; अन्यथा, एक छोटे, सस्ते मॉडल पर वापस जाएँ।

विलंबता भी मायने रखती है। अगर आपका फाइन-ट्यून किया गया मॉडल धीरे-धीरे चलता है, तो छोटे संदर्भ विंडो आज़माएँ, या वर्गीकरण के लिए छोटे मॉडल का उपयोग करें और जेनरेटिव टेक्स्ट के लिए केवल बड़े मॉडल का उपयोग करें।

स्टेप 9: समस्या निवारण: परेशानी निर्माताओं की सबसे बड़ी हिट

मॉडल खुद को एक टूटे हुए रिकॉर्ड की तरह दोहराता है।

कम तापमान; कुरकुरे, छोटे उत्तरों के साथ उदाहरण जोड़ें; अगर यह एक विकल्प है तो बीम चौड़ाई कम करें।

यह निर्देशों को अनदेखा करता है।

सिस्टम प्रॉम्प्ट को मज़बूत करें और प्रशिक्षण उदाहरण शामिल करें जो सख्त निर्देश-अनुसरण का प्रदर्शन करते हैं।

यह स्वागर के साथ तथ्यों का भ्रम पैदा करता है।

ऐसे उदाहरण शामिल करें जो कहते हैं "मुझे नहीं पता" या स्रोतों से लिंक करें; कम तापमान; प्रतिक्रियाओं को आधार बनाने के लिए पुनर्प्राप्ति के साथ जोड़ी बनाएँ।

यह बहुत अच्छा है। (हाँ, वह एक चीज़ है।)

प्रशिक्षण उदाहरण जोड़ें जो सीमाओं को निर्धारित करते हैं और नीतियों को स्पष्ट करते हैं—"हम X नहीं कर सकते, लेकिन यहाँ Y है।"

प्रशिक्षण आधे रास्ते में विफल हो जाता है।

डेटासेट सत्यापन, अजीब वर्णों और अधिकतम टोकन लंबाई की जाँच करें। छोटे बैच आकार या कम युगों का प्रयास करें।

स्टेप 10: फाइन-ट्यून कब करें बनाम प्रॉम्प्ट या पुनर्प्राप्ति का उपयोग कब करें

मुझे फाइन-ट्यूनिंग पसंद है, लेकिन यह एकमात्र हथौड़ा नहीं है। तीन सामान्य रणनीतियाँ:

केवल प्रॉम्प्ट इंजीनियरिंग: सबसे सस्ता, सबसे तेज़। तब बहुत अच्छा होता है जब आपको केवल एक टोन ट्वीक या सरल निरंतरता की आवश्यकता होती है।

पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG): ताज़ा तथ्यों और बड़े ज्ञान आधारों के लिए बहुत अच्छा। मॉडल रनटाइम पर आपके दस्तावेज़ों को पढ़ता है।

फाइन-ट्यूनिंग: शैली, संरचना और डोमेन पैटर्न के लिए सबसे अच्छा जो दैनिक नहीं बदलते हैं।

अक्सर, जीतने वाली रेसिपी प्रत्येक का थोड़ा सा होती है: तथ्यों को लाने के लिए RAG का उपयोग करें, फिर उन्हें अपने फाइन-ट्यून किए गए मॉडल को पास करें ताकि यह आपकी हस्ताक्षर आवाज़ में जवाब दे।

एक त्वरित Tinker API ट्यूटोरियल जिसे आप कॉपी-पेस्ट कर सकते हैं

यहाँ एक समेकित, काल्पनिक विवरण दिया गया है जो कई Tinker-शैली प्लेटफ़ॉर्म को दर्शाता है। एंडपॉइंट और ID को अपने वास्तविक लोगों से बदलें।

डेटासेट बनाएँ और अपलोड करें

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -F "[email protected]" -F "purpose=finetune"

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -F "[email protected]" -F "purpose=eval"

फाइन-ट्यूनिंग शुरू करें

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -H "Content-Type: application/json" -d '{ "base_model": "tinker-medium-1", "dataset_id": "ds_train", "eval_dataset_id": "ds_eval", "epochs": 4, "learning_rate": 2e-5, "suffix": "email-summarizer-v1" }'

स्ट्रीम लॉग

curl -N -H "Authorization: Bearer $TINKER_KEY"

फाइन-ट्यून किए गए मॉडल का उपयोग करें

curl -X POST -H "Authorization: Bearer $TINKER_KEY" -H "Content-Type: application/json" -d '{ "model": "ft:tinker-medium-1:email-summarizer-v1:xyz", "prompt": "निम्नलिखित ईमेल को दो बुलेट में संक्षेप में बताएं, दोस्ताना लहजे में:\n\n[EMAIL पेस्ट करें]", "max_tokens": 160, "temperature": 0.4 }'

वास्तविक जीवन के परिदृश्य: क्या होता है जब...

आप अपने समर्थन मैक्रो पर फाइन-ट्यून करते हैं

अचानक, आपकी AI आपके एजेंटों द्वारा उपयोग की जाने वाली समान संरचना में जवाब देती है: माफ़ी, कार्रवाई, फ़ॉलो-अप। CSAT अक्सर बढ़ जाता है क्योंकि लोगों को आश्चर्य से ज़्यादा निरंतरता पसंद है।

आप अपनी ब्रांड आवाज़ पर फाइन-ट्यून करते हैं

मॉडल आपकी "हम मददगार हैं लेकिन चिपचिपे नहीं" शैली को नाखूनों से मारता है। यह 17-विस्मयादिबोधक-बिंदु उत्साह से बचता है। मार्केटिंग बेहतर सोती है।

आप कोड सुझावों के लिए फाइन-ट्यून करते हैं

कार्य विवरण और आदर्श कोड स्निपेट के जोड़े शामिल करें। उदाहरणों को छोटा और केंद्रित रखें; शोर वाला कोड शोर वाले पूर्णताओं की ओर ले जाता है।

आप वर्गीकरण के लिए फाइन-ट्यून करते हैं

हाँ आप कर सकते हैं। लेबल किए गए उदाहरण प्रदान करें और छोटे प्रॉम्प्ट के साथ मॉडल को कॉल करें। सख्त लेबल के लिए, तापमान को शून्य पर सेट करें।

सुरक्षा पहले, अंतिम और हमेशा

अगर आपका उपयोग मामला विनियमित या संवेदनशील क्षेत्रों को छूता है, तो अपने सिस्टम प्रॉम्प्ट और अपने प्रशिक्षण डेटा में उज्ज्वल रेखाएँ खींचें। ऐसे उदाहरण जोड़ें जो इनकार को शालीनता से प्रदर्शित करते हैं। आउटपुट लॉग करें और उपयोगकर्ताओं को मुद्दों की रिपोर्ट करने दें। फाइन-ट्यून किए गए मॉडल आश्वस्त हो सकते हैं—उन्हें आत्मविश्वास से सावधान रहने के लिए प्रशिक्षित करें।

Sider.AI कहाँ फिट बैठता है (और कहाँ नहीं)

यहाँ एक आश्चर्य है: Sider.AI एक महान साथी हो सकता है जब आप यह पता लगाते हैं कि Tinker API का उपयोग कैसे करें। यह एक सावधान सह-पायलट होने जैसा है जो बिना शिकायत किए दस्तावेज़ों को पढ़ता है। आप अपने मौजूदा ईमेल या ज्ञान आधार को ब्राउज़ करते समय Sider के साइडबार में डेटासेट उदाहरणों का मसौदा तैयार कर सकते हैं, फिर साफ, सुसंगत JSONL निर्यात कर सकते हैं। यह आपके लिए प्रशिक्षण जॉब नहीं चलाने वाला है—यह Tinker का रास्ता है—लेकिन आपके उदाहरणों को ड्राफ्ट करने, रिफैक्टर करने और QA करने के लिए, यह अद्भुत रूप से व्यावहारिक है। इसे पूछने का प्रयास करें, "इस उत्तर को शांत, सरल-अंग्रेज़ी समर्थन आवाज़ में, दो वाक्यों में फिर से लिखें," और देखें कि आपके डेटासेट की गुणवत्ता में वृद्धि होती है।

वो कमियाँ जो मैं चाहता हूँ कि किसी ने मुझे बताई हों

अधिक डेटा हमेशा बेहतर नहीं होता—अधिक प्रतिनिधि डेटा होता है।

टोन को ओवरफिट न करें। कुछ वाइल्डकार्ड उदाहरण रखें ताकि मॉडल रचनात्मक होने पर सुधार कर सके।

सब कुछ का संस्करण बनाएँ: डेटासेट v1.1, मॉडल v1.2, प्रॉम्प्ट टेम्पलेट v3.0। भविष्य में आप आपको एक धन्यवाद मफिन भेजेंगे।

एक रोलबैक बटन रखें। अगर एक नया फाइन-ट्यून पटरी से उतर जाता है, तो पिछले मॉडल को जल्दी से फिर से डिप्लॉय करें।

वास्तविक उपयोगकर्ता प्रॉम्प्ट के साथ मूल्यांकन करें, न कि केवल आपके सबसे सुंदर उदाहरणों के साथ। उपयोगकर्ता अराजकता के कवि हैं।

एक आखिरी चीज...

Tinker API के साथ फाइन-ट्यूनिंग Skynet बनाने के बारे में नहीं है। यह खुरदरे किनारों को शेव करने के बारे में है ताकि आपकी AI आपकी टीम का हिस्सा लगे। छोटे से शुरुआत करें, बेरहमी से मापें, और यह स्वीकार करने से न डरें कि जब एक सरल चाल (जैसे बेहतर प्रॉम्प्ट) काम करती है।

क्योंकि जब आपकी AI आखिरकार उसी तरह जवाब देती है जैसे आप देते? यह सिर्फ़ दक्षता नहीं है। यह समझदारी है।

धोखा शीट

अपने खुद के AI मॉडल को फाइन-ट्यून करने के लिए Tinker API का उपयोग कैसे करें: साफ, सुसंगत JSONL जोड़े तैयार करें; अपलोड करें; समझदार डिफ़ॉल्ट के साथ एक फाइन-ट्यून शुरू करें; मनुष्यों और मीट्रिक के साथ मूल्यांकन करें; डिप्लॉय और दोहराएँ।

शैली और स्थिर पैटर्न के लिए फाइन-ट्यूनिंग का उपयोग करें; ताज़ा तथ्यों के लिए पुनर्प्राप्ति का उपयोग करें।

छोटे प्रॉम्प्ट, छोटे मॉडल और रूटिंग के साथ लागत को नियंत्रित करें।

सुरक्षा को अपने डेटासेट का एक स्पष्ट हिस्सा बनाएँ।

Sider.AI जैसे टूल को "प्रशिक्षण" हिट करने से पहले बेहतर उदाहरण बनाने में आपकी मदद करने दें।

FAQ

Q1: Tinker API के साथ अपने खुद के AI मॉडल को फाइन-ट्यून करने के लिए मैं डेटा कैसे तैयार करूँ? स्पष्ट निर्देश-प्रतिक्रिया या चैट-शैली जोड़े के साथ JSONL का उपयोग करें। टोन को सुसंगत रखें, संवेदनशील जानकारी को गुमनाम करें, और परीक्षण के लिए 10-20% निकालें ताकि आप बढ़े हुए स्कोर से खुद को मूर्ख न बनाएं।

प्रश्न 2: क्या टिंकर API के साथ फाइन-ट्यूनिंग, प्रॉम्प्ट इंजीनियरिंग से बेहतर है? त्वरित टोन बदलाव और सरल व्यवहारों के लिए प्रॉम्प्ट का उपयोग करें; स्थायी शैली, संरचना या डोमेन पैटर्न की आवश्यकता होने पर फाइन-ट्यूनिंग का उपयोग करें। कई टीमें दोनों को मिलाती हैं—तथ्यों के लिए RAG, आवाज़ के लिए फाइन-ट्यूनिंग।

प्रश्न 3: टिंकर API के साथ मॉडल को फाइन-ट्यून करने के लिए मुझे कितना डेटा चाहिए? गुणवत्ता मात्रा से बेहतर होती है। कुछ सौ मजबूत उदाहरण हजारों शोर वाले उदाहरणों से बेहतर प्रदर्शन कर सकते हैं। छोटे से शुरुआत करें, मूल्यांकन करें, फिर लक्षित उदाहरण जोड़ें जहाँ मॉडल संघर्ष करता है।

प्रश्न 4: मैं टिंकर API में फाइन-ट्यून किए गए मॉडल को कैसे तैनात करूं? प्रशिक्षण के बाद, टिंकर एक मॉडल ID लौटाता है जिसे आप मानक पूर्णता या चैट एंडपॉइंट के माध्यम से कॉल कर सकते हैं। एक सहायक सिस्टम प्रॉम्प्ट सेट करें, तापमान को ट्यून करें और वास्तविक ट्रैफ़िक में आउटपुट की निगरानी करें।

प्रश्न 5: मैं अपने फाइन-ट्यून किए गए मॉडल को मतिभ्रम करने से कैसे रोकूं? अनिश्चितता स्वीकार करने वाले उदाहरणों के साथ प्रशिक्षित करें, तापमान कम करें और तथ्यों के लिए पुनर्प्राप्ति के साथ जोड़ी बनाएं। निर्देश और प्रशिक्षण डेटा का हिस्सा “स्रोतों का हवाला दें” या “कहें कि आपको नहीं पता” बनाएं।