Sider.ai
  • चॅट
  • Wisebase
  • साधने
  • विस्तार
  • क्लायंट
  • किंमत
आता डाउनलोड कर
लॉगिन करा

साइडरसोबत जलद शिका, खोल विचार करा आणि अधिक हुशार बना.

उत्पादने
अॅप्स
  • विस्तार
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
साधने
  • वेब क्रिएटरNew
  • एआय स्लाइड्सNew
  • AI निबंध लेखक
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI प्रतिमा जनरेटर
  • इटालियन ब्रेनरॉट जनरेटर
  • पार्श्वभूमी काढा
  • पार्श्वभूमी बदलक
  • फोटो इरेझर
  • मजकूर काढा
  • इनपेंट
  • प्रतिमा अपस्केलर
  • निर्माण करा
  • AI अनुवादक
  • प्रतिमा अनुवादक
  • PDF अनुवादक
Sider
  • आमच्याशी संपर्क साधा
  • सहाय्य केंद्र
  • डाउनलोड
  • किंमत
  • शिक्षण योजना
  • नवीन काय आहे
  • ब्लॉग
  • समुदाय
  • भागीदार
  • अफिलिएट
  • आमंत्रित करा
©2026 सर्व हक्क राखीव
वापर अटी
गोपनीयता धोरण
  • मुख्यपृष्ठ
  • ब्लॉग
  • एआय टूल्स
  • TensorRT-LLM कसे वापरावे: संपूर्ण मार्गदर्शन

TensorRT-LLM कसे वापरावे: संपूर्ण मार्गदर्शन

अद्यतनित 30 सप्टें. 2025 रोजी

8 मिनिट


परिचय: TensorRT-LLM तुमच्या वीकेंडमध्ये बनवण्यासाठी का उपयुक्त आहे? जर तुम्ही कधी GPU ला 60% वापरामध्ये बसलेले पाहिले असेल, तर तुम्हाला माहीत आहे की LLM हळू गतीने काम करत आहे, कारण अजूनही कार्यक्षमतेसाठी वाव आहे. TensorRT-LLM त्या जागेला थ्रूपुटमध्ये रूपांतरित करते: फ्यूज्ड कर्नल्स, पृष्ठांकित लक्ष, परिमाणीकरण आणि आलेख-स्तरीय ऑप्टिमायझेशनमुळे लेटन्सी कमी होते आणि टोकन-प्रति-सेकंद वाढतात. या मार्गदर्शिकामध्ये, आम्ही इंस्टॉलपासून ते इंजिन तयार करण्यापर्यंत आणि सर्व्हिंगपर्यंत सर्व काही पाहणार आहोत—त्यामुळे तुम्ही NVIDIA GPUs वर अधिक जलद आणि स्वस्त अनुमान आत्मविश्वासाने तैनात करू शकता.
हे ट्युटोरियल व्यावहारिक आणि सोल्यूशन-ओरिएंटेड पद्धतीने लिहिलेले आहे. आम्ही प्रश्न-आधारित रचना वापरू, ज्यात कॉपी करता येतील अशा कमांड्स, सामान्य धोके आणि FP16 विरुद्ध INT8, बॅचिंग आणि KV कॅशे धोरणांसाठी निर्णय बिंदू असतील. योग्य ठिकाणी आम्ही अधिक माहितीसाठी अधिकृत संसाधनांचा संदर्भ देऊ.
तुम्ही काय शिकाल
  • TensorRT-LLM साठी वातावरण कसे सेट करावे
  • इंजिन तयार करण्यासाठी (Hugging Face किंवा चेकपॉइंट्समधून) मॉडेल कसे तयार करावे
  • FP16/INT8 इंजिन कसे तयार करावे आणि कार्यक्षमतेत सुधारणा कशी करावी
  • Python/C++ आणि HTTP सर्व्हिंगद्वारे अनुमान कसे चालवावे
  • बेंचमार्क, बॅच आणि डीबग कसे करावे
हे कोणासाठी आहे
  • ML इंजिनियर्स NVIDIA GPUs वर LLM तैनात करत आहेत
  • उत्पादनामध्ये खर्च/विलंब ऑप्टिमाइझ करणारे अभ्यासक
  • PyTorch Transformers मधून अत्यंत ऑप्टिमाइझ केलेल्या अनुमानाकडे जाणारे निर्माते
  1. TensorRT-LLM काय आहे आणि ते कधी वापरावे? TensorRT-LLM हे एक अनुमान स्टॅक आहे जे Transformer मॉडेलला अत्यंत ऑप्टिमाइझ केलेल्या GPU “इंजिन” मध्ये रूपांतरित करते. कच्चे PyTorch किंवा सामान्य रनटाइमच्या तुलनेत, तुम्हाला सामान्यतः हे फायदे मिळतात:
  • प्रत्येक टोकनसाठी कमी लेटन्सी
  • मोठ्या बॅच आकारात उच्च थ्रूपुट
  • पृष्ठांकित KV कॅशे आणि परिमाणीकरणामुळे चांगली मेमरी कार्यक्षमता. जेव्हा तुम्ही NVIDIA GPUs वर चालवता आणि तुम्हाला उत्पादन-दर्जाच्या कार्यक्षमतेची काळजी असते तेव्हा ते वापरा. हे विशेषतः डीकोडर-ओन्ली LLMs (उदा. Llama, Mistral, Phi, BLOOM) आणि चॅटबॉट्स, RAG आणि उच्च-QPS API सेवांसारख्या परिस्थितींसाठी उपयुक्त आहे.
  1. आवश्यक गोष्टी आणि पर्यावरण सेटअप मुख्य आवश्यकता
  • नवीन कंप्यूट क्षमता असलेले NVIDIA GPU (उदा. Ampere, Ada, Hopper)
  • जुळणारे CUDA आणि TensorRT व्हर्जन, तसेच योग्य ड्राइव्हर्स
  • Python 3.8+ आणि बिल्ड टूल्स (जर सोर्समधून कंपाइल करत असाल तर)
व्हर्जनिंग नोट: इन्स्टॉल करण्यापूर्वी सुसंगत CUDA/TensorRT व्हर्जन आणि वैशिष्ट्यांसाठी नेहमी अधिकृत TensorRT सपोर्ट मॅट्रिक्स आणि रिलीज नोट्स तपासा.
क्विक-स्टार्ट पर्याय
  • कंटेनराइज्ड: प्रीइंस्टॉल केलेल्या CUDA/TensorRT सह NVIDIA चे कंटेनर वापरा—व्हर्जन विसंगती टाळण्याचा सर्वात जलद मार्ग.
  • नेटिव्ह इन्स्टॉल: बेस TensorRT साठी अधिकृत क्विक स्टार्ट फॉलो करा, त्यानंतर TensorRT-LLM चा थर त्यावर टाका.
  1. तुमचे मॉडेल तयार करणे (Hugging Face → TensorRT-LLM) सामान्य स्रोत
  • Hugging Face: Llama/Mistral/BLOOM प्रकार
  • लोकल चेकपॉइंट्स: कस्टम फाइन-ट्यून्स
तयारी चेकलिस्ट
  • TensorRT-LLM द्वारे मॉडेल आर्किटेक्चर समर्थित आहे याची खात्री करा.
  • मॉडेल वेट्स आणि टोकेनायझर डाउनलोड करा.
  • आवश्यक असल्यास, सुरक्षित टेन्सर्स अपेक्षित फॉरमॅटमध्ये रूपांतरित करा किंवा प्रोजेक्टच्या स्क्रिप्टद्वारे ONNX मध्ये एक्सपोर्ट करा.
टीप: अधिकृत क्विक स्टार्टमध्ये अनेकदा मॉडेल्स मिळवण्यासाठी आणि योग्य इंटरमीडिएट फॉर्ममध्ये रूपांतरित करण्यासाठी स्क्रिप्ट्स समाविष्ट असतात. BLOOM उदाहरणासह ट्युटोरियल-शैलीतील माहितीसाठी, Hugging Face LLMs ला TensorRT-LLM मध्ये रूपांतरित करण्यावरील Dell चे मार्गदर्शक पहा.
  1. TensorRT-LLM इंजिन तयार करणे (वर्कफ्लोचा आत्मा) तुम्हाला माहीत असलेल्या संकल्पना
  • इंजिन: कंपाइल केलेले, हार्डवेअर-ऑप्टिमाइझ केलेले आर्टिफॅक्ट जे तुम्ही अनुमानासाठी लोड करता.
  • प्रिसिजन: FP16/BF16 मजबूत बेसलाइनसाठी; अचूकता टिकून राहिल्यास उच्च थ्रूपुटसाठी INT8 किंवा FP8.
  • KV कॅशे: पृष्ठांकित KV कॅशे मेमरी फ्रॅगमेंटेशन कमी करते आणि लांब-संदर्भातील कार्यक्षमता वाढवते.
उच्च-स्तरीय पायऱ्या
  1. बिल्ड कॉन्फिगरेशन परिभाषित करा: कमाल बॅच, सिक्वेन्स लांबी, प्रिसिजन, परिमाणीकरण आणि GPU आर्किटेक्चर.
  1. तुमचे मॉडेल चेकपॉइंट्स आणि टोकेनायझर निर्देशित करा.
  1. तुमच्या लक्ष्य GPU(s) साठी इंजिन कंपाइल करा.
संदर्भ: अधिकृत कागदपत्रे आणि कॉन्फिगरेशनसह इंजिन तयार करणे. जर तुम्ही Hugging Face Text Generation Inference (TGI) द्वारे सर्व्ह करण्याची योजना आखत असाल, तर GPU आर्किटेक्चर आणि कॉन्फिगरेशननुसार प्रीकंपाइल इंजिनवरील TRT-LLM बॅकएंड नोट्स पहा.
स्टार्टर निर्णय वृक्ष
  • पहिले बिल्ड: FP16, मध्यम कमाल सिक्वेन्स लांबी (उदा. 4K–8K), मध्यम बॅच (उदा. 4–8). अचूकता प्रमाणित करा.
  • स्केलिंग अप: पृष्ठांकित KV कॅशे सक्षम करा. कमाल बॅच/बीम आकार वाढवा. FP8 किंवा INT8 सह प्रयोग करा.
  • उत्पादन: लेटन्सी/QPS SLOs पूर्ण करणारी कॉन्फिग्स पिन करा; प्रत्येक परिस्थितीसाठी स्वतंत्र इंजिन तयार करा (लहान प्रॉम्प्ट्स वि. लांब-संदर्भ).
  1. अनुमान चालवणे: Python, C++ आणि HTTP तुमच्याकडे तीन सामान्य मार्ग आहेत:
  • Python: जलद प्रोटोटाइपिंग, पाइपलाइन आणि नोटबुकसाठी आदर्श.
  • C++: कमाल कार्यक्षमता, मूळ सेवांमध्ये एकत्रीकरण.
  • HTTP सर्व्हिंग: स्केलेबल उपयोजनासाठी TRT-LLM बॅकएंड किंवा रनटाइमच्या सर्व्हिंग उदाहरणांसह TGI वापरा.
Hugging Face TGI बॅकएंड
  • तुमच्या अचूक GPU/प्रिसिजन सेटअपसाठी इंजिन प्रीकंपाइल करा.
  • TRT-LLM बॅकएंडसह TGI सुरू करा आणि ते इंजिन डिरेक्टरीकडे निर्देशित करा.
  • /generate किंवा openai-सुसंगत मार्गांद्वारे विनंत्या पाठवा आणि प्रतिकृतींसह स्केल करा.
  1. कार्यक्षमता ट्यूनिंग जी खरोखरच उपयुक्त आहे कोठून सुरुवात करावी
  • प्रिसिजन: FP16 ही तुमची विश्वसनीय बेसलाइन आहे. INT8/FP8 लेटन्सी आणखी कमी करू शकते, परंतु गुणवत्तेची पडताळणी करा.
  • बॅचिंग: डायनॅमिक बॅचिंग आणि विनंती कोलेसिंग मोठ्या प्रमाणात थ्रूपुट वाढवतात; टेल लेटन्सी मोजा.
  • पृष्ठांकित KV कॅशे: लांब प्रॉम्प्ट्स आणि स्ट्रीमिंगसाठी आवश्यक; मेमरी प्रेशर कमी करते.
  • कमाल लांबी: मोठी कमाल सिक्वेन्स लांबी इंजिनचा आकार वाढवते आणि क्लॉक कमी करू शकते; योग्य-ते-हेतू इंजिन तयार करा.
व्यावहारिक टिप्स
  • वास्तववादी प्रॉम्प्ट्ससह बेंचमार्क: प्रीफिल वि. डीकोड फेज स्वतंत्रपणे मोजा.
  • टोकेनायझर थ्रूपुट महत्त्वाचे आहे: जर तुमचा फ्रेमवर्क सपोर्ट करत असेल तर ते GPU वर करा.
  • CUDA आलेख/फ्यूज्ड कर्नल्सवर लक्ष ठेवा: ते CPU ओव्हरहेड आणि कर्नल लॉन्च लेटन्सी कमी करतात.
  • मल्टी-GPU साठी: तुमच्या मॉडेल आकार आणि लेटन्सी आवश्यकतांनुसार टेन्सर पॅरलल किंवा पाइपलाइन पॅरललला प्राधान्य द्या.
  1. बेंचमार्किंग: जिंकणे सिद्ध करा चेकलिस्ट
  • लक्ष्य बॅच आकारात टोकन/सेकंद (थ्रूपुट)
  • पहिला-टोकन-वेळ (TTFT) आणि प्रति विनंती एंड-टू-एंड लेटन्सी
  • पीक QPS अंतर्गत GPU वापर आणि मेमरी स्पेस
  • अचूकता: BLEU/परप्लेक्सिटी किंवा कार्य-विशिष्ट मूल्यमापन (जर तुम्ही परिमाणीकरण केले असेल तर)
अचूकता आणि डेल्टा प्रमाणित करण्यासाठी बेसलाइनमध्ये (PyTorch वि. TensorRT-LLM) सातत्यपूर्ण सीड्स आणि प्रॉम्प्ट सेट्स वापरा.
  1. डीबगिंग आणि सामान्य धोके
  • विसंगत व्हर्जन्स: अधिकृत सपोर्ट मॅट्रिक्सनुसार CUDA, ड्राइव्हर्स आणि TensorRT व्हर्जन्स अलाइन करा.
  • डिव्हाइससाठी इंजिन अवैध: तुमच्या GPU आर्किटेक्चरसाठी खास इंजिन पुन्हा तयार करा.
  • बिल्ड दरम्यान OOM: कमाल सिक्वेन्स लांबी किंवा बॅच कमी करा; पृष्ठांकित KV सक्षम करा; परिमाणीकरणाचा विचार करा.
  • INT8 सह अचूकता कमी होणे: डोमेन-प्रतिनिधी डेटावर कॅलिब्रेट करा; प्रति-टेन्सर परिमाणीकरण वापरून पहा आणि लेयर-नुसार संवेदनशीलता सत्यापित करा.
  • उच्च थ्रूपुट असूनही हळू TTFT: पृष्ठांकित KV कॅशे ट्यून करा, CUDA आलेख सक्षम करा आणि टोकेनायझर बॉटलनेक तपासा.
  1. उदाहरण वर्कफ्लो: Hugging Face मॉडेल ते उत्पादन परिस्थिती: तुम्हाला A100 वर कमी-लेटन्सी चॅट मॉडेल हवा आहे.
  • मॉडेल निवडा: 7B–13B Llama/Mistral प्रकार.
  • तयार करा: वेट्स आणि टोकेनायझर डाउनलोड करा; आर्किटेक्चर समर्थित आहे का ते सत्यापित करा.
  • पहिले इंजिन: FP16, कमाल इनपुट 4K, कमाल आउटपुट 1K, बॅच 4; पृष्ठांकित KV सुरू.
  • प्रमाणित करा: तुमचे PyTorch बेसलाइनसह आउटपुटची तुलना करा.
  • ऑप्टिमाइझ करा: INT8 किंवा FP8 वापरून पहा; TTFT आणि थ्रूपुट मोजा. सर्व्हर मोडसाठी बॅच वाढवा.
  • सर्व्ह करा: TGI TRT-LLM बॅकएंड वापरा; लोड बॅलेंसरच्या मागे प्रतिकृती स्केल करा; स्ट्रीमिंग जोडा.
  1. खर्च आणि क्षमता नियोजन
  • प्रति GPU थ्रूपुट: तुमच्या लक्ष्य संदर्भात टोकन/सेकंद मोजा. QPS क्षमता मोजण्यासाठी त्याचा वापर करा.
  • 1M टोकनची किंमत: जलद डीकोडिंग आणि उच्च बॅच वापरामुळे, TRT-LLM सामान्यतः प्रति टोकन खर्च कमी करते.
  • योग्य आकाराचे इंजिन: हेडस्पेस कचरा कमी करण्यासाठी शॉर्ट-फॉर्म आणि लाँग-फॉर्मसाठी स्वतंत्र इंजिन तयार करा.
  1. मार्गदर्शिकामध्ये FAQs प्रश्न: प्रत्येक GPU प्रकारासाठी मला इंजिन पुन्हा तयार करण्याची आवश्यकता आहे का? उत्तर: होय. इंजिन हार्डवेअर-विशिष्ट आहेत. तुम्ही ज्या GPU आर्किटेक्चरवर तैनात कराल, त्यासाठी तयार करा.
प्रश्न: INT8 गुणवत्तेवर किती परिणाम करतो? उत्तर: हे मॉडेल आणि कार्यावर अवलंबून असते. चांगल्या कॅलिब्रेशन डेटामध्ये, अनेक मॉडेल्स लक्षणीय गती वाढवत असताना जवळजवळ-FP16 गुणवत्ता टिकवून ठेवतात.
प्रश्न: मी लांब संदर्भ (उदा. 32K) चालवू शकतो का? उत्तर: होय, परंतु मेमरीची काळजीपूर्वक योजना करा. पृष्ठांकित KV कॅशे वापरा आणि ब्लॉक आकार ट्यून करा; लक्षात ठेवा की लांब संदर्भ इंजिनचा आकार आणि डीकोड खर्च वाढवतात.
प्रश्न: TGI आवश्यक आहे का? उत्तर: नाही. तुम्ही Python/C++ थेट चालवू शकता. ऑटोस्केलिंग आणि लॉगिंगसह उत्पादन-दर्जाच्या HTTP APIs साठी TGI सोयीस्कर आहे.
वर्कफ्लो गती देण्यासाठी लक्षात ठेवण्यासारखे जर तुम्ही प्रॉम्प्ट्सवर वारंवार पुनरावृत्ती करत असाल, इंजिनमध्ये आउटपुटची तुलना करत असाल किंवा प्रयोगांचे दस्तावेजीकरण करत असाल, तर जलद रीट्राय, कोड ब्लॉक एक्झिक्युशन आणि वेब स्निपेट्सना सपोर्ट करणारा साइड-बाय-साइड AI सहाय्यक तुमचा लूप वेगवान करू शकतो. तसे, Sider.AI इंजिनिअर्ससाठी डेस्कटॉप अनुभव देते—जे बेंचमार्क कॅप्चर करण्यासाठी, प्रॉम्प्ट्सची चाचणी घेण्यासाठी आणि तुमचे TensorRT-LLM पाइपलाइन ऑप्टिमाइझ करताना तुमच्या नोट्स आयोजित करण्यासाठी उपयुक्त आहे.
पुढील पायऱ्या चेकलिस्ट
  • तुमचे वातावरण प्रमाणित करण्यासाठी अधिकृत क्विक स्टार्ट वाचा.
  • सपोर्ट मॅट्रिक्समध्ये CUDA/TensorRT सुसंगतता तपासा.
  • इंजिन-बिल्डिंग मार्गदर्शकाचे अनुसरण करा आणि प्रथम FP16 निवडा.
  • जर TGI द्वारे सर्व्ह करत असाल, तर इंजिन प्रीकंपाइल करा आणि TRT-LLM बॅकएंड कॉन्फिगर करा.
  • वैकल्पिकरित्या, BLOOM सारख्या Hugging Face मॉडेल्ससाठी ट्युटोरियल-शैलीतील माहितीचे पुनरावलोकन करा.
महत्वाचे मुद्दे
  • TensorRT-LLM तुमच्या Transformer ला कमाल थ्रूपुट आणि कमी लेटन्सीसाठी GPU-नेटिव्ह इंजिनमध्ये कंपाइल करते.
  • FP16 ने सुरुवात करा, पृष्ठांकित KV कॅशे सक्षम करा आणि मोजा. त्यानंतर अधिक गतीसाठी INT8/FP8 एक्सप्लोर करा.
  • इंजिन GPU- आणि कॉन्फिग-विशिष्ट आहेत; प्रति उपयोजन लक्ष्य तयार करा.
  • उत्पादनासाठी, इंजिनला मजबूत सर्व्हिंग लेयर (उदा. TGI) सह जोडा आणि TTFT, थ्रूपुट आणि गुणवत्तेचे परीक्षण करा.

FAQ

प्रश्न 1: TensorRT-LLM योग्यरित्या कसे स्थापित आणि सेट करावे? जुळणाऱ्या CUDA/TensorRT सह कंटेनर वापरा किंवा व्हर्जन बदल टाळण्यासाठी अधिकृत क्विक स्टार्ट आणि सपोर्ट मॅट्रिक्सचे अनुसरण करा. इंजिन कंपाइल करण्यापूर्वी GPU ड्राइव्हर्स आणि बिल्ड टूल्स सत्यापित करा.
प्रश्न 2: Hugging Face मॉडेल्ससह TensorRT-LLM कसे वापरावे? मॉडेल आणि टोकेनायझर डाउनलोड करा, समर्थनाची पुष्टी करा आणि इंजिन तयार करण्यापूर्वी आवश्यकतेनुसार रूपांतरित करा. TGI सह सर्व्ह करत असल्यास, तुमच्या GPU साठी इंजिन कंपाइल करा आणि बॅकएंडला इंजिन डिरेक्टरीकडे निर्देशित करा.
प्रश्न 3: TensorRT-LLM साठी मी FP16, FP8 किंवा INT8 निवडले पाहिजे? स्थिरतेसाठी FP16 ने सुरुवात करा, त्यानंतर थ्रूपुट वाढवण्यासाठी FP8/INT8 वापरून पहा. परिमाणीकरणानंतर नेहमी कार्याची अचूकता प्रमाणित करा.
प्रश्न 4: मी HTTP वर TensorRT-LLM सर्व्ह करू शकतो का? होय. तुम्ही Python/C++ थेट वापरू शकता किंवा स्ट्रीमिंगसह स्केलेबल, उत्पादन-तयार APIs साठी Hugging Face TGI च्या TRT-LLM बॅकएंडद्वारे सर्व्ह करू शकता.
प्रश्न 5: TensorRT-LLM वापरताना सामान्य कार्यक्षमतेतील अडचणी काय आहेत? टोकेनायझर ओव्हरहेड, सबॉप्टिमल बॅचिंग आणि पृष्ठांकित KV कॅशेची कमतरता या सामान्य समस्या आहेत. बॅच आकार ट्यून करा, CUDA आलेख सक्षम करा आणि एकूण टोकन-प्रति-सेकंदच्या तुलनेत TTFT चे परीक्षण करा.

अलीकडील लेख
ChatPDF मध्ये पारंगत कसे व्हावे: घनदाट दस्तऐवजांमधून जलद माहिती मिळवा

ChatPDF मध्ये पारंगत कसे व्हावे: घनदाट दस्तऐवजांमधून जलद माहिती मिळवा

जलद आणि अचूक दस्तऐवजांसाठी सर्वोत्तम X ऑटो-ट्रान्सलेशन पर्याय

जलद आणि अचूक दस्तऐवजांसाठी सर्वोत्तम X ऑटो-ट्रान्सलेशन पर्याय

इराणमध्ये Samsung AI भाषांतर उपलब्ध नाही? व्यावहारिक उपाय

इराणमध्ये Samsung AI भाषांतर उपलब्ध नाही? व्यावहारिक उपाय

फारसी भाषांतर साधने: जलद आणि अचूक कामासाठी व्यावहारिक मार्गदर्शक

फारसी भाषांतर साधने: जलद आणि अचूक कामासाठी व्यावहारिक मार्गदर्शक

सखोल, उद्धृत संशोधनासाठी सर्वोत्तम Grok पर्याय

सखोल, उद्धृत संशोधनासाठी सर्वोत्तम Grok पर्याय

AI इमेज जनरेटरची टॉप 15 वैशिष्ट्ये जी तुम्ही खरोखर वापरू शकाल

AI इमेज जनरेटरची टॉप 15 वैशिष्ट्ये जी तुम्ही खरोखर वापरू शकाल