What’s the best LLaMA-Factory tutorial for true beginners?

Start with the LLaMA-Factory WebUI guide from DataCamp—it’s clear, current, and uses Llama 3. Pair it with the YouTube end-to-end walkthrough for a visual sanity check so you know what success looks like before you click train.

Can I fine-tune LLaMA-Factory models on Google Colab?

Yes, the Colab-based tutorial makes LLaMA-Factory fine-tuning surprisingly painless. Just watch your session time and VRAM limits, save checkpoints often, and keep datasets small for your first run.

Should I use LoRA or QLoRA with LLaMA-Factory?

If you’re limited on VRAM, QLoRA is your friend—4-bit training, smaller memory footprint. If you’ve got more GPU headroom, standard LoRA is simpler and still very efficient for fine-tuning.

How do I fix CUDA out-of-memory errors during training?

Lower your batch size, turn on gradient checkpointing, and use 4-bit QLoRA. If that still fails, try a smaller base model or rent a GPU with more VRAM for the heaviest step.

How do I know if my LLaMA-Factory fine-tune actually worked?

Build a small, realistic evaluation set and compare outputs before and after fine-tuning. If your model answers faster, more accurately, and doesn’t hallucinate your company’s vacation policy, you’re on the right track.

بہترین LLaMA-Factory ٹیوٹوریلز: میں نے فائن ٹیون کیا تاکہ آپ کو نہ کرنا پڑے

کیا آپ نے کبھی کسی بڑے لسانی ماڈل کو قائل کرنے کی کوشش کی ہے کہ وہ تخیلاتی باتیں کرنا بند کرے اور آپ کے مخصوص اور کم تنخواہ والے اسسٹنٹ کی طرح برتاؤ کرے؟ 2025 میں فائن ٹیوننگ کرنا ایسا ہی محسوس ہوتا ہے: پرورش، لیکن YAML کے ساتھ۔ خوشخبری یہ ہے کہ: LLaMA-Factory اس سارے معاملے کو حیرت انگیز طور پر... اتنا خوفناک نہیں بناتا۔ اس سے بھی اچھی خبر یہ ہے کہ: میں نے بہترین LLaMA-Factory ٹیوٹوریلز تلاش کرنے کے لیے ایک ہفتہ اڈاپٹرز اور ٹوکنائزرز پر ٹھوکریں کھاتے ہوئے گزارا تاکہ آپ کو ایسا نہ کرنا پڑے۔

یہاں بغیر بکواس کے، جوانا اسٹائل گائیڈ ہے بہترین وسائل کے لیے، ہر ایک کو کب استعمال کرنا ہے، اور تین سب سے عام facepalm لمحات سے کیسے بچنا ہے (سپائلر: VRAM کوئی تجویز نہیں ہے، یہ ایک بجٹ ہے)۔

آپ یہاں کیوں ہیں (اور آپ اصل میں کیا چاہتے ہیں)

آپ ڈسٹریبیوٹڈ ٹریننگ پر مقالہ لکھے بغیر Llama 2 یا Llama 3 ماڈلز کو فائن ٹیون کرنا چاہتے ہیں۔

آپ نے سنا ہے کہ LLaMA-Factory میں ایک WebUI اور CLI اور یہاں تک کہ گوگل کولاب جادو بھی ہے۔

آپ کو ایسے ٹیوٹوریلز کی ضرورت ہے جو یہ فرض نہ کریں کہ آپ کلاؤڈ GPU فارم کے اندر رہتے ہیں۔

یہ ایک بہترین/ٹاپ لسٹ ہے جس میں عملی مشورے بھی شامل ہیں۔ میں ٹیوٹوریلز کو وضاحت، جدیدیت (Llama 3, QLoRA, 4-bit, WebUI workflows)، اور اس بنیاد پر درجہ بندی کر رہا ہوں کہ آیا وہ آپ کو صفر سے "میرا ماڈل اصل میں چلتا ہے" تک پہنچاتے ہیں۔ چلو چلتے ہیں۔

مختصر فہرست: ابھی بہترین LLaMA-Factory ٹیوٹوریلز

بصری سیکھنے والوں (اور بے صبری لوگوں) کے لیے یوٹیوب کریش کورس

یوٹیوب پر "LLaMA Factory کا استعمال کرتے ہوئے کوئی بھی LLMs کو فائن ٹیون کر سکتا ہے: اینڈ ٹو اینڈ"۔ اگر آپ کی توجہ کا دورانیہ TikTok ہے اور آپ کا GPU بجٹ ایک کافی ہے، تو یہ آپ کا ٹیوٹوریل ہے۔ یہ سیٹ اپ، ڈیٹا پریپ، اور LLaMA-Factory فلو میں اینڈ ٹو اینڈ رن کے ذریعے چلتا ہے۔ یہ ابتدائی افراد کے لیے دوستانہ ہے، WebUI دکھاتا ہے، اور یہ بتاتا ہے کہ کون سے بٹن کلک کرنے ہیں اور کیوں۔ عمل کو لائیو دیکھنے اور ہر 12 سیکنڈ میں کمانڈ کاپی کرنے کے لیے بہت اچھا ہے۔

بہترین برائے: بصری سیکھنے والے، ویک اینڈ پراجیکٹس، "مجھے کام کرتا ہوا دکھاؤ"۔ اس سے ہوشیار رہیں: درست ورژن اور فلیگز تبدیل ہو سکتے ہیں—اگر آپ کو کوئی غلطی ہوتی ہے تو ریپو ڈیفالٹس کو دوبارہ چیک کریں۔

پہلی بار فائن ٹیونرز کے لیے مرحلہ وار WebUI گائیڈ

ڈیٹا کیمپ سے "LLaMA-Factory WebUI ابتدائیوں کے لیے گائیڈ: LLMs کو فائن ٹیوننگ"۔ یہ ایک صاف ستھرا، تحریری واک تھرو ہے: انسٹال کریں، Llama 3 8B لوڈ کریں، LoRA یا QLoRA چنیں، ایک ڈیٹاسیٹ فیڈ کریں، ٹرین کریں، جانچیں، ایکسپورٹ کریں۔ آپ کو اسکرین شاٹس، کنفیگز، اور سیاق و سباق ملتا ہے۔ اگر آپ کو کبھی CLI نے ڈانٹا ہے، تو یہ شور منسوخ کرنے والے ہیڈ فون کی طرح محسوس ہوتا ہے۔

بہترین برائے: ابتدائی افراد، وہ لوگ جو ساخت چاہتے ہیں، کوئی بھی جو ڈاکر کمپوز کنفیٹی سے الرجی رکھتا ہو۔ اس سے ہوشیار رہیں: کلاؤڈ سیٹ اپ اور VRAM کی ضروریات سب کے لیے یکساں نہیں ہیں—اگر آپ ایک ہی ہارڈ ویئر پر نہیں ہیں تو موافقت کی توقع کریں۔

کولاب دوستانہ، فاسٹ سٹارٹ نسخہ

میڈیم پر "فائن ٹیوننگ آسان بنا دی گئی: آپ کی LLaMA Factory گائیڈ"۔ یہ ایک عملی کولاب پر مبنی ٹیوٹوریل ہے جو Llama 3 کے ساتھ LoRA استعمال کرتا ہے۔ اچھا ہے اگر آپ مقامی انسٹال سے بچنا چاہتے ہیں اور صرف مفت/سستے GPU وقت کے ساتھ ٹیسٹ ڈرائیو کرنا چاہتے ہیں۔ نوٹ بک کاپی کریں، ڈیٹاسیٹ کا راستہ تبدیل کریں، اور بوم: آپ کا پہلا ماڈل بچہ پیدا ہوا ہے۔ یہ اچھے انداز میں رائے پر مبنی ہے: LoRA، Colab، اور کم سے کم ہنگامہ۔

بہترین برائے: کولاب صارفین، بجٹ GPU ایکسپلوررز، "میں صرف ایک گھنٹے میں کچھ کام کرتا ہوا چاہتا ہوں"۔ اس سے ہوشیار رہیں: مفت کولاب آپ کو محدود کرتا ہے۔ ٹریننگ کا وقت ختم ہو سکتا ہے یا تھروٹل ہو سکتا ہے۔ ابتدائی اور اکثر چیک پوائنٹس کو محفوظ کریں۔

ٹھیک ہے، لیکن LLaMA-Factory اصل میں میرے لیے کیا کر رہا ہے؟ LLaMA-Factory کو فائن ٹیوننگ کے IKEA کے طور پر سوچیں: یہ آپ کو تمام حصے دیتا ہے، ان میں سے زیادہ تر پر لیبل لگاتا ہے، اور آپ کو ایک چھوٹی ایلن کی (WebUI) دیتا ہے تاکہ آپ اپنا شائستگی سے کنفیگر کردہ LLM خود جمع کر سکیں۔ یہ خوفناک بٹس—QLoRA کوانٹائزیشن، اڈاپٹرز، ٹوکنائزرز—کو پری سیٹس اور معقول ڈیفالٹس کے پیچھے تجرید کرتا ہے۔ آپ کو اب بھی ایک ڈیٹاسیٹ اور آداب والا GPU لانے کی ضرورت ہے، لیکن آپ کو خام درختوں سے صوفہ بنانے کی ضرورت نہیں ہے۔

اپنے استعمال کے معاملے کے لیے صحیح ٹیوٹوریل کا انتخاب کیسے کریں

میں نے اپنی زندگی میں کبھی کسی چیز کو فائن ٹیون نہیں کیا: ڈیٹا کیمپ WebUI گائیڈ سے شروع کریں، پھر یوٹیوب واک تھرو دیکھیں۔ ایک آپ کو دکھاتا ہے کہ کیا کلک کرنا ہے، دوسرا آپ کو دکھاتا ہے کہ یہ اصل میں کام کرنے پر کیسا لگتا ہے (اور یہ کہاں آسانی سے ناکام ہوتا ہے)۔

مجھے صرف بجٹ پر فوری POC کی ضرورت ہے: کولاب ٹیوٹوریل استعمال کریں۔ اپنے ڈیٹاسیٹ کو چھوٹا رکھیں اور اپنی توقعات کو کم رکھیں۔ پھر اڈاپٹر ایکسپورٹ کریں اور اپنی مقامی مشین یا سستے کلاؤڈ پر ٹیسٹ کریں۔

میں یہ ایک ورک سٹیشن یا کلاؤڈ GPU پر "درست" کرنا چاہتا ہوں: تصورات سیکھنے کے لیے WebUI ٹیوٹوریل سے شروع کریں، پھر CLI پر منتقل ہوں تاکہ آپ تجربات کو اسکرپٹ کر سکیں اور پیشہ ور کی طرح رنز کو ٹریک کر سکیں۔ اگر آپ کا VRAM لچکدار نہیں ہے تو 4-bit کارکردگی کے لیے QLoRA میں مکس کریں۔

پانچ منٹ کا کریش کورس: LLaMA-Factory ضروریات

WebUI بمقابلہ CLI: WebUI سیکھنے میں تیز تر ہے، پہلی رنز اور sanity checks کے لیے بہت اچھا ہے۔ CLI وہ طریقہ ہے جس سے آپ اپنے ٹریک پیڈ کو رلائے بغیر تجربات کو بیچ، خودکار اور ورژن کرتے ہیں۔

LoRA بمقابلہ QLoRA: LoRA ہلکے وزن والے اڈاپٹر تہوں کو شامل کرتا ہے—تیز اور موثر۔ QLoRA کوانٹائزیشن کو شامل کرتا ہے تاکہ آپ چھوٹے GPUs پر بڑے ماڈلز کو فائن ٹیون کر سکیں۔ یہ ٹریننگ کا IKEA پیک فلیٹ ورژن ہے۔

ڈیٹاسیٹس: اسے سخت اور صاف رکھیں۔ اگر آپ کا ڈیٹاسیٹ آپ کے کالج کے مضمون کے مسودوں کی طرح لگتا ہے، تو آپ کا ماڈل بھی ایسا ہی ہوگا۔

چیک پوائنٹس اور تشخیص: اکثر محفوظ کریں۔ ابتدائی تشخیص کریں۔ ہاں، آپ کا ماڈل "سیکھ رہا ہے،" لیکن کیا یہ وہ سیکھ رہا ہے جو آپ سوچتے ہیں؟ مارکروں والے بچہ کی طرح، نگرانی کلیدی ہے۔

سٹرن سٹائل منی سیٹ اپ گائیڈ (کسی بھی ٹیوٹوریل کے ساتھ استعمال کرنے کے لیے)

اپنا ماڈل چنیں: Llama 3 8B ایک دوستانہ آغاز ہے۔ چھوٹا چاہتے ہیں؟ ٹریننگ کے درد کو کم کرنے کے لیے ہدایت یافتہ 7–8B ویرینٹ آزمائیں۔

اپنا بجٹ طے کریں: 16GB VRAM سے کم؟ QLoRA پر جائیں۔ تقریباً 24GB؟ LoRA آرام دہ ہے۔ 48GB+؟ آپ فینسی ہیں؛ اگر آپ جانتے ہیں کہ آپ کیا کر رہے ہیں تو بڑے سیاق و سباق والی ونڈوز یا مکمل فائن ٹیونز پر غور کریں۔

ڈیٹا تیار کریں: واضح پرامپٹ/رسپانس فیلڈز کے ساتھ JSON یا CSV استعمال کریں۔ اسکیلنگ کرنے سے پہلے 2–10K اعلیٰ معیار کی مثالوں سے شروع کریں۔

اپنا راستہ چنیں: WebUI (آسان ترین) یا CLI (بہتر اسکیل کرتا ہے)۔ اوپر دیئے گئے ٹیوٹوریلز دونوں اسٹائل دکھاتے ہیں: یوٹیوب اور ڈیٹا کیمپ گائیڈز WebUI پر جھکتے ہیں؛ میڈیم کا مضمون نوٹ بک/CLI ہائبرڈ پر جھکتا ہے۔

سمارٹ ٹرین کریں: چھوٹا شروع کریں—کم epochs، زیادہ سیکھنے کی شرح، چھوٹا سب سیٹ۔ اگر یہ 10–20 منٹ میں بہتر نہیں ہوتا ہے، تو کچھ تبدیل کریں اور دوبارہ کوشش کریں۔ تکرار اندھے ایمان کو شکست دیتی ہے۔

ایک شکی کی طرح تشخیص کریں: 50–100 مثال کے ٹیسٹ سیٹ بنائیں جو حقیقی استعمال کی عکاسی کرتا ہو۔ مشکل سوالات پوچھیں۔ سچائی کو انعام دیں، لفظوں کو نہیں۔

بہترین ٹیوٹوریلز کی درجہ بندی (اور کیوں)

ڈیٹا کیمپ کی LLaMA-Factory WebUI گائیڈ — بہترین مجموعی تحریری واک تھرو

یہ کیوں بہت اچھا ہے: یہ حالیہ ہے، یہ Llama 3 استعمال کرتا ہے، اور یہ آپ کو تھیوری میں دفن نہیں کرتا ہے۔ یہ وہ "ایلن کی کے ساتھ اسے جمع کریں" سبق ہے جو آپ اصل میں چاہتے ہیں۔

اسے کون استعمال کرے: فائن ٹیوننگ یا WebUI میں نیا کوئی بھی شخص۔ یہ حقیقی آؤٹ پٹ کے ساتھ اعتماد بڑھانے والا ہے۔

یوٹیوب اینڈ ٹو اینڈ ویڈیو — بہترین بصری پرائمر اور رفتار بڑھانے والا

یہ کیوں بہت اچھا ہے: آپ فلو، رفتار اور غلطیاں دیکھتے ہیں۔ یہ آپ کے کلک کرنے سے پہلے اسکرین پر دوست رکھنے کے قریب ترین چیز ہے۔

اسے کون استعمال کرے: بصری سیکھنے والے، بے صبر بلڈرز، ویک اینڈ ٹنکررز۔

میڈیم کی کولاب گائیڈ — زیرو انسٹال تجربات کے لیے بہترین

یہ کیوں بہت اچھا ہے: آپ کو اپنے لیپ ٹاپ پر PyTorch ویلز سے لڑنے کی ضرورت نہیں ہے۔ چلائیں، دیکھیں، ایکسپورٹ کریں۔

اسے کون استعمال کرے: پانی کی جانچ کرنے والے لوگ یا مقامی CUDA ڈرامہ سے بچنے والے۔

یہ ٹیوٹوریلز کیا چھوڑتے ہیں (اور خلا کو کیسے پُر کرنا ہے)

ورژن پنینگ: ٹولنگ تیزی سے حرکت کرتی ہے۔ اگر آپ کی رن ٹوٹ جاتی ہے، تو ٹیوٹوریل میں استعمال ہونے والا LLaMA-Factory ورژن اور آپ نے جو انسٹال کیا ہے اسے چیک کریں۔ ان سے میچ کریں، یا ریپو چینج لاگ کو ایک پلاٹ ٹوئسٹ کی طرح پڑھیں۔

ٹوکنائزر مماثلت: اگر رسپانس الفابیٹ سوپ کی طرح نظر آتے ہیں، تو تصدیق کریں کہ ٹوکنائزر بیس ماڈل سے میل کھاتا ہے۔ یہ غلط سب ٹائٹلز کے ساتھ ایک آڈیو بک پڑھنے کی کوشش کرنے کی طرح ہے۔

VRAM بجٹنگ: ٹیوٹوریلز اکثر دکھاتے ہیں "میں نے یہ کیسے کیا" "اسے کیسے اسکیل کرنا ہے" نہیں۔ اگر آپ کو CUDA آؤٹ آف میموری کی غلطیاں ہو رہی ہیں، تو بیچ سائز کم کریں، گریڈینٹ چیک پوائنٹنگ استعمال کریں، اور 4-bit QLoRA آن کریں۔ آپ کا GPU آپ کا شکریہ ادا کرے گا۔

آپ کی پہلی فائن ٹیون: ایک ٹیمپلیٹ پلان جسے آپ اصل میں چوری کر سکتے ہیں

مقصد: کسٹمر سپورٹ اسٹائل چیٹ بوٹ کے لیے QLoRA کے ساتھ Llama 3 8B کو فائن ٹیون کریں۔

ہارڈ ویئر: 16GB GPU (ہاں، واقعی)، یا ایک کلاؤڈ T4/A10G/A100 اگر آپ زیادہ برداشت کر سکتے ہیں۔

ڈیٹا: آپ کے ڈومین سے 5,000 کیوریٹڈ Q&A جوڑے۔ صاف، مستقل اسٹائل۔ کوئی ڈپلیکیٹ نہیں ہے۔ 500 کو توثیق کے لیے وقف کریں۔

مراحل:

ماحول اور UI چلانے کے لیے ڈیٹا کیمپ WebUI ٹیوٹوریل پر عمل کریں۔

ٹریننگ سیٹنگز کے تحت منتخب کریں: بیس ماڈل = Llama 3 8B Instructor; طریقہ = QLoRA; 4-bit میں لوڈ کریں; بیچ سائز چھوٹا (1–2); بڑے بیچوں کو متحرک کرنے کے لیے گریڈینٹ جمع کرنا; 1–2 epochs۔

10% ڈیٹا سب سیٹ سے شروع کریں۔ اگر نقصان کم ہوتا ہے اور توثیق معنی خیز ہوتی ہے، تو مکمل سیٹ میں گریجویٹ کریں۔

اڈاپٹر ایکسپورٹ کریں اور ایک انفرنس اسکرپٹ میں ٹیسٹ کریں۔ اگر جوابات بہت طویل ہیں، تو سسٹم پرامپٹس کو موافق بنائیں اور درجہ حرارت کو کم کریں۔

دہرائیں: سیکھنے کی شرح، epoch شمار ڈائل کریں، اور کم معیار کی مثالوں کو کاٹ دیں۔

کامیابی کی جانچ: آپ کا ماڈل ڈومین کے سوالات کا مختصر جواب دیتا ہے، درست اصطلاحات کا حوالہ دیتا ہے، اور پالیسیاں ایجاد نہیں کرتا ہے۔ اگر یہ آپ کے تخلیقی تحریر کے انٹرن کے طور پر کردار ادا کرتا ہے، تو آپ نے زیادہ فٹ یا کم صاف کیا ہے۔

GPU میں ٹربل شوٹنگ آپ کو مارتی ہے؟ انہیں آزمائیں

"CUDA OOM": بیچ سائز کو سکیڑیں، گریڈینٹ چیک پوائنٹنگ کو فعال کریں، یا 4-bit استعمال کریں۔ اگر آپ اب بھی پھنسے ہوئے ہیں، تو ایک چھوٹا ماڈل پر سوئچ کریں یا آخری epoch کے لیے ایک بڑا GPU کرایہ پر لیں۔

"نقصان ٹس سے مس نہیں ہوتا": برا ڈیٹا یا بہت چھوٹا۔ ڈیٹا کی قسم میں اضافہ کریں، سیکھنے کی شرح کو کم کریں، یا چیک کریں کہ کیا آپ کے LoRA رینک بہت چھوٹے ہیں۔

"آؤٹ پٹ بدتمیز/عجیب ہیں": ہدایتی طور پر ٹیونڈ بیس ماڈلز اور آپ کے ڈیٹاسیٹ میں مستقل رسپانس فارمیٹ کے ذریعے اسٹائل کو سیدھ میں لائیں۔ ماڈلز وہی نقل کرتے ہیں جو وہ دیکھتے ہیں—اس طرح ٹرین کریں جیسے آپ کا مطلب ہو۔

تنصیب: لیب سے لیپ ٹاپ تک (اور اس سے آگے)

LoRA اڈاپٹرز ایکسپورٹ کریں اور اگر ضرورت ہو تو ضم کریں۔ ایج ڈیوائسز کے لیے، پورٹیبلٹی کے لیے اڈاپٹرز کو الگ رکھیں۔ سرورز کے لیے، سادگی اور رفتار کے لیے ضم کریں۔

انفرنس کے لیے کوانٹائز کریں۔ اگر آپ نے 4-bit پر ٹریننگ کی ہے، تو لیٹنسی اور وفاداری کو متوازن کرنے کے لیے 4-, 5-, اور 8-bit انفرنس ٹیسٹ کریں۔

گارڈریلز شامل کریں۔ مثالوں کے ساتھ ایک سادہ پرامپٹ ریپر حیرت انگیز کام کرتا ہے۔ یا ایک چھوٹا رول سیٹ چیکر ماڈل استعمال کریں جو آپ کے صارفین کو مارنے سے پہلے بکواس کو فلٹر کرتا ہے۔

کیا آپ کو طویل مدتی WebUI یا CLI چننا چاہیے؟

WebUI آپ کا پسندیدہ کافی شاپ ہے: آرام دہ، تیز، کم رگڑ۔

CLI آپ کا گھریلو کچن ہے: زیادہ نوبس، زیادہ گندگی، زیادہ کنٹرول۔ اگر آپ ہفتہ وار فائن ٹیوننگ کر رہے ہیں، تو بالآخر آپ اسکرپٹس، تجرباتی ٹریکرز اور دوبارہ قابل ترتیب کنفیگز چاہیں گے۔ WebUI میں شروع کریں، CLI میں گریجویٹ ہوں۔

قابل ذکر: Sider.AI "اسے مجھے اس طرح سمجھائیں جیسے میں اپنی تیسری ایسپریسو پر ہوں" لمحات میں مدد کر سکتا ہے۔ اگر آپ اپنی کنفیگ یا لاگز کو Sider.AI چیٹ میں پیسٹ کرتے ہیں، تو آپ کو موافق بنانے کے لیے پیرامیٹرز کے لیے فوری تجاویز مل سکتی ہیں، آپ نے کون سا ٹیوٹوریل مرحلہ ممکنہ طور پر چھوڑ دیا ہے، اور ایک sanity check اس سے پہلے کہ آپ غلط سیکھنے کی شرح میں دو گھنٹے ڈبو دیں۔ یہ ایک دوستانہ TA کی طرح ہے جو آپ کو گریڈ نہیں کر رہا ہے—صرف آپ کو تیز کر رہا ہے۔

فوری موازنہ: کون سا ٹیوٹوریل کس کام کے لیے جیتتا ہے

مکمل ابتدائی افراد کے لیے بہترین: ڈیٹا کیمپ کی WebUI گائیڈ (واضح مراحل، جدید ماڈلز)۔

"مجھے ابھی دکھائیں" کے لیے بہترین: یوٹیوب اینڈ ٹو اینڈ (بصری فلو، کاپی دی کلکس)۔

بغیر انسٹال تجربات کے لیے بہترین: میڈیم کی کولاب گائیڈ (تیزی سے چلائیں، کم خرچ کریں)۔

اعلیٰ درجے کے ایڈ آنز (جب آپ سطح بلند کرنے کے لیے تیار ہوں)

LoRA سے ماورا PEFT اڈاپٹرز: مختلف رینکس اور الفاس آزمائیں۔ چھوٹی تبدیلیاں، بڑے اثرات۔

نصابی فائن ٹیوننگ: عام ہدایت ڈیٹا سے شروع کریں، پھر تنگ ڈومین ڈیٹا پر منتقل ہوں۔

مخلوط درستگی اور میموری چالیں: اگر تعاون یافتہ ہو تو bf16; فلیش اٹینشن; اپنے GPU کو خراٹے لینے دیں۔

تشخیصی سوئٹس: ایک کسٹم eval سیٹ کے علاوہ چند عوامی کام بنائیں۔ اپنے val سیٹ اور ایک چھوٹے آؤٹ آف ڈومین سیٹ کے درمیان انحراف کی نگرانی کرکے اوور فٹنگ کو ٹریک کریں۔

ایک چھوٹی لغت تاکہ آپ کو سر ہلانے اور بہانہ کرنے کی ضرورت نہ پڑے

LoRA: ہلکے وزن والے اڈاپٹر تہیں جنہیں آپ پورے بڑے ماڈل کے بجائے ٹرین کرتے ہیں۔ وقت اور VRAM بچاتا ہے۔

QLoRA: LoRA کی طرح، لیکن ٹریننگ کے دوران بیس ویٹس کو کمپریس (کوانٹائز) کیا جاتا ہے۔ ہیلو، 4-bit۔

اڈاپٹر ضم کرنا: آسان تعیناتی کے لیے بیس ماڈل کے ساتھ اڈاپٹر ویٹس کو یکجا کریں۔

ٹوکنائزر: وہ چیز جو جملوں کو ٹوکنز میں کاٹتی ہے۔ غلط ٹوکنائزر = انڈے کی بھجیا۔

میری رائے: آپ کو کس ٹیوٹوریل سے شروع کرنا چاہیے؟ اگر آپ کا مقصد پہلی کامیابی کی رفتار ہے، تو ڈیٹا کیمپ سے شروع کریں۔ اسے یوٹیوب واک تھرو کے ساتھ جوڑیں—دیکھیں، کلک کریں، جیتیں۔ پھر، اپنی دوسری رن کے لیے، ایک اور راستہ دیکھنے کے لیے کولاب گائیڈ کو گھمائیں۔ آپ ایک بڑا تھریڈ پڑھنے کے مقابلے میں دو چھوٹی رنز کرکے زیادہ سیکھیں گے۔ اور آپ کا GPU HR کے پاس شکایت درج نہیں کرائے گا۔

سٹرن کا اختتام: فائن ٹیوننگ اب بالکل قابل عمل ہے۔ LLaMA-Factory نے "ناامیدی کی چٹان" کو ہینڈریلز والی سیڑھی میں بدل دیا۔ ایک ٹیوٹوریل چنیں، چھوٹا شروع کریں، اور دہرائیں۔ آپ کا مستقبل کا فائن ٹیون ماڈل آپ کا شکریہ ادا کرے گا کہ آپ کی رقم کی واپسی کی پالیسی کو تخیلاتی نہیں بنا رہا ہے۔

لنکس جو آپ اصل میں استعمال کریں گے

یوٹیوب: اینڈ ٹو اینڈ LLaMA-Factory فائن ٹیون واک تھرو۔

ڈیٹا کیمپ: LLaMA-Factory WebUI ابتدائیوں کے لیے گائیڈ۔

میڈیم: کولاب پر مبنی LLaMA-Factory کوئیک سٹارٹ۔

90 سیکنڈ میں ایکشن پلان

ڈیٹا کیمپ گائیڈ چنیں اور WebUI سیٹ اپ کریں۔

ایک چھوٹا ڈیٹاسیٹ تیار کریں (500–1,000 جوڑیاں)۔ اسے صاف رکھیں۔

QLoRA، 4-bit، چھوٹے بیچوں کے ساتھ ٹرین کریں۔

100 ہاتھ سے چنے ہوئے سوالات پر تشخیص کریں۔

دو یا تین بار دہرائیں۔ پھر طویل رنز اور بڑے ڈیٹا میں گریجویٹ ہوں۔

اب کچھ مفید فائن ٹیون کریں۔ اور یاد رکھیں: اگر آپ کا GPU چیختا ہے، تو یہ صرف "بیچ سائز کم کریں" کہہ رہا ہے۔

عمومی سوالات

Q1:حقیقی ابتدائی افراد کے لیے بہترین LLaMA-Factory ٹیوٹوریل کیا ہے؟ ڈیٹا کیمپ سے LLaMA-Factory WebUI گائیڈ کے ساتھ شروع کریں—یہ واضح، موجودہ ہے، اور Llama 3 استعمال کرتا ہے۔ ایک بصری sanity check کے لیے یوٹیوب اینڈ ٹو اینڈ واک تھرو کے ساتھ جوڑیں تاکہ آپ کو معلوم ہو کہ ٹرین پر کلک کرنے سے پہلے کامیابی کیسی نظر آتی ہے۔

Q2:کیا میں گوگل کولاب پر LLaMA-Factory ماڈلز کو فائن ٹیون کر سکتا ہوں؟ ہاں، کولاب پر مبنی ٹیوٹوریل LLaMA-Factory فائن ٹیوننگ کو حیرت انگیز طور پر تکلیف دہ بناتا ہے۔ صرف اپنے سیشن کے وقت اور VRAM حدود کو دیکھیں، اکثر چیک پوائنٹس کو محفوظ کریں، اور اپنی پہلی رن کے لیے ڈیٹاسیٹس کو چھوٹا رکھیں۔

Q3:مجھے LLaMA-Factory کے ساتھ LoRA یا QLoRA استعمال کرنا چاہیے؟ اگر آپ VRAM پر محدود ہیں، تو QLoRA آپ کا دوست ہے—4-bit ٹریننگ، چھوٹا میموری فٹ پرنٹ۔ اگر آپ کے پاس زیادہ GPU ہیڈ روم ہے، تو معیاری LoRA آسان ہے اور پھر بھی فائن ٹیوننگ کے لیے بہت موثر ہے۔

Q4:میں ٹریننگ کے دوران CUDA آؤٹ آف میموری کی غلطیوں کو کیسے ٹھیک کروں؟ اپنے بیچ سائز کو کم کریں، گریڈینٹ چیک پوائنٹنگ آن کریں، اور 4-bit QLoRA استعمال کریں۔ اگر وہ اب بھی ناکام ہو جاتا ہے، تو ایک چھوٹا بیس ماڈل آزمائیں یا بھاری ترین قدم کے لیے زیادہ VRAM والا GPU کرایہ پر لیں۔

Q5:میں کیسے جانوں کہ میری LLaMA-Factory فائن ٹیون اصل میں کام کر گئی؟ ایک چھوٹا، حقیقت پسندانہ تشخیص سیٹ بنائیں اور فائن ٹیوننگ سے پہلے اور بعد میں آؤٹ پٹ کا موازنہ کریں۔ اگر آپ کا ماڈل تیزی سے، زیادہ درست طریقے سے جواب دیتا ہے، اور آپ کی کمپنی کی چھٹی کی پالیسی کو تخیلاتی نہیں بناتا ہے، تو آپ صحیح راستے پر ہیں۔