أفضل 10 دروس تعليمية لـ LlamaIndex لإتقان RAG في عام 2025
إذا سمعت أن الجيل المعزز بالاسترجاع (RAG) يمكن أن يجعل تطبيقات LLM الخاصة بك أكثر ذكاءً، فأنت على حق. أسرع طريقة لإطلاق مساعد ذكاء اصطناعي موثوق يشبه البحث اليوم هي تعلم LlamaIndex جيدًا - وأفضل الدروس التعليمية لـ LlamaIndex يمكن أن تقلل منحنى التعلم الخاص بك من شهور إلى أيام.
في هذا الدليل، نختار بعناية أفضل الدروس التعليمية لـ LlamaIndex لكل مستوى - من البدايات السريعة للنسخ واللصق إلى خطوط الأنابيب ذات درجة الإنتاج. ستجد إرشادات فيديو، ودفاتر ملاحظات عملية، ووصفات متقدمة للبيانات متعددة المستأجرين، والاستخراج المنظم، والوكلاء، والتقييم.
سنقوم أيضًا بتعيين كل درس تعليمي للمهارة أو النتيجة التي تهتم بها: بناء دردشة عبر مستنداتك، وتوسيع نطاق التضمينات، وإضافة الأدوات، وبث الإجابات، أو التحقق من النتائج.
بحلول النهاية، ستعرف أي درس تعليمي لـ LlamaIndex تبدأ به، وأي منها تتبعه بعد ذلك، وكيفية دمجها في منتج حقيقي.
لماذا تعتبر الدروس التعليمية لـ LlamaIndex مهمة الآن
- RAG هو المضارع لتطبيقات الذكاء الاصطناعي. LLMs تهلوس؛ RAG يؤسس الإجابات في بياناتك.
- LlamaIndex هو أكثر مجموعات RAG تماسكًا. إنه يغلف الفهرسة والاسترجاع وتخطيط الاستعلام والمراقبة والتقييم في وحدات قابلة للتركيب تعمل بشكل جيد مع LangChain و OpenAI و Anthropic و LLMs مفتوحة المصدر.
- الدروس التعليمية هي طريقك السريع. لا توضح أفضل الدروس التعليمية لـ LlamaIndex التعليمات البرمجية فحسب، بل توضح أيضًا قرارات التصميم: التجميع وإعادة الترتيب والتخزين المؤقت والحواجز الواقية.
إذا كان هدفك هو: "الدردشة مع مستنداتي ولا تهلوس"، فستوصلك هذه القائمة إلى هناك.
كيف اخترنا أفضل الدروس التعليمية لـ LlamaIndex
- موجهة نحو النتائج: يجب أن تشحن شيئًا مفيدًا بعد كل درس تعليمي.
- محدثة لعام 2025: تعكس واجهات برمجة تطبيقات LlamaIndex الحالية (على سبيل المثال،
VectorStoreIndex، Settings، QueryPipeline، ReActAgent).
- واعية بالإنتاج: تعرض التقييم والتتبع والتكرار - بما يتجاوز مرحلة hello world.
- الاتساع + العمق: من البدايات السريعة إلى الوكلاء والوسائط المتعددة والاستخراج المنظم.
أفضل 10 دروس تعليمية لـ LlamaIndex (تم اختيارها بعناية)
فيما يلي مسار منظم. ابدأ بمستواك؛ اقفز حيثما دعت الحاجة.
1) البداية السريعة لمدة 15 دقيقة: الدردشة عبر ملفات PDF الخاصة بك
- الأفضل لـ: المبتدئين المطلقين ومديري المنتجات
- ما ستبنيه: تحميل ملفات PDF وفهرستها وطرح الأسئلة والحصول على الاقتباسات
- المفاهيم الأساسية:
SimpleDirectoryReader، VectorStoreIndex، Settings، التضمينات
- لماذا هو رائع: الحد الأدنى من التعليمات البرمجية، والحد الأقصى من لحظة "آها!"
مثال على الهيكل:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.llms.openai import OpenAI
Settings.llm = OpenAI(model="gpt-4o-mini")
Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small")
docs = SimpleDirectoryReader("./docs").load_data
index = VectorStoreIndex.from_documents(docs)
query_engine = index.as_query_engine(similarity_top_k=3)
response = query_engine.query("What are the key findings in the Q3 report?")
print(response)
- ما ستتعلمه بعد ذلك: حجم التجميع، وأعلى k، وسبب أهمية إعادة الترتيب.
2) أساسيات RAG مع التجميع والبيانات الوصفية وإعادة الترتيب
- الأفضل لـ: المبتدئين → المتوسطين
- ما ستبنيه: مسترجع أكثر ذكاءً بجودة سياق أفضل
- المفاهيم الأساسية:
SentenceSplitter، عوامل تصفية البيانات الوصفية، مكونات rerank
- لماذا هو رائع: يوضح كيف أن عدد قليل من المقابض يقلل بشكل كبير من الهلوسة
جرب:
from llama_index.core.node_parser import SentenceSplitter
from llama_index.postprocessor.flag_embedding_reranker import FlagEmbeddingReranker
splitter = SentenceSplitter(chunk_size=512, chunk_overlap=100)
# attach metadata like source, page, section during ingest
reranker = FlagEmbeddingReranker(top_n=5)
query_engine = index.as_query_engine(
similarity_top_k=15,
node_postprocessors=[reranker]
)
- النتيجة: نوافذ سياق ذات جودة أعلى للمستندات الطويلة.
3) LlamaIndex + استدعاء وظائف OpenAI (استخدام الأدوات والإخراج المنظم)
- الأفضل لـ: البناة الذين يقومون بأتمتة مهام سير العمل
- ما ستبنيه: وكيل يستدعي الأدوات ويعيد مخططات JSON
- المفاهيم الأساسية:
QueryPipeline، مواصفات الأدوات، مخططات Pydantic، استدعاء الوظائف
- لماذا هو رائع: يربط بين الأسئلة والأجوبة والإجراءات الحقيقية (البحث، CRUD، واجهات برمجة التطبيقات)
from pydantic import BaseModel
from llama_index.core.tools import FunctionTool
class Ticket(BaseModel):
title: str
severity: str
def create_ticket(title: str, severity: str) -> str:
# write to your system
return f"Ticket created: {title} ({severity})"
tool = FunctionTool.from_defaults(fn=create_ticket)
agent = index.as_chat_engine(tools=[tool], chat_mode="react")
print(agent.chat("Create a P1 ticket for database latency spikes."))
- النتيجة: أنماط جاهزة للإنتاج للاستخراج المنظم والعمل.
4) بناء متجر متجه إنتاج (Postgres، Pinecone، Weaviate)
- الأفضل لـ: الفرق التي تخطط للتوسع
- ما ستبنيه: تخزين متجه دائم مع عوامل التصفية والبحث المختلط
- المفاهيم الأساسية: محولات
VectorStoreIndex، BM25+التضمينات الهجينة، البيانات الوصفية
- لماذا هو رائع: يعلم الثبات والترحيل والتحكم في التكاليف
نصائح:
- استخدم Postgres/pgvector لعمليات نشر بسيطة وبأسعار معقولة.
- Pinecone/Weaviate للتوسع المدار؛ اضبط
ef_construction، ef_search.
- أضف استرجاعًا هجينًا للتعامل مع المصطلحات النادرة والاختصارات.
5) تخطيط الاستعلام والاستدلال متعدد الخطوات مع الوكلاء
- الأفضل لـ: الأسئلة المعقدة والبحث متعدد مجموعات البيانات
- ما ستبنيه: مخطط يحلل الاستعلام إلى استعلامات فرعية
- المفاهيم الأساسية:
ReActAgent، SubQuestionQueryEngine، التوجيه
- لماذا هو رائع: يتجاوز "الاسترجاع ثم الإجابة" إلى "التفكير ثم البحث".
نمط:
from llama_index.core.query_engine import SubQuestionQueryEngine
from llama_index.core.tools import QueryEngineTool, ToolMetadata
# suppose you have multiple indices
engine_a = index_a.as_query_engine
engine_b = index_b.as_query_engine
sqe = SubQuestionQueryEngine.from_defaults(
query_engine_tools=[
QueryEngineTool(engine=engine_a, metadata=ToolMetadata(name="finance")),
QueryEngineTool(engine=engine_b, metadata=ToolMetadata(name="product")),
]
)
print(sqe.query("How did product churn affect Q4 revenue?"))
6) إمكانية المراقبة والتقييم: التتبع والتأسيس والمعايير
- الأفضل لـ: أي شخص يشحن تطبيقات حقيقية
- ما ستبنيه: حلقات ملاحظات للكشف عن حالات الانحدار والهلوسة
- المفاهيم الأساسية: LlamaIndex evals، QA المصنفة، فحوصات الاقتباس، التتبع
- لماذا هو رائع: يعلمك قياس ما يهم قبل التوسع
قائمة التحقق:
- سجل جميع المطالبات/الاستجابات مع التتبعات.
- استخدم مجموعات بيانات QA المصنفة لاختبار الانحدار.
- تتبع التأسيس وتغطية الاقتباس.
7) RAG للبيانات متعددة الوسائط (الصور والجداول وعلامات Markdown)
- الأفضل لـ: المستندات التي تحتوي على مخططات ولقطات شاشة وجداول
- ما ستبنيه: خطوط أنابيب تستخرج النص من الصور وتستدل على الجداول
- المفاهيم الأساسية: OCR + تحليل التخطيط، تجميع الجداول، النماذج متعددة الوسائط
- لماذا هو رائع: مستندات العالم الحقيقي فوضوية؛ يوضح لك هذا البرنامج التعليمي كيفية ترويضها.
8) متعدد المستأجرين وعزل الاسترجاع
- ما ستبنيه: خدمة RAG حيث يتم عزل بيانات كل عميل
- المفاهيم الأساسية: مساحات الأسماء، وحراس البيانات الوصفية، والفهارس لكل مستأجر، و RBAC
- لماذا هو رائع: الأمن والخصوصية بالتصميم؛ مسارات ترقية نظيفة.
9) الاستخراج المنظم على نطاق واسع (الفواتير والسجلات والعقود)
- الأفضل لـ: العمليات والمالية وسير العمل القانوني
- ما ستبنيه: مخرجات JSON حتمية مع التحقق من صحة المخطط
- المفاهيم الأساسية: مخططات Pydantic، عمليات إعادة المحاولة، التحقق المعزز بالأدوات
- لماذا هو رائع: يقلل المراجعة اليدوية ويجعل إخراج LLM موثوقًا به.
10) نمط الإنتاج الشامل: من دفاتر الملاحظات إلى CI/CD
- الأفضل لـ: الفرق التي تنتقل إلى prod
- ما ستبنيه: خط أنابيب كامل مع استيعاب البيانات ووظائف الفهرسة والتقييم وبوابات الإصدار
- المفاهيم الأساسية: العمال في الخلفية، إعادة الفهرسة المجدولة، علامات الميزات
- لماذا هو رائع: يوضح كيفية الشحن باستمرار بثقة.
اختيار البرنامج التعليمي المناسب لـ LlamaIndex لهدفك
استخدم هذا الموجه السريع لاختيار خطوتك التالية:
- "أحتاج إلى نتائج اليوم." ابدأ بالبداية السريعة (البرنامج التعليمي رقم 1)، ثم أضف إعادة الترتيب (البرنامج التعليمي رقم 2).
- "أريد إجراءات، وليس مجرد إجابات." انتقل إلى استدعاء الوظائف والوكلاء (البرنامجان التعليميان رقم 3 ورقم 5).
- "لدينا احتياجات التوسع والامتثال." أنماط التخزين + متعدد المستأجرين (البرنامجان التعليميان رقم 4 ورقم 8).
- "كيف نثق في الإجابات؟" Evals والتتبع (البرنامج التعليمي رقم 6).
- "مستنداتنا مرئية بشكل كبير." RAG متعدد الوسائط (البرنامج التعليمي رقم 7).
- "نحن بحاجة إلى بيانات منظمة." استخدم المخططات والمتحققين (البرنامج التعليمي رقم 9).
الغوص العميق: أفضل الممارسات التي ستراها عبر أفضل دروس LlamaIndex التعليمية
1) التجميع هو قرار المنتج
- المفاضلة: أجزاء أكبر = سياق أكبر ولكن تكلفة رمز أعلى؛ أجزاء أصغر = استدعاء أعلى ولكن معنى مجزأ.
- الافتراضات الجيدة: 512-1024 رمزًا مع تداخل ~10-20٪.
- البيانات الوصفية مهمة: الحفاظ على المصدر والصفحة والقسم والعناوين.
2) جودة الاسترجاع تتفوق على حجم النموذج
- إعادة الترتيب: أضف برنامج ترميز متقاطع أو إعادة ترتيب التضمين لتحسين MRR.
- البحث الهجين: اجمع بين BM25 للمصطلحات النادرة مع التضمينات للدلالات.
- عوامل التصفية: تضييق حسب نوع المستند أو التاريخ أو المستأجر لتحسين الدقة.
3) قم بالتقييم مبكرًا، وقم بالتقييم دائمًا
- QA المصنفة: قم ببناء مجموعة صغيرة من أزواج الأسئلة والأجوبة مع الاقتباسات.
- المقاييس: صحة الإجابة، والتأسيس، والكمون، والتكلفة لكل استعلام.
- A/B بأمان: انشر ظلًا جديدًا للتجميع أو المسترجعات قبل القطع.
4) اجعل الإجراءات من الدرجة الأولى
- الإخراج المنظم: استخدم المخططات لمهام الاستخراج.
- الأدوات: قم بتغليف واجهات برمجة التطبيقات (البحث والتقويم وقاعدة البيانات) كوظائف للوكلاء للاتصال بها.
- الحواجز الواقية: تحقق من صحة المخرجات، وقم بتنفيذ عمليات إعادة المحاولة، وسجل أخطاء الأدوات.
5) تكلفة ونظافة الكمون
- التضمينات المخزنة مؤقتًا: قم بإلغاء تكرار النص وإعادة استخدام المتجهات عبر الإصدارات.
- عمليات الدُفعات: الفهرسة بكميات كبيرة؛ بث الإجابات لتحسين تجربة المستخدم.
- سياق أكثر ذكاءً: لا تفرط في حشو المطالبة - أعلى k + إعادة الترتيب بدلاً من ذلك.
خطة تعلم لمدة 7 أيام باستخدام أفضل دروس LlamaIndex التعليمية
- اليوم الأول: البداية السريعة (البرنامج التعليمي رقم 1). قم ببناء دردشة عبر ملف PDF مكون من 20 صفحة. شحن CLI.
- اليوم الثاني: تحسين الاسترجاع (البرنامج التعليمي رقم 2). أضف إعادة ترتيب + بحث هجين.
- اليوم الثالث: إضافة استدعاء الوظائف (البرنامج التعليمي رقم 3). قم بإنشاء أداة للأسئلة الشائعة في واجهة برمجة التطبيقات الخاصة بك.
- اليوم الرابع: الانتقال إلى متجر متجه حقيقي (البرنامج التعليمي رقم 4). استخدم pgvector محليًا.
- اليوم الخامس: تقديم مخطط (البرنامج التعليمي رقم 5). توجيه الأسئلة عبر مؤشرين.
- اليوم السادس: إضافة تقييم (البرنامج التعليمي رقم 6). قم بإنشاء مجموعة اختبار مكونة من 30 سؤالًا وخط أساس.
- اليوم السابع: تمريرة الإنتاج (البرنامج التعليمي رقم 10). وظائف الخلفية، وإمكانية المراقبة، و CI.
مثال على المشروع: "بواب المستندات" مع LlamaIndex
- الهدف: مساعد داخلي آمن يجيب على الأسئلة حول مستندات العملية ويفتح التذاكر.
- المجموعة: LlamaIndex، Postgres/pgvector، OpenAI/Anthropic، FastAPI، S3.
- استيعاب صادرات Confluence وملفات PDF (الاحتفاظ بالبيانات الوصفية + ACLs).
- تجميع عند 768 رمزًا؛ الفهرسة إلى pgvector.
- أضف استرجاعًا هجينًا وإعادة ترتيب.
- إنشاء أدوات:
create_jira_ticket، lookup_oncall، fetch_policy.
- إضافة تقييم مع 50 سؤالًا منسقًا؛ قياس التأسيس.
- النشر مع واجهة مستخدم البث ومعاينات الاقتباس.
- النتيجة: إجابات سريعة ومقتبسة؛ أتمتة المهام بنقرة واحدة؛ دقة قابلة للقياس.
الأخطاء الشائعة التي تساعدك هذه الدروس التعليمية على تجنبها
- تخطي التقييم: إذا لم تختبر، فستقوم بشحن حالات الانحدار.
- تجاهل البيانات الوصفية: ستفقد إسناد المصدر وقوة التوجيه.
- أجزاء كبيرة الحجم: تزيد انتفاخ الرمز من التكلفة دون إجابات أفضل.
- الأدوات غير المحددة بشكل كافٍ: يحتاج الوكلاء إلى مدخلات واضحة ومخرجات حتمية.
- لا يوجد عزل: يجب أن يمنع RAG متعدد المستأجرين التسرب عبر العملاء.
الأدوات التي تكمل دروس LlamaIndex التعليمية
- متاجر المتجهات: pgvector، Pinecone، Weaviate، Qdrant
- إعادة الترتيب: Cohere Rerank، FlagEmbedding، Voyage rerank
- التجميع: أدوات التقسيم الدلالية، وأدوات التقسيم المدركة للجدول
- Evals: QA على غرار Ragas، و LlamaIndex evals، والمصنفون المخصصون
- UI: Streamlit، Next.js، مآخذ توصيل FastAPI لبث الرموز المميزة
بالمناسبة، إذا كنت ترغب في التعلم عن طريق القيام داخل متصفحك، فمن الجدير بالذكر أن Sider.ai يتيح لك الدردشة مع التعليمات البرمجية والمستندات وصفحات الويب جنبًا إلى جنب. يمكنك لصق مقتطفات من دروس LlamaIndex التعليمية، وتشغيل المطالبات، والتكرار بشكل أسرع - وهو أمر مفيد لاختبار مطالبات RAG واستخراج المخرجات المنظمة أثناء المتابعة. ما الذي تبحث عنه: العثور على دروس LlamaIndex التعليمية الحديثة
- "أفضل دروس LlamaIndex التعليمية لعام 2025"
- "LlamaIndex quickstart RAG pdf"
- "مثال LlamaIndex SubQuestionQueryEngine"
- "LlamaIndex evaluation groundedness tutorial"
- "دليل LlamaIndex pgvector Pinecone"
- "مثال استدعاء وظائف وكلاء LlamaIndex"
ابحث عن التعليمات البرمجية الحديثة باستخدام Settings.llm، Settings.embed_model، VectorStoreIndex، و as_query_engine - هذه هي التعابير الحالية.
النقاط الرئيسية
- تساعدك أفضل دروس LlamaIndex التعليمية على شحن النتائج، وليس فقط مقتطفات التعليمات البرمجية.
- ابدأ بالدردشة عبر المستندات، ثم قم بتضمين جودة الاسترجاع والأدوات والتقييم.
- استخدم متجر متجه حقيقي، وأضف مخططين للأسئلة المعقدة، واختبر بلا هوادة.
- تغير الخيارات المعمارية الصغيرة - التجميع وإعادة الترتيب وعوامل التصفية - النتائج أكثر من تبديل النماذج.
- يتسارع التعلم عندما تتبع خطة منظمة وتبني شيئًا حقيقيًا.
ماذا بعد
- اختر برنامجًا تعليميًا واحدًا من أفضل ثلاثة وابني تطبيقًا بسيطًا اليوم.
- أضف تقييمًا قبل توسيع نطاق المستخدمين.
- خطط لترحيل الإنتاج الخاص بك: التخزين والمصادقة والمراقبة و CI.
- أعد زيارة الدروس التعليمية المتقدمة (الوكلاء، والوسائط المتعددة، ومتعدد المستأجرين) مع نمو نطاقك.
الأسئلة الشائعة
س1: ما هي أفضل دروس LlamaIndex التعليمية للمبتدئين؟
ابدأ ببداية سريعة تبني دردشة عبر ملفات PDF الخاصة بك باستخدام VectorStoreIndex و SimpleDirectoryReader. ثم أضف برنامجًا تعليميًا حول التجميع والبيانات الوصفية وإعادة الترتيب لتعزيز جودة الاسترجاع.
س2: كيف يمكنني بناء تطبيق RAG إنتاج باستخدام LlamaIndex؟
اتبع الدروس التعليمية التي تغطي متاجر المتجهات (pgvector، Pinecone)، والاسترجاع الهجين، والتقييم مع QA المصنفة. أضف التتبع والمخرجات المنظمة و CI/CD للانتقال من دفاتر الملاحظات إلى الإنتاج.
س3: أي برنامج تعليمي لـ LlamaIndex يعلم الوكلاء واستخدام الأدوات؟
ابحث عن الأدلة التي تستخدم الوكلاء على غرار ReAct و QueryPipeline واستدعاء الوظائف مع مخططات Pydantic. توضح هذه الدروس التعليمية كيفية توجيه الاستعلامات واستدعاء واجهات برمجة التطبيقات وإرجاع JSON منظم.
س4: كيف يمكنني تقييم دقة LlamaIndex RAG؟
استخدم دروس التقييم التعليمية التي تقدم فحوصات التأسيس وتغطية الاقتباس ومجموعات بيانات QA المصنفة. تتبع الصحة والكمون والتكلفة لاكتشاف حالات الانحدار قبل النشر.
س5: هل هناك دروس LlamaIndex التعليمية للمستندات متعددة الوسائط؟
نعم، ابحث عن الدروس التعليمية التي تجمع بين OCR وتحليل التخطيط للصور والجداول، ثم فهرس النص المستخرج مع البيانات الوصفية. إنها توضح كيفية التعامل مع المخططات ولقطات الشاشة وملفات PDF المعقدة في RAG.