What is LlamaIndex used for in RAG applications?

LlamaIndex helps you connect your data to LLMs with ingestion, indexing, and retrieval components. It streamlines building RAG systems by handling chunking, vector/keyword indexes, and query orchestration.

How do I choose the right index type in LlamaIndex?

Use a vector index for semantic queries, BM25 for exact matches like IDs or codes, and a hybrid approach for best overall recall and precision. Many teams combine both and add reranking for top‑K results.

How can I improve accuracy when using LlamaIndex?

Tune chunk sizes, include rich metadata, enable hybrid retrieval, and add a reranker. Also implement evaluation for faithfulness and relevance, and use citation mode to show sources.

Can LlamaIndex work with my existing vector database?

Yes. LlamaIndex integrates with popular vector stores like Pinecone, Weaviate, Chroma, Qdrant, and Elasticsearch. Persist indexes for scalability and incremental updates.

How do I deploy a LlamaIndex app to production?

Wrap your query engine in an API (e.g., FastAPI), persist data in a vector store, add caching and observability, and evaluate quality continuously. Enforce metadata filters and access control for security.

Cara Menggunakan LlamaIndex: Panduan Praktikal dari Kosong ke Pengeluaran

Jika anda pernah cuba membina aplikasi penjanaan tambahan pengambilan (RAG) dan terfikir, “Kenapa pendawaian embeddings, stor vektor, dan prompts begitu rumit?”, anda tidak bersendirian. LlamaIndex wujud untuk menjadikan saluran paip itu pantas, waras, dan sedia pengeluaran. Dalam panduan praktikal dan berorientasikan penyelesaian ini, kami akan membimbing anda tentang cara menggunakan LlamaIndex dari hujung ke hujung—pengambilan data, pengindeksan, pertanyaan, penilaian, dan penggunaan—supaya anda boleh menghantar sesuatu yang boleh dipercayai tanpa tersesat dalam kod perantara.

Kami akan menggunakan struktur yang dipimpin soalan dengan langkah-langkah progresif, coretan boleh laku, dan petua dunia sebenar. Sama ada anda membuat prototaip chatbot untuk dokumen dalaman atau menggunakan pembantu pengetahuan untuk pelanggan, mempelajari cara menggunakan LlamaIndex dengan berkesan akan menjimatkan masa anda berhari-hari.

: LlamaIndex ialah rangka kerja yang membantu anda menghubungkan data anda kepada model bahasa besar dengan alat pengindeksan, pengambilan, dan orkestrasi—sesuai untuk RAG, ejen, dan output berstruktur.

Apakah LlamaIndex dan Mengapa Menggunakannya?

LlamaIndex ialah rangka kerja data untuk aplikasi LLM. Ia menyediakan blok binaan untuk:

Pengambilan: Muatkan fail, halaman web, pangkalan data, dan API.

Pecahan & Pengindeksan: Tukar kandungan mentah menjadi struktur boleh pertanyaan (vektor, kata kunci, indeks graf).

Pengambilan: Dapatkan semula konteks dengan strategi fleksibel (BM25, hibrid, penyusunan semula).

Enjin Pertanyaan & Ejen: Gubah pengambilan, alat, dan prompts menjadi pengalaman QA yang koheren.

Penilaian & Pemantauan: Nilai kualiti pengambilan dan perkaitan jawapan.

Bila menggunakan LlamaIndex:

Anda mahukan tindanan RAG yang teguh tanpa mencipta semula pecahan, embeddings, dan pengambilan.

Anda perlu menggabungkan pelbagai sumber data (PDF + Notion + SQL).

Anda ingin bereksperimen dengan pengambilan hibrid, penyusunan semula, atau output berstruktur.

Model mental teras apabila mempelajari cara menggunakan LlamaIndex:

Data → Nodes → Index → Retriever → Query Engine → App

Permulaan Pantas: Gelung RAG Minimal

Ini ialah laluan terpantas ke prototaip yang berfungsi. Kita akan memuatkan dokumen, membina indeks vektor, dan bertanya soalan.

# 1) Pasang
# pip install llama-index llama-index-embeddings-openai llama-index-llms-openai
import os
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.llms.openai import OpenAI
# 2) Konfigurasi model + embeddings anda
os.environ["OPENAI_API_KEY"] = "YOUR_KEY" # atau gunakan mana-mana pembekal LLM/embedding yang disokong
llm = OpenAI(model="gpt-4o-mini")
embed_model = OpenAIEmbedding(model="text-embedding-3-small")
# 3) Muatkan dokumen (cth., ./data/*.pdf, .md, .txt)
docs = SimpleDirectoryReader("./data").load_data
# 4) Bina indeks
index = VectorStoreIndex.from_documents(docs, embed_model=embed_model)
# 5) Cipta enjin pertanyaan dan tanya soalan
query_engine = index.as_query_engine(llm=llm)
response = query_engine.query("What are the key security practices mentioned in the docs?")
print(response)

Itulah intipatinya. Dari sini, aplikasi sebenar menambah pecahan yang lebih baik, penyusunan semula, prompts berstruktur, dan kebolehtelusan.

Pengambilan: Bawa Data Anda Sendiri (BYOD) dengan Cara yang Betul

Apabila anda membuat keputusan tentang cara menggunakan LlamaIndex untuk data sebenar, pilih pemuat yang sepadan dengan sumber anda dan mengekalkan struktur.

Pemuat biasa:

Fail: SimpleDirectoryReader, pembaca PDF/HTML/Markdown

Web: BeautifulSoupWebReader, pembaca peta laman

SaaS: Notion, Confluence, Slack, Google Drive (melalui penyambung)

Pangkalan data: SQL dan DB vektor (Pinecone, Weaviate, Chroma, Elasticsearch)

Petua: Normalkan metadata (tajuk, pengarang, URL, created_at). Metadata yang baik memperkasakan penyusunan semula dan penapisan kemudian.

from llama_index.core import SimpleDirectoryReader
from llama_index.readers.web import SimpleWebPageReader
file_docs = SimpleDirectoryReader("./policies").load_data
web_docs = SimpleWebPageReader(html_to_text=True).load_data
all_docs = file_docs + web_docs

Pecahan dan Penghurai Node: Sampah Masuk, Sampah Keluar

Mendapatkan pecahan yang betul ialah salah satu langkah terpenting apabila mempelajari cara menggunakan LlamaIndex dengan berkesan.

Mengapa pecahan penting: Terlalu besar → token bloat dan pengambilan tidak relevan. Terlalu kecil → pemecahan konteks.

Lalai: Munasabah untuk banyak kes, tetapi tala untuk jenis kandungan anda.

Heuristik:

Dokumen teknikal: Pecahan token 512–1024 dengan pertindihan 10–20%.

Soalan Lazim: Pecahan yang lebih kecil (256–512) untuk memastikan pasangan Soal Jawab utuh.

Undang-undang/Dasar: Pecahan yang lebih besar (1024–1536) untuk mengekalkan definisi + klausa.

from llama_index.core.node_parser import SentenceSplitter
from llama_index.core import Document
parser = SentenceSplitter(chunk_size=800, chunk_overlap=100)
nodes = []
for d in all_docs:
nodes.extend(parser.get_nodes_from_documents([Document(text=d.text, metadata=d.metadata)]))

Strategi Indeks: Vektor, Kata Kunci, atau Hibrid?

Memilih indeks yang betul adalah penting. Berita baiknya: LlamaIndex membolehkan anda menggabungkannya.

Indeks Vektor: Hebat untuk carian semantik. Terbaik untuk “terangkan X” atau pertanyaan kabur.

Kata Kunci (BM25): Kuat untuk istilah tepat, ID, kod ralat, log.

Hibrid: Gabungkan kedua-duanya; susun semula calon teratas dengan LLM atau pengekod silang.

from llama_index.core import VectorStoreIndex, SummaryIndex
from llama_index.core.retrievers import BM25Retriever
from llama_index.core.query_engine import RetrieverQueryEngine
# Indeks vektor daripada nodes pra-huraian
v_index = VectorStoreIndex(nodes)
# Pengambil kata kunci BM25
bm25_retriever = BM25Retriever.from_defaults(nodes=nodes, similarity_top_k=6)
# Hibrid: gabungkan calon, kemudian susun semula
from llama_index.core.retrievers import RouterRetriever
from llama_index.retrievers.merge import MergerRetriever
v_retriever = v_index.as_retriever(similarity_top_k=6)
hybrid = MergerRetriever(retrievers=[v_retriever, bm25_retriever], top_k=8)
query_engine = RetrieverQueryEngine.from_args(retriever=hybrid)

Penyusunan Semula dan Penapis: Tingkatkan Ketepatan Tanpa Terlebih Bayar

Penyusunan semula meningkatkan kualiti jawapan dengan menyusun semula pecahan yang diambil mengikut perkaitan.

Bila hendak menyusun semula: Jika pengguna melaporkan petikan di luar topik atau konteks yang panjang dan bertindan.

Pendekatan:

Pengekod silang (carian embedding pengekod bi → penyusunan semula pengekod silang)

Penyusunan semula berasaskan LLM (lebih mahal, kadangkala lebih bijak pada teks bernuansa)

Penapis metadata (cth., source == 'handbook', created_at > 2024-01-01)

from llama_index.postprocessor.flag_embedding_reranker import FlagEmbeddingReranker
from llama_index.core.query_engine import RetrieverQueryEngine
reranker = FlagEmbeddingReranker(top_n=5, model="BAAI/bge-reranker-base")
query_engine = v_index.as_query_engine(
similarity_top_k=12,
node_postprocessors=[reranker]
)

Prompts dan Enjin Pertanyaan: Dari Carian ke Jawapan

Enjin pertanyaan ialah tempat pengambilan bertemu penjanaan. Untuk menguasai cara menggunakan LlamaIndex dalam pengeluaran, reka prompts dan sintesis respons dengan teliti.

Sintesis jawapan strategi:

“Stuff” ringkas (cantum) untuk konteks kecil

Pohon atau map‑reduce untuk konteks yang lebih panjang

Mod petikan untuk menunjukkan sumber

from llama_index.core.response_synthesizers import get_response_synthesizer
from llama_index.core import ServiceContext
synth = get_response_synthesizer(response_mode="tree_summarize")
query_engine = v_index.as_query_engine(response_synthesizer=synth)
ans = query_engine.query("Summarize the onboarding steps and cite sources.")
print(ans)

Prompts tersuai: Sesuaikan nada, output berstruktur, atau rel panduan.

from llama_index.core.prompts import PromptTemplate
qa_tmpl = PromptTemplate(
"""
Anda ialah pembantu yang ringkas dan mengutamakan bukti. Gunakan hanya konteks yang disediakan.
Jika tidak pasti, katakan anda tidak tahu. Kembalikan JSON dengan kunci: jawapan, sumber.
Soalan: {query_str}
Konteks: {context_str}
"""
)
query_engine = v_index.as_query_engine(text_qa_template=qa_tmpl)

Ejen dan Alat: Apabila Pengambilan Tidak Mencukupi

Kadangkala jawapan memerlukan tindakan: menjalankan SQL, memanggil API, atau menyemak imbas. Ejen LlamaIndex menyelaraskan alat dan penaakulan dengan saluran paip pengambilan anda.

Kes penggunaan: Papan pemuka KPI (alat SQL), bot sokongan (API carian tiket), ejen penyelidikan (web + RAG).

from llama_index.core.agent import ReActAgent
from llama_index.tools.sql import SQLQueryEngineTool
from sqlalchemy import create_engine
engine = create_engine("sqlite:///analytics.db")
sql_tool = SQLQueryEngineTool.from_engine(engine)
agent = ReActAgent.from_tools([sql_tool], llm=llm, verbose=True)
agent.chat("What was monthly churn in Q2 2025? If needed, query the DB.")

Penilaian: Jangan Hantar Secara Buta

Mempelajari cara menggunakan LlamaIndex secara bertanggungjawab bermakna mengesahkan kedua-dua pengambilan dan jawapan sebelum pelancaran.

Eval luar talian: Nilai pengambilan semula/ketepatan pengambilan pada set berlabel.

Eval dalam talian: Log prompts pengguna, ukur kepuasan, kadar pesongan, dan halusinasi.

Binaan dalam: LlamaIndex menyediakan pembantu penilaian untuk kesetiaan dan perkaitan jawapan.

from llama_index.core.evaluation import FaithfulnessEvaluator, RelevancyEvaluator
faith = FaithfulnessEvaluator(llm=llm)
rel = RelevancyEvaluator(llm=llm)
pred = query_engine.query("List SOC 2 control families in our policy.")
print("faithful?", faith.evaluate_response(pred))
print("relevant?", rel.evaluate_response(pred))

Bar praktikal: Untuk pembantu dalaman, sasarkan penarafan “berguna” >80% pada pertanyaan teratas sebelum pelancaran yang luas.

Ketekalan dan Stor Vektor: Jadikan Ia Boleh Skala

Indeks yang dibina dalam ingatan tidak akan mencukupi untuk beban kerja sebenar. Kekalkan ke DB vektor dan dayakan kemas kini tambahan.

Backend popular: Pinecone, Weaviate, Chroma, Elasticsearch/OpenSearch, Qdrant.

Petua: Gunakan namespaces setiap penyewa atau jabatan; pastikan metadata kaya.

# Contoh: Chroma
# pip install chromadb llama-index-vector-stores-chroma
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext
import chromadb
chroma_client = chromadb.PersistentClient(path="./chroma_store")
collection = chroma_client.get_or_create_collection("company_knowledge")
vector_store = ChromaVectorStore(chroma_collection=collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(all_docs, storage_context=storage_context)

Keselamatan dan Tadbir Urus: Bahagian Yang Semua Orang Lupakan

Pengendalian PII: Redact atau hashkan medan sensitif semasa pengambilan.

Kawalan akses: Tapis mengikut peranan pengguna dengan kekangan metadata.

Kesegaran kandungan: Jadualkan pengambilan semula; tandakan versi.

Keselamatan: Tambah dasar penolakan dan kekangan sumber sahaja dalam prompts.

# Contoh: penapisan berasaskan metadata pada masa pertanyaan
retriever = index.as_retriever(similarity_top_k=8)
retriever.metadata_filters = {"department": ["legal", "security"], "published": [True]}

Dari Prototaip ke Pengeluaran: Corak Penggunaan

Corak pelayan: Dedahkan titik akhir /query; pastikan indeks hangat dalam ingatan.

Serverless gotcha: Permulaan sejuk + model besar boleh menjejaskan kependaman; pertimbangkan inferens terurus.

Caching: Cache embeddings dan hasil pertanyaan yang kerap; dayakan kemas kini separa.

Kebolehtelusan: Log nodes yang diambil, penggunaan token, panjang jawapan, dan maklum balas pengguna.

# Pembungkus FastAPI minimal
# pip install fastapi uvicorn
from fastapi import FastAPI
app = FastAPI
qe = index.as_query_engine(llm=llm)
@app.post("/query")
async def query(payload: dict):
q = payload.get("q", "")
resp = qe.query(q)
return {"answer": str(resp), "sources": [s.node.metadata for s in resp.source_nodes]}

Pelan Tindakan Dunia Sebenar: Pilih Laluan Anda

Pembantu Dasar Dalaman

Indeks: Hibrid (BM25 + Vektor) dengan penyusunan semula

Rel panduan: Mod sumber sahaja; “Saya tidak tahu” sandaran

KPI: Kadar resolusi untuk soalan dasar

Kopilot Sokongan Pelanggan

Indeks: Dokumen produk + nota keluaran + tiket

Ejen: Alat API untuk menyemak status pesanan/tiket

KPI: Resolusi sentuhan pertama, pesongan, CSAT

Penganalisis Penyelidikan

Indeks: Web + PDF + nota; penyahduplikasian yang kuat

Susun semula: Pengekod silang; sintesis: map‑reduce

KPI: Masa untuk wawasan; ketepatan petikan

QA Data untuk BI

Alat: Enjin SQL + RAG pada definisi metrik

Tadbir urus: Dasar peringkat baris; audit pertanyaan

KPI: Ketepatan berbanding kebenaran asas

Kos dan Kependaman: Pastikan Ia Pantas (dan Murah)

Embeddings: Kelompokkan jika boleh; gunakan model yang lebih kecil untuk pengambilan semula, susun semula secara terpilih.

Saiz konteks: Sasarkan 1–2k token bagi pecahan yang paling relevan.

Caching: Cache pengambilan top‑K untuk pertanyaan hangat; memoize panggilan LLM dengan prompts yang di-hash.

Kepelbagaian: Pengambilan fan‑out → penyusunan semula fan‑in untuk mengurangkan kependaman ekor.

Perangkap Biasa Apabila Mempelajari Cara Menggunakan LlamaIndex

Pecahan berlebihan, yang membawa kepada pengambilan yang cetek dan bising

Tiada penapis metadata, menyebabkan sumber yang tidak relevan tergelincir masuk

Bergantung pada satu jenis indeks untuk semua kandungan

Melangkau penilaian; menghantar tanpa bar kualiti

Membiarkan indeks menjadi basi; tiada segar semula berjadual

Dengan Cara Ini: Mempercepatkan Aliran Kerja Anda dalam Editor

Semasa anda mengulangi prompts, pemecah, dan tetapan pengambilan, adalah wajar untuk ambil perhatian bahawa coding AI dan bar sisi penyelidikan seperti Sider.ai boleh mempercepatkan gelung. Anda boleh menyimpan coretan, prompts, dan nota penilaian di tangan, menjana perbezaan perubahan prompt, dan menguji variasi dengan cepat tanpa meninggalkan pelayar anda. Ini amat berguna apabila anda mengubah suai cara menggunakan LlamaIndex merentas strategi pengambilan yang berbeza.

Senarai Semak Langkah demi Langkah: Dari Kosong ke Pengeluaran

Ambil sumber dan normalkan metadata

Tala saiz pecahan mengikut jenis kandungan

Bina indeks vektor + BM25; dayakan pengambilan hibrid

Tambah penyusunan semula dan penapis metadata

Sesuaikan prompts; dayakan petikan dan dasar penolakan

Nilai kesetiaan dan perkaitan pada set ujian

Kekalkan ke stor vektor; dayakan kemas kini tambahan

Tambah kebolehtelusan, caching, dan penapis RBAC

Balut dalam API dan tetapkan SLA; dokumentasikan mod kegagalan

Pengambilan Utama

Jika anda mahukan aplikasi RAG yang teguh, mempelajari cara menggunakan LlamaIndex akan menjimatkan masa kejuruteraan perantara selama berminggu-minggu.

Mulakan dengan mudah, kemudian lapiskan pengambilan hibrid, penyusunan semula, dan prompts berstruktur.

Nilai sebelum anda skala; kekalkan indeks dan pantau kualiti dalam pengeluaran.

Reka bentuk untuk tadbir urus dari hari pertama—keselamatan bukanlah bolt‑on.

Langkah Seterusnya

Buat prototaip permulaan pantas pada set dokumen kecil.

Bereksperimen dengan pengambilan hibrid dan penyusun semula.

Tambah penilaian dan petikan; jejak metrik kualiti.

Beralih ke stor vektor yang berterusan dan gunakan API.

Soalan Lazim

S1:Untuk apa LlamaIndex digunakan dalam aplikasi RAG? LlamaIndex membantu anda menghubungkan data anda kepada LLM dengan komponen pengambilan, pengindeksan, dan pengambilan semula. Ia memperkemas pembinaan sistem RAG dengan mengendalikan pecahan, indeks vektor/kata kunci, dan orkestrasi pertanyaan.

S2:Bagaimanakah cara saya memilih jenis indeks yang betul dalam LlamaIndex? Gunakan indeks vektor untuk pertanyaan semantik, BM25 untuk padanan tepat seperti ID atau kod, dan pendekatan hibrid untuk pengambilan dan ketepatan keseluruhan yang terbaik. Banyak pasukan menggabungkan kedua-duanya dan menambah penyusunan semula untuk hasil top‑K.

S3: Bagaimana saya boleh meningkatkan ketepatan apabila menggunakan LlamaIndex? Laraskan saiz chunk, sertakan metadata yang kaya, aktifkan perolehan hibrid, dan tambahkan penyusun semula. Juga laksanakan penilaian untuk kesetiaan dan kerelevanan, dan gunakan mod petikan untuk menunjukkan sumber.

S4: Bolehkah LlamaIndex berfungsi dengan pangkalan data vektor sedia ada saya? Ya. LlamaIndex berintegrasi dengan stor vektor popular seperti Pinecone, Weaviate, Chroma, Qdrant, dan Elasticsearch. Kekalkan indeks untuk kebolehskalaan dan kemas kini berperingkat.

S5: Bagaimana saya menggunakan aplikasi LlamaIndex untuk pengeluaran? Balut enjin pertanyaan anda dalam API (contohnya, FastAPI), kekalkan data dalam stor vektor, tambahkan caching dan kebolehan pemerhatian, dan nilai kualiti secara berterusan. Kuatkuasakan penapis metadata dan kawalan capaian untuk keselamatan.