Sider.ai
  • Chat
  • Wisebase
  • Peralatan
  • Perpanjangan
  • Klien
  • Harga
Unduh sekarang
Gabung

Belajar lebih cepat, berpikir lebih dalam, dan tumbuh lebih cerdas dengan Sider.

Produk
Aplikasi
  • Ekstensi
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Alat
  • Pembuat WebNew
  • AI SlidesNew
  • Penulis Esai AI
  • Nano Banana Pro
  • Nano Banana Infographic
  • Generator Gambar AI
  • Generator Otak Italia
  • Penghapus Latar Belakang
  • Pengubah Latar Belakang
  • Penghapus Foto
  • Penghapus Teks
  • Inpaint
  • Peningkat Gambar
  • Buat
  • Penerjemah AI
  • Penerjemah Gambar
  • Penerjemah PDF
Sider
  • Hubungi Kami
  • Pusat Bantuan
  • Unduh
  • Harga
  • Rencana Pendidikan
  • Apa yang Baru
  • Blog
  • Komunitas
  • Mitra
  • Afiliasi
  • Undang
©2026 Semua Hak Dilindungi
Syarat Penggunaan
Kebijakan Privasi
  • Halaman Beranda
  • Blog
  • Alat AI
  • 10 Tutorial RAGFlow Terbaik untuk Menguasai Retrieval-Augmented Generation

10 Tutorial RAGFlow Terbaik untuk Menguasai Retrieval-Augmented Generation

Diperbarui pada 19 Sep 2025

10 menit


10 Tutorial RAGFlow Terbaik untuk Menguasai Retrieval-Augmented Generation

Jika Anda pernah mencoba membuat model bahasa besar menjawab pertanyaan spesifik domain dan melihatnya berhalusinasi dengan percaya diri, Anda pasti merasakan masalah yang dipecahkan oleh RAGFlow. Retrieval-Augmented Generation (RAG) memasangkan lapisan pencarian dengan generasi sehingga model Anda mengutip fakta dari data Anda sendiri. RAGFlow adalah cara yang terbuka, visual, dan berbasis pipeline untuk membangun sistem itu dari ujung ke ujung—mulai dari penyerapan dokumen hingga pemotongan (chunking), penyematan (embedding), pencarian vektor, dan respons berdasarkan fakta.
Dalam panduan ini, kami mengumpulkan tutorial RAGFlow terbaik yang dapat Anda ikuti hari ini, cara memilih yang tepat untuk tumpukan Anda, dan peta jalan praktis untuk beralih dari "hello world" ke produksi. Kami akan membuatnya pragmatis, dengan contoh, jebakan, dan beberapa tips ampuh yang tidak akan Anda temukan dalam panduan dasar.
Kami mengambil pendekatan Praktis & Berorientasi Solusi: penjelasan singkat, langkah-langkah jelas, dan cuplikan yang dapat disalin-tempel. Mari kita buat Anda mengirimkan aplikasi RAGFlow yang benar-benar menjawab dengan benar.

Apa yang Membuat "Tutorial RAGFlow Terbaik"?

Tidak semua tutorial sama. Tutorial RAGFlow terbaik memiliki beberapa ciri:
  • Alur ujung-ke-ujung: Serap → potong → sematkan → indeks → ambil → hasilkan, semuanya dalam satu jalur.
  • Dokumen realistis: PDF, HTML, slide deck, atau log yang berantakan—bukan hanya markdown mainan.
  • Evaluasi bawaan: Mereka mengajarkan cara mengukur landasan (groundedness), latensi, dan kualitas jawaban.
  • Masalah produksi: Caching, percobaan ulang, observabilitas, dan pagar pembatas.
  • Ekstensibel: Tunjukkan di mana menukar model, strategi pemotongan, atau penyimpanan vektor.
Ingatlah kriteria ini saat Anda memilih jalur pembelajaran Anda.

10 Tutorial RAGFlow Terbaik Saat Ini

Di bawah ini adalah daftar pilihan yang mencakup pemula hingga mahir. Setiap entri menyertakan mengapa itu berguna, apa yang akan Anda bangun, dan untuk siapa itu.

1) Mulai Cepat RAGFlow: Pipeline Ujung-ke-Ujung Pertama Anda

  • Mengapa ini bagus: Cara tercepat untuk memahami bagian-bagian yang bergerak—sempurna untuk membuka blokir.
  • Anda akan membangun: Pipeline minimal: unggah PDF, potong otomatis, sematkan, indeks, dan kueri dengan kutipan.
  • Langkah-langkah utama:
  1. Putar RAGFlow dan buka pembuat pipeline.
  1. Tambahkan node penyerapan file dan arahkan ke PDF.
  1. Masukkan pemotong (mis., rekursif + judul) dan node model penyematan.
  1. Hubungkan ke penyimpanan vektor, lalu tambahkan node pengambilan dan pembuatan LLM.
  1. Uji dengan beberapa kueri dan periksa sumber.
  • Bagus untuk: Pemula mutlak; tim memvalidasi alur dasar RAGFlow.

2) RAGFlow + Beberapa Sumber Data: PDF, Halaman Web, dan Notion

  • Mengapa ini bagus: Sebagian besar proyek nyata menggabungkan sumber yang berantakan; tutorial ini menunjukkan caranya.
  • Anda akan membangun: Pipeline yang menyerap PDF, merayapi URL, dan menyinkronkan halaman Notion sesuai jadwal.
  • Langkah-langkah utama:
  • Gunakan node penyerapan terpisah per sumber.
  • Normalisasi metadata (judul, URL, penulis, bagian).
  • Tandai potongan berdasarkan sumber untuk pemfilteran yang lebih baik pada saat pengambilan.
  • Bagus untuk: Basis pengetahuan, wiki, dan portal internal.

3) Masterclass Chunking: Dari Pemisahan Naif ke Jendela Semantik

  • Mengapa ini bagus: Chunking adalah tempat sebagian besar kualitas RAG dimenangkan atau hilang.
  • Anda akan membangun: Evaluasi berdampingan dari strategi chunking dengan metrik landasan.
  • Langkah-langkah utama:
  • Bandingkan ukuran tetap, judul rekursif, dan chunking semantik.
  • Gunakan jendela tumpang tindih untuk tabel dan blok kode.
  • Evaluasi presisi/recall dari potongan yang diambil.
  • Tip: Jaga agar potongan tetap cukup kecil untuk relevansi, tetapi cukup besar untuk konteks (seringkali 300–700 token dengan tumpang tindih 10–20%).

4) Penyematan dalam Skala Besar: Menukar Model dan Penyimpanan Vektor

  • Mengapa ini bagus: Pilihan model secara diam-diam menentukan batas pengambilan Anda.
  • Anda akan membangun: Varian pipeline yang menukar penyematan (mis., text-embedding-3-large, BGE, E5) dan penyimpanan vektor (FAISS, Milvus, PGVector).
  • Langkah-langkah utama:
  • Jalankan pengujian pengambilan A/B dengan kueri yang konsisten.
  • Lacak tingkat keberhasilan dan Peringkat Timbal Balik Rata-Rata.
  • Pilih kosinus vs. kesamaan hasil kali titik sesuai panduan model.
  • Bagus untuk: Tim yang bersiap untuk pertumbuhan atau penyetelan kinerja biaya.

5) Pagar Pembatas dan Mitigasi Halusinasi di RAGFlow

  • Mengapa ini bagus: Keamanan bukanlah opsional dalam produksi.
  • Anda akan membangun: Pipeline yang ditingkatkan pengambilan dengan batasan jawaban, kebijakan penolakan, dan pemeriksaan kutipan.
  • Langkah-langkah utama:
  • Tambahkan node validator jawaban untuk memastikan setiap jawaban mengutip setidaknya N sumber.
  • Gunakan templat instruksi yang melarang menebak dan mengharuskan "Saya tidak tahu" ketika bukti hilang.
  • Tambahkan pemeriksaan fakta pasca-generasi terhadap potongan yang diambil.

6) RAGFlow untuk Data Terstruktur: Pengambilan Hibrida SQL + Teks

  • Mengapa ini bagus: Banyak pertanyaan mencampur dokumen dan database.
  • Anda akan membangun: Pipeline pengambil ganda: pengambilan semantik untuk dokumen dan panggilan alat untuk SQL.
  • Langkah-langkah utama:
  • Rute pertanyaan kuantitatif ke SQL melalui panggilan fungsi.
  • Sertakan tabel hasil SQL sebagai artefak konteks ke LLM.
  • Gabungkan dengan cuplikan dokumen untuk penjelasan naratif.

7) Mengevaluasi Kualitas RAG dengan Set Emas dan Tinjauan Manusia

  • Mengapa ini bagus: Tanpa evaluasi, Anda terbang membabi buta.
  • Anda akan membangun: Harness evaluasi yang mengukur landasan, cakupan kutipan, dan kebermanfaatan.
  • Langkah-langkah utama:
  • Siapkan 50–200 pasang T&J emas dengan sumber.
  • Siapkan run otomatis setelah setiap perubahan pipeline.
  • Gunakan penilaian kesepakatan antara jawaban model dan referensi emas.

8) RAGFlow dalam Produksi: Caching, Batas Waktu, dan Observabilitas

  • Mengapa ini bagus: Produksi memperkenalkan latensi, batas laju, dan batasan biaya.
  • Anda akan membangun: Pipeline yang kuat dengan caching permintaan, percobaan ulang, dan dasbor pelacakan.
  • Langkah-langkah utama:
  • Tambahkan vektor dan cache generasi yang dikunci oleh kueri yang dinormalisasi.
  • Terapkan backoff untuk cegukan penyedia.
  • Keluarkan rentang/metrik untuk latensi pengambilan dan penggunaan token.

9) Buku Pedoman Spesifik Domain: Hukum, Kesehatan, dan Dukungan

  • Mengapa ini bagus: Batasan domain mengubah segalanya.
  • Anda akan membangun: Templat yang menghormati kepatuhan, kosakata, dan pola penalaran per domain.
  • Langkah-langkah utama:
  • Hukum: prioritaskan bagian, kutipan dengan ID paragraf.
  • Kesehatan: hilangkan identifikasi PHI, batasi saran ke pedoman.
  • Dukungan: integrasikan riwayat tiket; beri bobot dokumen terbaru lebih tinggi.

10) RAGFlow + Panggilan Fungsi: Tindakan, Bukan Hanya Jawaban

  • Mengapa ini bagus: Sistem RAG yang paling kuat dapat membaca, bernalar, dan bertindak.
  • Anda akan membangun: Pipeline tempat LLM mengambil dokumen, lalu memanggil alat—mengirim email, membuka tiket, atau menjadwalkan pekerjaan.
  • Langkah-langkah utama:
  • Tentukan skema JSON untuk alat.
  • Tambahkan router keputusan untuk memisahkan kueri "jawab" vs. "bertindak".
  • Catat setiap panggilan alat dengan pagar pembatas dan persetujuan.

Peta Jalan Praktis: Dari Tutorial ke Produksi dalam 30 Hari

Gunakan tutorial di atas dalam rencana 4 tahap ini. Perlakukan ini sebagai "bootcamp RAGFlow" Anda.

Minggu 1: Yayasan dan Kemenangan Pertama

  • Selesaikan Tutorial 1 (Mulai Cepat) dan Tutorial 3 (Masterclass Chunking).
  • Kirim bukti konsep yang menjawab 20–30 pertanyaan pengujian dari dokumen Anda.
  • Tambahkan templat jawaban dasar untuk memberlakukan kutipan dan penolakan.

Minggu 2: Kedalaman Data dan Keandalan

  • Tambahkan penyerapan multi-sumber (Tutorial 2) dan jadwalkan pengindeksan ulang.
  • Tukar penyematan dan penyimpanan vektor (Tutorial 4); pilih pemenang biaya/kualitas.
  • Perkenalkan caching dan batas waktu (Tutorial 8) untuk menjaga latensi tetap konsisten.

Minggu 3: Evaluasi, Pagar Pembatas, dan Kesesuaian Domain

  • Bangun set emas dan evaluasi otomatis (Tutorial 7).
  • Tambahkan pemeriksaan fakta pasca-generasi dan kebijakan penolakan (Tutorial 5).
  • Terapkan buku pedoman domain (Tutorial 9) dengan perintah khusus.

Minggu 4: Pengambilan Hibrida dan Kemampuan Bertindak

  • Hubungkan panggilan SQL/alat (Tutorial 6) untuk kueri campuran.
  • Tambahkan panggilan fungsi dan persetujuan (Tutorial 10) sehingga aplikasi RAGFlow Anda dapat mengambil tindakan.
  • Instrumentasi dasbor observabilitas; tetapkan SLO untuk akurasi dan latensi.

Konsep RAGFlow yang Harus Anda Ketahui

Bahkan tutorial RAGFlow terbaik mengasumsikan beberapa ide inti. Berikut adalah penyegaran cepat.
  • Retrieval Augmented Generation (RAG): Tambahkan konteks LLM dengan potongan yang diambil dari basis pengetahuan Anda sehingga jawaban didasarkan pada bukti.
  • Chunking: Membagi dokumen menjadi unit yang dapat diambil. Tumpang tindih mempertahankan konteks; judul membuat batasan; metode semantik menggunakan penyematan untuk menemukan titik henti alami.
  • Penyematan: Representasi vektor dari potongan dan kueri. Penyematan yang lebih baik meningkatkan relevansi pengambilan dan mengurangi halusinasi.
  • Penyimpanan Vektor: Database untuk vektor dengan pencarian kesamaan. Pilihan memengaruhi kecepatan, recall, dan skala.
  • Peringkat Ulang: Pencetak gol tahap kedua opsional untuk menyusun ulang potongan yang diambil berdasarkan relevansi.
  • Rekayasa Prompt: Instruksi yang jelas untuk mengharuskan kutipan, melarang tebakan, dan memformat output.
  • Evaluasi: Pengukuran sistematis menggunakan set emas, tinjauan manusia, dan metrik otomatis.

Salin-Tempel Pemula: Templat Prompt RAG Baseline

Gunakan templat ini di node pembuatan Anda untuk mengurangi halusinasi dan memberlakukan kutipan.
Anda adalah asisten yang berhati-hati yang menjawab HANYA dengan informasi yang ditemukan dalam konteks yang diambil.
Aturan:
- Kutip bukti dengan [source_name:page_or_section] setelah setiap klaim.
- Jika jawabannya tidak ada dalam konteks, katakan "Saya tidak tahu berdasarkan sumber yang diberikan."
- Lebih suka kutipan langsung untuk definisi; ringkas untuk prosedur.
Konteks:
{{retrieved_context}}
Pertanyaan:
{{user_query}}
Jawaban:

Contoh: Menukar Penyematan dan Mengukur Dampak

# Pseudocode yang menggambarkan logika eksperimen yang akan Anda lihat dalam tutorial lanjutan
from ragflow import Pipeline, EmbeddingNode, VectorStoreNode, EvalHarness
pipelines = []
for model in ["text-embedding-3-large", "bge-large", "e5-large"]:
emb = EmbeddingNode(model=model)
vs = VectorStoreNode(kind="milvus", metric="cosine")
pl = Pipeline.add_nodes([
"ingest", "chunk", emb, vs, "retrieve", "generate"
])
pipelines.append((model, pl))
h = EvalHarness(goldset="gold_qa.jsonl")
results = {}
for model, pl in pipelines:
results[model] = h.run(pl, metrics=["groundedness", "citation_coverage", "latency"])
print(results)
Lembar contekan interpretasi:
  • Jika landasan melonjak setelah pertukaran model, pertahankan—bahkan jika token harganya sedikit lebih mahal.
  • Jika latensi melonjak, tambahkan caching atau kurangi potongan yang diambil maksimum dari 8 → 5.
  • Jika cakupan kutipan turun, sesuaikan ukuran potongan atau tambahkan peringkat ulang.

Jebakan Umum yang Dibantu Tutorial Ini untuk Anda Hindari

  • Terlalu banyak chunking: Potongan yang terlalu kecil menyebabkan hilangnya konteks dan jawaban yang bising.
  • Kurang chunking: Potongan besar mencemari jendela konteks dengan teks yang tidak relevan.
  • Penyematan satu ukuran untuk semua: Bahasa domain (hukum, klinis) mungkin memerlukan model yang disetel domain.
  • Tidak ada evaluasi: Mengubah apa pun tanpa baseline menciptakan regresi hantu.
  • Mengabaikan kesegaran: Indeks yang kedaluwarsa mengarah pada jawaban yang benar tetapi sudah usang.
  • Melewatkan pagar pembatas: Tanpa aturan penolakan, model Anda menebak.

Memilih Tutorial yang Tepat untuk Kasus Penggunaan Anda

  • Bot dukungan startup: Tutorial 1, 2, 5, 8, 9.
  • Asisten riset internal: Tutorial 1, 3, 4, 7.
  • Pilot data analytics: Tutorial 6, 10.
  • Industri yang diatur: Tutorial 5 dan 9 terlebih dahulu, lalu 7.

Ngomong-ngomong: Prototipe Lebih Cepat Dengan Sider.AI

Saat Anda melakukan iterasi pada perintah RAG, menguji kueri, dan membandingkan respons, peralihan konteks itu mahal. Perlu dicatat: Sider.AI (https://sider.ai/) memungkinkan Anda mengobrol dengan beberapa model berdampingan, menyematkan perintah, dan menyimpan ruang kerja pengetahuan yang berjalan. Ini berguna untuk:
  • Membandingkan jawaban dari pengaturan pengambilan dan perintah yang berbeda.
  • Menjalankan pengujian bagaimana-jika cepat sebelum Anda memasukkan perubahan ke dalam RAGFlow.
  • Mengatur cuplikan, kutipan, dan T&J emas untuk harness evaluasi Anda.
Gunakan ini sebagai buku catatan Anda saat Anda mengikuti tutorial RAGFlow; kemudian kodifikasi pemenang dalam pipeline Anda.

Panduan Pemecahan Masalah: Perbaikan Cepat Saat Terjadi Kerusakan

  • Gejala: Jawaban bersifat umum dan tidak memiliki kutipan.
  • Perbaikan: Terapkan persyaratan kutipan dalam prompt dan tambahkan node validator.
  • Gejala: Potongan yang tidak relevan diambil.
  • Perbaikan: Tingkatkan tumpang tindih potongan, beralih ke model penyematan yang lebih baik, atau tambahkan peringkat ulang.
  • Gejala: Latensi > 3 detik.
  • Perbaikan: Cache hasil vektor, batasi potongan yang diambil, dan gunakan token streaming.
  • Gejala: Jawaban yang bertentangan di seluruh kueri.
  • Perbaikan: Normalisasi metadata, hilangkan duplikasi potongan yang hampir identik, beri bobot dokumen yang lebih baru.
  • Gejala: Model terlalu sering menolak dengan “Saya tidak tahu.”
  • Perbaikan: Longgarkan ambang batas penolakan, perluas kedalaman pengambilan, atau perbaiki batas potongan.

Pengambilan Kunci

  • Tutorial RAGFlow terbaik mengajarkan sistem ujung-ke-ujung dengan data dan evaluasi yang realistis.
  • Chunking dan penyematan memiliki dampak terbesar pada kualitas jawaban.
  • Keberhasilan produksi membutuhkan caching, observabilitas, pagar pembatas, dan set emas.
  • Gunakan buku pedoman domain dan panggilan fungsi untuk melampaui T&J ke dalam alur kerja nyata.
  • Manfaatkan alat seperti Sider.AI selama eksperimen untuk membandingkan prompt dan hasil dengan cepat.

Apa yang Harus Dilakukan Selanjutnya

  1. Pilih dua tutorial yang sesuai dengan kebutuhan mendesak Anda (mis., Mulai Cepat + Masterclass Chunking).
  1. Kumpulkan set T&J emas dari dokumen Anda sendiri (mulai dengan 50 pertanyaan).
  1. Jalankan satu perubahan dalam satu waktu; ukur landasan dan latensi setelah masing-masing.
  1. Pindah ke templat produksi dengan caching dan pagar pembatas saat evaluasi Anda stabil.
  1. Lapisi dalam panggilan fungsi dan kebijakan domain setelah baseline Anda andal.

FAQ

Q1:Apa tutorial RAGFlow terbaik untuk pemula mutlak? Mulailah dengan tutorial mulai cepat RAGFlow yang mencakup penyerapan PDF, chunking, penyematan, pengindeksan, pengambilan, dan pembuatan dengan kutipan. Ini memberi Anda nuansa ujung ke ujung dengan cepat dan menyiapkan Anda untuk tutorial RAGFlow yang lebih mendalam.
Q2:Bagaimana cara meningkatkan akurasi di RAGFlow di luar tutorial dasar? Fokus pada strategi chunking, kualitas penyematan, dan peringkat ulang. Tutorial RAGFlow tingkat lanjut juga menunjukkan cara menambahkan pagar pembatas dan harness evaluasi untuk mengurangi halusinasi dan mengukur landasan.
Q3:Penyematan mana yang berfungsi paling baik dengan RAGFlow untuk dokumen perusahaan? Coba model umum yang kuat seperti text-embedding-3-large, E5, atau BGE, lalu ukur metrik pengambilan pada data Anda. Tutorial RAGFlow terbaik merekomendasikan pengujian A/B di seluruh model dan penyimpanan vektor untuk memilih pemenang.
Q4:Bisakah RAGFlow menangani data terstruktur seperti SQL bersama dengan dokumen? Ya. Tutorial pengambilan hibrida untuk RAGFlow menunjukkan cara merutekan kueri kuantitatif ke SQL melalui panggilan fungsi sambil tetap menggunakan pengambilan semantik untuk dokumen tidak terstruktur, lalu menggabungkan hasil pada waktu pembuatan.
Q5:Bagaimana cara mengevaluasi pipeline RAGFlow sebelum ditayangkan? Ikuti tutorial RAGFlow yang berfokus pada evaluasi: buat set T&J emas dengan sumber, jalankan pengujian otomatis setelah perubahan, dan lacak landasan, cakupan kutipan, latensi, dan kebermanfaatan. Hanya sebarkan saat metrik stabil.

Artikel Terbaru
Cara Menguasai ChatPDF: Mendapatkan Wawasan Lebih Cepat dari Dokumen Padat

Cara Menguasai ChatPDF: Mendapatkan Wawasan Lebih Cepat dari Dokumen Padat

Alternatif Terbaik X Auto-Translation untuk Dokumen Cepat dan Akurat

Alternatif Terbaik X Auto-Translation untuk Dokumen Cepat dan Akurat

Terjemahan AI Samsung Tidak Tersedia di Iran? Solusi Praktis

Terjemahan AI Samsung Tidak Tersedia di Iran? Solusi Praktis

Alat Terjemahan Persia: Panduan Praktis untuk Pekerjaan yang Lebih Cepat dan Akurat

Alat Terjemahan Persia: Panduan Praktis untuk Pekerjaan yang Lebih Cepat dan Akurat

Alternatif Terbaik Grok untuk Riset Mendalam dengan Referensi

Alternatif Terbaik Grok untuk Riset Mendalam dengan Referensi

15 Fitur Terbaik dari AI Image Generator yang Benar-Benar Akan Anda Gunakan

15 Fitur Terbaik dari AI Image Generator yang Benar-Benar Akan Anda Gunakan