What are the most important guardrails for AI agents?

Start with clear policy rules, least-privilege tool permissions, PII redaction, budget caps, and safety filters. Add human-in-the-loop approvals for high-risk actions and full observability to detect issues early.

How do you evaluate AI agent performance effectively?

Combine offline golden datasets and adversarial tests with online A/B tests and shadow mode. Track task success, safety violations, cost per task, latency, and user feedback for a complete view.

How can I prevent AI agents from hallucinating?

Use retrieval from curated sources, require citations, and implement self-check or verifier models. Set schema validation and conservative defaults when confidence is low.

When should a human review an AI agent’s work?

Route high-risk actions—funds movement, policy exceptions, sensitive communications—to human approval. You can relax thresholds over time as metrics stabilize.

What tools help set guardrails and monitor agents?

You’ll need policy-as-code configs, schema validators, safety classifiers, and tracing dashboards. Platforms like [Sider.AI](https://sider.ai) can centralize permissions, budget caps, and step-by-step traces to speed safe deployment.

Cara Menetapkan Pelindung (Guardrail) dan Menilai Prestasi untuk Agen AI

Pelan tindakan praktikal untuk ejen AI yang selamat dan boleh diandalkan

Bayangkan ini: ejen AI autonomi anda dengan yakin melaksanakan tugas, melancarkan alatan, dan menghantar mesej kepada pelanggan—dan kemudian ia secara senyap-senyap menghalusinasi langkah, membelanjakan lebih daripada bajet API, atau membocorkan coretan data sensitif. Selepas satu laporan pepijat, anda terpaksa menarik balik ciri dan menjawab soalan yang sukar.

Pagar keselamatan ialah cara anda mencegah perkara itu. Penilaian prestasi ialah cara anda membuktikannya.

Panduan ini menunjukkan kepada anda cara menetapkan pagar keselamatan dan menilai prestasi untuk ejen AI dengan sistem yang boleh anda gunakan dalam masa beberapa minggu, bukan berbulan-bulan. Kami akan meliputi dasar, kawalan masa jalan, penilaian luar talian dan dalam talian, dan gelung maklum balas yang memastikan ejen terus bertambah baik sambil kekal dalam lingkungan risiko anda.

Kami akan menggunakan pendekatan praktikal dan berorientasikan penyelesaian dengan senarai semak, contoh dan templat yang boleh anda sesuaikan dengan tindanan teknologi anda.

Apakah sebenarnya yang dimaksudkan dengan “pagar keselamatan” untuk ejen AI?

Pagar keselamatan ialah dasar, kekangan dan mekanisme masa jalan yang jelas yang mengehadkan perkara yang boleh dilakukan, diperkatakan atau dibelanjakan oleh ejen AI—tanpa menghalang kerja yang sah. Anggapnya sebagai gabungan:

Dasar: Perkara yang dibenarkan atau tidak dibenarkan (cth., pengendalian PII, had perbelanjaan, suara jenama, skop penggunaan alatan).

Penguatkuasaan: Cara anda melaksanakan peraturan tersebut (cth., penapis kandungan, pemberian izin alatan, had perbelanjaan).

Kebolehcerapan: Cara anda mengesan pelanggaran (cth., pengelogan, surihan, bendera keselamatan).

Pemulihan: Perkara yang berlaku apabila peraturan dilanggar (cth., pengembalian, kelulusan manusia, makluman insiden).

Apabila anda menetapkan pagar keselamatan untuk ejen AI, anda mereka bentuk jaringan keselamatan yang mengutamakan kepercayaan pengguna, pematuhan undang-undang dan integriti jenama—sambil mengekalkan daya pemprosesan yang tinggi.

Tindanan pagar keselamatan 7 lapisan (daripada dasar hingga masa jalan)

Gunakan pendekatan berlapis ini supaya kegagalan dalam satu lapisan tidak bertingkat.

Lapisan dasar dan niat

Tentukan tujuan dan sempadan: Untuk apa ejen itu dan bukan untuk apa.

Tulis pernyataan dasar yang pendek dan boleh diuji. Contoh: “Ejen tidak boleh mendedahkan ID tiket dalaman kepada pelanggan.”

Petakan dasar kepada peraturan: GDPR/CCPA untuk PII, kawalan SOC 2 untuk pengelogan, peraturan khusus sektor.

Identiti dan keizinan

Berikan identiti perkhidmatan yang berbeza kepada setiap ejen.

Skop keizinan alatan (prinsip keistimewaan paling rendah): baca sahaja berbanding tulis berbanding pentadbir.

Putar kelayakan; simpan dalam pengurus rahsia.

Perlukan pemberian keupayaan eksplisit untuk tindakan berisiko tinggi (bayaran balik, penggunaan kod).

Akses data dan penapisan

Laksanakan senarai yang dibenarkan untuk sumber data; sekat pangkalan data pengeluaran mentah kecuali jika dijustifikasikan.

Tapis PII semasa pengambilan dan pra-output.

Topeng rahsia (kunci, token) dan gunakan penapisan deterministik untuk memastikan log berguna.

Gunakan penapis perolehan: julat masa, ruang nama, teg sensitiviti.

Gesaan dan kekangan penggunaan alatan

Gesaan sistem: kodkan dasar dalam terma yang jelas dan boleh diuji (“Jangan sekali-kali membentangkan nasihat perubatan yang tidak disahkan”).

Skema alatan: sahkan input dan output (skema JSON, kekangan enum).

Had bajet: siling token, masa dan kos setiap tugas; pemutus litar pada gelung yang tidak terkawal.

Langkah-langkah refleksi dan kritikan untuk tugas berisiko (semak sendiri sebelum tindakan).

Penapis kandungan dan keselamatan

Pengelasan pra- dan pasca-penjanaan: ketoksikan, PII, risiko halusinasi, gaya jenama.

Sandaran berasaskan peraturan untuk topik sensitif (kewangan, kesihatan, undang-undang).

Output tera air yang memerlukan semakan manusia.

Titik pemeriksaan manusia-dalam-gelung (HITL)

Halakan tindakan berisiko tinggi ke barisan kelulusan.

Berikan rubrik berstruktur kepada penyemak (ketepatan, nada, pematuhan).

Sokong kelulusan separa (lulus edit, tolak bayaran balik).

Log keputusan penyemak untuk melatih kelulusan automatik yang lebih baik kemudian.

Kebolehcerapan, makluman dan tindak balas insiden

Surih setiap panggilan alatan dengan input, output dan kependaman.

Teg peristiwa: policy_violation, safety_flag, override, customer_escalation.

Makluman masa nyata tentang lonjakan perbelanjaan, ribut gelung dan penolakan berulang.

Buku permainan insiden dengan templat pengembalian dan komunikasi.

Daripada kertas kepada pengeluaran: senarai semak persediaan pagar keselamatan

Tentukan matlamat dan bukan matlamat ejen dalam satu halaman.

Terjemahkan dasar ke dalam arahan gesaan dan kekangan alatan.

Bina penapis data dan penapisan PII untuk perolehan dan output.

Tetapkan bajet: token maks, alatan maks setiap langkah, kos maks keseluruhan setiap tugas.

Tambahkan penapis kandungan dan semakan gaya jenama.

Perlukan HITL untuk kategori berisiko tinggi.

Laksanakan kebolehcerapan: log, surihan, papan pemuka.

Cipta buku permainan insiden dan makluman bertugas.

Jalankan ujian permusuhan; betulkan jurang; jalankan semula sebelum pelancaran.

Menilai prestasi ejen AI: luar talian dan dalam talian

Anda tidak boleh mengurus apa yang anda tidak ukur. Bina penilaian ke dalam kitaran hayat pembangunan anda.

1) Tentukan metrik kejayaan sebelum pelancaran

Kadar kejayaan tugas: Adakah ejen menyelesaikan matlamat?

Ketepatan laluan pertama: Adakah output awal betul tanpa semakan?

Skor keselamatan/pematuhan: Pelanggaran setiap 1,000 interaksi.

Kos setiap tugas yang berjaya: Token + alatan setiap kejayaan.

Kependaman kepada resolusi: Masa untuk menyelesaikan aliran kerja.

Pengalaman pelanggan: CSAT, bantuan, kadar peningkatan.

Kadar halusinasi: Fakta salah setiap 100 jawapan dalam set penanda aras.

2) Penilaian luar talian (pra-pengeluaran)

Set data emas: Susun atur tugas perwakilan dengan jawapan kebenaran asas.

Kes pinggir sintetik: Gesaan permusuhan, suntikan gesaan, salah guna alatan.

Ujian unit untuk gesaan: Ujian tangkapan skrin supaya regresi jelas.

Simulasi alatan: Sistem luaran stub untuk mengesahkan pengesahan parameter dan percubaan semula.

Audit dasar: Pasukan merah menentang peraturan anda sendiri.

Rubrik output: Penggredan yang konsisten untuk ketepatan, nada dan pematuhan.

Pendekatan pemarkahan: Gunakan gabungan metrik automatik (kesahan skema, kehadiran PII) dan LLM-sebagai-hakim hanya jika ditentukur. Sentiasa semak tempat dengan manusia sehingga persetujuan tinggi.

3) Penilaian dalam talian (pasca pelancaran)

Mod bayangan: Draf ejen; manusia membuat keputusan. Bandingkan delta.

Ujian A/B: Varian pagar keselamatan (ketat berbanding permisif) dan versi gesaan.

Penyelangan: Strategi alternatif dalam sesi untuk mengesan kemenangan halus.

Keluaran kenari: Lancarkan kepada 1–5% sesi dengan pemantauan yang ketat.

Tangkap maklum balas: Ibu jari ke atas/bawah, teg pantas (tidak betul, di luar jenama, tidak selamat).

Log bertentangan fakta: Simpan surihan penuh untuk sesi yang gagal untuk menghasilkan semula.

Mereka bentuk pagar keselamatan yang tidak membunuh produktiviti

Sangat mudah untuk melampaui batas. Matlamatnya ialah kawalan berkadar: perlindungan yang kuat di mana risiko tinggi, sentuhan ringan di mana ia rendah.

Tugas peringkat risiko: Kelaskan tugas mengikut impak (cth., Tahap 3 = kandungan awam; Tahap 1 = pergerakan dana). Gunakan pagar keselamatan yang lebih kukuh apabila tahap meningkat.

Pendedahan progresif: Buka kunci lebih banyak keupayaan apabila ejen membuktikan kebolehpercayaan.

Ambang adaptif: Ketatkan penapis semasa lonjakan anomali; rehat apabila stabil.

Penolakan pintar: Berikan alternatif dan bukannya “tidak” yang keras.

Penimbalan dan perolehan: Kurangkan halusinasi melalui perolehan berwibawa dan memori jangka pendek.

Perancangan sedar kos: Galakkan model yang lebih murah untuk penggubalan; gunakan model berkualiti tinggi untuk pemuktamadan.

Contoh konkrit mengikut domain

Ejen sokongan pelanggan:

Pagar keselamatan: Had kepada perolehan pangkalan pengetahuan; tapis PII; sekat nasihat undang-undang/perubatan; HITL untuk bayaran balik >$50.

Penilaian: Kadar resolusi, masa untuk respons pertama, kadar peningkatan, kadar pelanggaran dasar.

Ejen jangkauan jualan:

Pagar keselamatan: Kuatkuasakan suara jenama dan teks pematuhan; pendikit hantaran; senarai yang dibenarkan domain; penghormatan pilihan keluar.

Penilaian: Kadar balasan, mesyuarat berkelayakan yang ditempah, aduan spam, berhenti melanggan.

Ejen pengekodan:

Pagar keselamatan: Baca sahaja sehingga ujian lulus; pelaksanaan kotak pasir; senarai yang dibenarkan kebergantungan; pengimbas lesen.

Penilaian: Kadar lulus ujian, ulasan ulasan setiap PR, penemuan keselamatan, masa binaan.

Ejen penganalisis data:

Pagar keselamatan: Pertanyaan berparameter, keselamatan peringkat baris, penopengan PII, penapis tetingkap masa.

Penilaian: Kos pertanyaan, ketepatan berbanding buku nota emas, kebolehgunaan semula output.

Corak yang berfungsi dalam pengeluaran

Gesaan sistem sebagai dasar: Pastikan ia pendek, bernombor dan boleh diuji. Contoh: “1) Gunakan hanya alatan yang disediakan. 2) Jangan sekali-kali mendedahkan ID dalaman. 3) Minta penjelasan sekali jika keperluan adalah samar-samar.”

Output pertama JSON: Skema ketat yang dikuatkuasakan oleh pengesah dengan percubaan semula automatik apabila gagal.

Sampul surat bajet: Had setiap langkah dan setiap episod dengan sandaran dan ringkasan-apabila-kehabisan.

Model dwi: Draf model pantas; model yang boleh dipercayai mengesahkan dan mengedit.

Skeptisisme panggilan alatan: Perlukan ejen untuk mewajarkan sendiri tindakan berisiko tinggi sebelum pelaksanaan.

Abah-abah main semula: Jalankan semula kegagalan lalu selepas setiap perubahan; hantar hanya apabila regresi diselesaikan.

Pagar keselamatan untuk perolehan dan memori

Pemilihan sumber kebenaran: Utamakan korpus yang disusun susun berbanding hasil web mentah.

Keperluan atribusi: Minta ejen untuk memetik sumber atau memberikan ID yang boleh dikesan.

Tetingkap kesegaran: Hadkan kepada dokumen yang dikemas kini dalam tempoh N hari untuk jawapan yang sensitif masa.

Memori TTL: Tamatkan memori sesi secara automatik untuk mengelakkan tingkah laku basi atau terlalu sesuai.

Pertahanan suntikan: Keluarkan arahan daripada kandungan yang diperoleh; gunakan pemisah kandungan dan konteks yang ditandatangani.

Mengukur keselamatan tanpa terhenti

Kad skor keselamatan: Rollup mingguan—insiden PII, tindakan yang disekat, penindihan, pembalikan bayaran balik.

Penetapan sasaran: Tetapkan ambang setiap metrik (cth., <0.1% kebocoran PII setiap 1k sesi).

Ulasan punca: Untuk sebarang insiden teruk, kemas kini gesaan, alatan atau keizinan—kemudian uji semula.

Hasil berbanding keterukan sahaja: Utamakan tolakan kerap kecil kepada larangan besar yang jarang berlaku.

Cadangan perkakasan (bina berbanding beli)

Dasar-sebagai-kod: Gunakan fail konfigurasi untuk peraturan supaya anda boleh membuat versi, menyemak dan mengembalikan.

Lapisan pengesahan: Pengesah skema JSON, pelindung jenis dan ujian kontrak untuk alatan.

Pengelas keselamatan: Pengelas teks ringan untuk PII dan ketoksikan; gabungkan dengan senarai peraturan.

Surihan dan analisis: Pusatkan rentang, ralat, kos dan maklum balas pengguna.

Abah-abah penilaian: Pelari kelompok untuk set emas, dengan papan pemuka dan perbezaan.

Konsol HITL: Beratur, lulus dan anotasi dengan rubrik.

Perlu diingatkan: Jika anda membuat prototaip dan mahukan satu tempat untuk melancarkan ejen, menggunakan pagar keselamatan dan menyemak surihan, Sider.AI boleh memperkemas aliran kerja. Selain itu, pasukan menggunakannya untuk mengkonfigurasi keizinan alatan, menetapkan had bajet, memeriksa surihan penaakulan langkah demi langkah dan menjalankan penilaian bersebelahan, yang mengurangkan masa untuk pelancaran selamat.

Templat langkah demi langkah untuk menetapkan pagar keselamatan minggu ini

Hari 1–2: Skop dan dasar

Tulis misi dan bukan matlamat ejen.

Draf 8–12 peraturan pagar keselamatan; petakan kepada alatan dan gesaan.

Tentukan tahap risiko dan sempadan HITL.

Hari 3–4: Laksanakan kawalan

Tambahkan penapisan dan penapisan data.

Kodkan skema JSON untuk input/output alatan.

Tambahkan had bajet dan pemutus litar.

Sepadukan semakan gaya keselamatan dan jenama.

Hari 5: Kebolehcerapan dan ujian

Hidupkan surihan dan papan pemuka kos.

Bina set emas 100–300 item dengan kes pinggir.

Jalankan ujian permusuhan; betulkan pelanggaran.

Cipta buku permainan insiden.

Minggu 2: Perintis

Hantar dalam mod bayangan.

Kumpul maklum balas; Ujian A/B penapis yang lebih ketat berbanding lebih longgar.

Tala gesaan, ambang dan laluan HITL.

Kembangkan kepada pelancaran kenari.

Corak anti biasa yang perlu dielakkan

Gesaan sistem terlalu panjang yang menimbuskan peraturan utama.

Keizinan alatan tanpa had (“* boleh memanggil apa sahaja”).

Menyimpan PII mentah dalam log.

Bergantung semata-mata pada “LLM-sebagai-hakim” tanpa penentukuran.

Tiada liputan set emas untuk tugas berisiko.

Penghantaran tanpa buku permainan insiden.

Rujukan pantas: contoh dasar pagar keselamatan

Tujuan: Penolakan sokongan pelanggan untuk soalan pengebilan. Bukan matlamat: Nasihat undang-undang, perubatan atau HR. Peraturan:

Gunakan hanya KB dan API pengebilan; jangan sekali-kali menyoal jadual pengguna mentah.

Tapis semua PII dalam output kecuali 4 terakhir ID akaun apabila diminta secara jelas.

Bayaran balik melebihi $50 memerlukan kelulusan manusia.

Jangan sekali-kali mendedahkan ID tiket dalaman.

Jika tidak pasti, tanya satu soalan penjelasan sebelum menjawab.

Petik ID artikel KB untuk jawapan dasar.

Berhenti selepas 3 panggilan alatan; ringkaskan dan tingkatkan jika tidak selesai.

Batalkan jika penapis keselamatan atau pematuhan dicetuskan.

Metrik: Kadar resolusi ≥ 75%, pelanggaran dasar ≤ 0.1%/1k sesi, kos purata ≤ $0.08 setiap tiket yang diselesaikan.

Menyatukannya: kawalan, keyakinan dan pembelajaran berterusan

Ejen AI yang hebat bukan sahaja pintar—ia juga boleh diramal. Apabila anda menetapkan pagar keselamatan dan menilai prestasi untuk ejen AI, anda mencipta gelung yang ketat: tentukan sempadan, ukur hasil, belajar dan gunakan semula. Anda akan bergerak lebih pantas kerana anda menghantar dengan yakin, bukan pita amaran.

Langkah seterusnya:

Mulakan fail dasar-sebagai-kod hari ini; pastikan ia di bawah 200 baris.

Bina set emas 150 kes pertama anda dengan 30 gesaan permusuhan.

Tambahkan had bajet dan skema alatan sebelum keluaran anda yang seterusnya.

Pandu uji dengan mod bayangan dan hipotesis A/B yang jelas.

Semak kad skor keselamatan setiap minggu dan hentikan semakan manual apabila metrik stabil.

Perkara penting:

Pagar keselamatan lapisan: dasar → keizinan → data → alatan → penapis → HITL → kebolehcerapan.

Ukur perkara yang penting: kejayaan, keselamatan, kos, kependaman dan pengalaman.

Seimbangkan keselamatan dan kelajuan dengan tahap risiko dan keupayaan progresif.

Anggap penilaian sebagai berterusan—bukan pintu pagar, tetapi enjin maklum balas.

Soalan Lazim

S1:Apakah pagar keselamatan yang paling penting untuk ejen AI? Mulakan dengan peraturan dasar yang jelas, keizinan alatan keistimewaan paling rendah, penapisan PII, had bajet dan penapis keselamatan. Tambahkan kelulusan manusia-dalam-gelung untuk tindakan berisiko tinggi dan kebolehcerapan penuh untuk mengesan isu lebih awal.

S2:Bagaimanakah anda menilai prestasi ejen AI dengan berkesan? Gabungkan set data emas luar talian dan ujian permusuhan dengan ujian A/B dalam talian dan mod bayangan. Jejaki kejayaan tugas, pelanggaran keselamatan, kos setiap tugas, kependaman dan maklum balas pengguna untuk pandangan yang lengkap.

S3:Bagaimanakah saya boleh menghalang ejen AI daripada berhalusinasi? Gunakan perolehan daripada sumber yang disusun susun, perlukan petikan dan laksanakan model semak sendiri atau pengesah. Tetapkan pengesahan skema dan lalai konservatif apabila keyakinan rendah.

S4:Bilakah manusia perlu menyemak kerja ejen AI? Halakan tindakan berisiko tinggi—pergerakan dana, pengecualian dasar, komunikasi sensitif—kepada kelulusan manusia. Anda boleh merehatkan ambang dari semasa ke semasa apabila metrik stabil.

S5:Alatan apakah yang membantu menetapkan pagar keselamatan dan memantau ejen? Anda memerlukan konfigurasi dasar-sebagai-kod, pengesah skema, pengelas keselamatan dan papan pemuka surihan. Platform seperti Sider.AI boleh memusatkan keizinan, had bajet dan surihan langkah demi langkah untuk mempercepatkan penggunaan yang selamat.