What are the most important guardrails for AI agents?

Start with clear policy rules, least-privilege tool permissions, PII redaction, budget caps, and safety filters. Add human-in-the-loop approvals for high-risk actions and full observability to detect issues early.

How do you evaluate AI agent performance effectively?

Combine offline golden datasets and adversarial tests with online A/B tests and shadow mode. Track task success, safety violations, cost per task, latency, and user feedback for a complete view.

How can I prevent AI agents from hallucinating?

Use retrieval from curated sources, require citations, and implement self-check or verifier models. Set schema validation and conservative defaults when confidence is low.

When should a human review an AI agent’s work?

Route high-risk actions—funds movement, policy exceptions, sensitive communications—to human approval. You can relax thresholds over time as metrics stabilize.

What tools help set guardrails and monitor agents?

You’ll need policy-as-code configs, schema validators, safety classifiers, and tracing dashboards. Platforms like [Sider.AI](https://sider.ai) can centralize permissions, budget caps, and step-by-step traces to speed safe deployment.

Cara Menetapkan Batasan dan Mengevaluasi Kinerja untuk Agen AI

Cetak biru praktis untuk agen AI yang aman dan andal

Bayangkan ini: agen AI otonom Anda dengan percaya diri menjalankan tugas, memutar alat, dan mengirim pesan kepada pelanggan—lalu diam-diam berhalusinasi satu langkah, memboroskan anggaran API, atau membocorkan cuplikan data sensitif. Satu laporan bug kemudian, Anda mengembalikan fitur dan menjawab pertanyaan sulit.

adalah cara Anda mencegah hal itu. Evaluasi kinerja adalah cara Anda membuktikannya.

Panduan ini menunjukkan cara menetapkan dan mengevaluasi kinerja untuk agen AI dengan sistem yang dapat Anda terapkan dalam hitungan minggu, bukan bulan. Kita akan membahas kebijakan, kontrol waktu proses, evaluasi dan , dan umpan balik yang membuat agen terus meningkat sambil tetap berada dalam batasan risiko Anda.

Kita akan menggunakan pendekatan praktis dan berorientasi pada solusi dengan daftar periksa, contoh, dan templat yang dapat Anda sesuaikan dengan tumpukan teknologi Anda.

Apa sebenarnya yang dimaksud dengan “” untuk agen AI?

adalah kebijakan eksplisit, batasan, dan mekanisme waktu proses yang membatasi apa yang dapat dilakukan, dikatakan, atau dibelanjakan oleh agen AI—tanpa menghalangi pekerjaan yang sah. Anggap saja itu sebagai kombinasi dari:

Kebijakan: Apa yang diizinkan atau tidak diizinkan (misalnya, penanganan PII, batas pengeluaran, suara merek, ruang lingkup penggunaan alat).

Penegakan: Bagaimana Anda menerapkan aturan tersebut (misalnya, filter konten, pemberian izin alat, batas pengeluaran).

Observabilitas: Bagaimana Anda mendeteksi pelanggaran (misalnya, pencatatan, jejak, bendera keamanan).

Remediasi: Apa yang terjadi ketika aturan dilanggar (misalnya, pengembalian, persetujuan manusia, peringatan insiden).

Saat Anda menetapkan untuk agen AI, Anda merancang jaring pengaman yang memprioritaskan kepercayaan pengguna, kepatuhan hukum, dan integritas merek—sambil menjaga tetap tinggi.

Tumpukan 7 lapis (dari kebijakan hingga waktu proses)

Gunakan pendekatan berlapis ini agar kegagalan di satu lapisan tidak meluas.

Lapisan kebijakan dan maksud

Tentukan tujuan dan batasan: Untuk apa agen itu dibuat dan bukan untuk apa.

Tulis pernyataan kebijakan yang singkat dan dapat diuji. Contoh: “Agen tidak boleh mengungkapkan ID tiket internal kepada pelanggan.”

Petakan kebijakan ke peraturan: GDPR/CCPA untuk PII, kontrol SOC 2 untuk pencatatan, aturan khusus sektor.

Identitas dan izin

Tetapkan identitas layanan yang berbeda untuk setiap agen.

Batasi izin alat (prinsip hak istimewa terendah): hanya baca vs. tulis vs. admin.

Rotasi kredensial; simpan di pengelola rahasia.

Wajibkan pemberian kemampuan eksplisit untuk tindakan berisiko tinggi (pengembalian uang, penerapan kode).

Akses dan redaksi data

Terapkan daftar izin untuk sumber data; blokir basis data produksi mentah kecuali jika dibenarkan.

Redaksi PII saat penyerapan dan pra-keluaran.

Samarkan rahasia (kunci, token) dan gunakan redaksi deterministik agar log tetap berguna.

Terapkan filter pengambilan: rentang waktu, ruang nama, tag sensitivitas.

Batasan dan penggunaan alat

sistem: enkode kebijakan dalam istilah yang jelas dan dapat diuji (“Jangan pernah menyajikan saran medis yang belum diverifikasi”).

Skema alat: validasi input dan output (skema JSON, batasan enum).

Batas anggaran: batas token, waktu, dan biaya per tugas; pemutus sirkuit pada perulangan tak terkendali.

Langkah refleksi dan kritik untuk tugas berisiko (periksa sendiri sebelum bertindak).

Filter konten dan keamanan

Klasifikasi pra- dan pasca-generasi: toksisitas, PII, risiko halusinasi, gaya merek.

berbasis aturan untuk topik sensitif (keuangan, kesehatan, hukum).

Beri pada yang memerlukan tinjauan manusia.

Pos pemeriksaan (HITL)

Rute tindakan berisiko tinggi ke antrean persetujuan.

Beri peninjau rubrik terstruktur (akurasi, nada, kepatuhan).

Dukung persetujuan sebagian (setujui edit, tolak pengembalian uang).

Catat keputusan peninjau untuk melatih persetujuan otomatis yang lebih baik di kemudian hari.

Observabilitas, peringatan, dan respons insiden

Lacak setiap panggilan alat dengan input, output, dan latensi.

Beri tag pada peristiwa: policy_violation, safety_flag, override, customer_escalation.

Peringatan waktu nyata tentang lonjakan pengeluaran, badai perulangan, dan penolakan berulang.

Buku pedoman insiden dengan templat dan komunikasi.

Dari kertas ke produksi: daftar periksa pengaturan

Tentukan tujuan dan non-tujuan agen dalam satu halaman.

Terjemahkan kebijakan ke dalam instruksi dan batasan alat.

Bangun filter data dan redaksi PII untuk pengambilan dan .

Tetapkan anggaran: token maks, alat maks per langkah, biaya total maks per tugas.

Tambahkan filter konten dan pemeriksaan gaya merek.

Wajibkan HITL untuk kategori berisiko tinggi.

Terapkan observabilitas: log, jejak, dasbor.

Buat buku pedoman insiden dan peringatan saat bertugas.

Jalankan pengujian ; perbaiki celah; jalankan ulang sebelum peluncuran.

Mengevaluasi kinerja agen AI: dan

Anda tidak dapat mengelola apa yang tidak Anda ukur. Bangun evaluasi ke dalam siklus hidup pengembangan Anda.

1) Tentukan metrik keberhasilan sebelum peluncuran

Tingkat keberhasilan tugas: Apakah agen menyelesaikan tujuan?

Akurasi lintasan pertama: Apakah awal benar tanpa tinjauan?

Skor keamanan/kepatuhan: Pelanggaran per 1.000 interaksi.

Biaya per tugas yang berhasil: Token + alat per keberhasilan.

Latensi hingga resolusi: Waktu untuk menyelesaikan alur kerja.

Pengalaman pelanggan: CSAT, kebermanfaatan, tingkat eskalasi.

Tingkat halusinasi: Fakta salah per 100 jawaban dalam set tolok ukur.

2) Evaluasi (pra-produksi)

Set data emas: Kurasi tugas perwakilan dengan jawaban kebenaran dasar.

Kasus ekstrem sintetis: , injeksi , penyalahgunaan alat.

Pengujian unit untuk : Pengujian sehingga regresi terlihat jelas.

Simulasi alat: Stub sistem eksternal untuk memverifikasi validasi parameter dan percobaan ulang.

Audit kebijakan: Tim merah terhadap aturan Anda sendiri.

Rubrik : Penilaian yang konsisten untuk akurasi, nada, dan kepatuhan.

Pendekatan penilaian: Gunakan campuran metrik otomatis (validitas skema, keberadaan PII) dan LLM-sebagai-hakim hanya jika dikalibrasi. Selalu periksa langsung dengan manusia sampai kesepakatan tinggi.

3) Evaluasi (pasca-peluncuran)

Mode bayangan: Agen membuat draf; manusia memutuskan. Bandingkan delta.

Pengujian A/B: Varian (ketat vs. permisif) dan versi .

Penyisipan: Strategi alternatif dalam sesi untuk mendeteksi kemenangan halus.

Rilis : Luncurkan ke 1–5% sesi dengan pemantauan ketat.

Pengambilan umpan balik: Jempol ke atas/bawah, tag cepat (tidak benar, di luar merek, tidak aman).

Log kontrafaktual: Simpan jejak lengkap untuk sesi yang gagal untuk direproduksi.

Merancang yang tidak membunuh produktivitas

Sangat mudah untuk berlebihan. Tujuannya adalah kontrol proporsional: perlindungan kuat di tempat risiko tinggi, sentuhan ringan di tempat risiko rendah.

Tugas lapisan risiko: Klasifikasikan tugas berdasarkan dampak (misalnya, Tingkat 3 = konten publik; Tingkat 1 = pergerakan dana). Terapkan yang lebih kuat seiring peningkatan tingkat.

Pengungkapan progresif: Buka lebih banyak kemampuan saat agen membuktikan keandalan.

Ambang adaptif: Perketat filter selama lonjakan anomali; rileks saat stabil.

Penolakan cerdas: Berikan alternatif alih-alih “tidak” keras.

dan pengambilan: Kurangi halusinasi melalui pengambilan otoritatif dan memori jangka pendek.

Perencanaan sadar biaya: Dorong model yang lebih murah untuk membuat draf; gunakan model berkualitas lebih tinggi untuk finalisasi.

Contoh konkret menurut domain

Agen dukungan pelanggan:

: Batasi untuk pengambilan basis pengetahuan; redaksi PII; blokir saran hukum/medis; HITL untuk pengembalian uang >$50.

Evaluasi: Tingkat resolusi, waktu respons pertama, tingkat eskalasi, tingkat pelanggaran kebijakan.

Agen penjangkauan penjualan:

: Terapkan suara merek dan teks kepatuhan; kiriman ; daftar izin domain; menghormati pilihan keluar.

Evaluasi: Tingkat balasan, rapat yang memenuhi syarat dipesan, keluhan , berhenti berlangganan.

Agen pengkodean:

: Hanya baca sampai pengujian lulus; eksekusi ; daftar izin dependensi; pemindai lisensi.

Evaluasi: Tingkat kelulusan pengujian, komentar ulasan per PR, temuan keamanan, waktu pembuatan.

Agen analis data:

: Kueri terparameterisasi, keamanan tingkat baris, penyamaran PII, filter jendela waktu.

Evaluasi: Biaya kueri, kebenaran vs. buku catatan emas, penggunaan kembali .

Pola yang berfungsi dalam produksi

sistem sebagai kebijakan: Buat agar singkat, bernomor, dan dapat diuji. Contoh: “1) Gunakan hanya alat yang disediakan. 2) Jangan pernah mengungkapkan ID internal. 3) Minta klarifikasi sekali jika persyaratan ambigu.”

JSON-pertama: Skema ketat yang diterapkan oleh validator dengan percobaan ulang otomatis saat gagal.

Amplop anggaran: Batas per langkah dan per episode dengan dan ringkasan-saat-kelelahan.

Model ganda: Draf model cepat; model yang andal memverifikasi dan mengedit.

Skeptisisme panggilan alat: Wajibkan agen untuk membenarkan sendiri tindakan berisiko tinggi sebelum eksekusi.

: Jalankan ulang kegagalan masa lalu setelah setiap perubahan; kirim hanya jika regresi teratasi.

untuk pengambilan dan memori

Pemilihan sumber kebenaran: Lebih suka korpora terkurasi daripada hasil web mentah.

Persyaratan atribusi: Minta agen untuk mengutip sumber atau memberikan ID yang dapat dilacak.

Jendela kesegaran: Batasi untuk dokumen yang diperbarui dalam N hari untuk jawaban yang sensitif terhadap waktu.

Memori TTL: Otomatis kedaluwarsa memori sesi untuk mencegah perilaku basi atau .

Pertahanan injeksi: Hapus instruksi dari konten yang diambil; gunakan pemisah konten dan konteks yang ditandatangani.

Mengukur keamanan tanpa menghentikan

Kartu skor keamanan: Ringkasan mingguan—insiden PII, tindakan yang diblokir, penimpaan, pembalikan pengembalian uang.

Penetapan target: Tetapkan ambang batas per metrik (misalnya, <0,1% kebocoran PII per 1 ribu sesi).

Tinjauan akar penyebab: Untuk setiap insiden parah, perbarui , alat, atau izin—lalu uji ulang.

Hasil di atas tingkat keparahan saja: Lebih suka dorongan kecil yang sering daripada larangan besar yang jarang.

Saran perkakas (buat vs. beli)

Kebijakan-sebagai-kode: Gunakan file konfigurasi untuk aturan sehingga Anda dapat melakukan versi, meninjau, dan mengembalikan.

Lapisan validasi: Validator skema JSON, penjaga tipe, dan pengujian kontrak untuk alat.

Pengklasifikasi keamanan: Pengklasifikasi teks ringan untuk PII dan toksisitas; gabungkan dengan daftar aturan.

Pelacakan dan analitik: Pusatkan rentang, kesalahan, biaya, dan umpan balik pengguna.

: Pelari batch untuk set emas, dengan dasbor dan perbedaan.

Konsol HITL: Antrekan, setujui, dan beri anotasi dengan rubrik.

Perlu diperhatikan: Jika Anda membuat prototipe dan menginginkan satu tempat untuk memutar agen, menerapkan , dan meninjau jejak, Sider.AI dapat menyederhanakan alur kerja. Omong-omong, tim menggunakannya untuk mengonfigurasi izin alat, menetapkan batas anggaran, memeriksa jejak penalaran langkah demi langkah, dan menjalankan evaluasi berdampingan, yang mengurangi waktu peluncuran yang aman.

Templat langkah demi langkah untuk menetapkan minggu ini

Hari 1–2: Ruang lingkup dan kebijakan

Tulis misi dan non-tujuan agen.

Buat draf 8–12 aturan ; petakan ke alat dan .

Tentukan lapisan risiko dan batasan HITL.

Hari 3–4: Terapkan kontrol

Tambahkan pemfilteran dan redaksi data.

Enkode skema JSON untuk input/output alat.

Tambahkan batas anggaran dan pemutus sirkuit.

Integrasikan pemeriksaan gaya keamanan dan merek.

Hari 5: Observabilitas dan pengujian

Aktifkan pelacakan dan dasbor biaya.

Bangun set emas 100–300 item dengan kasus ekstrem.

Jalankan pengujian ; perbaiki pelanggaran.

Buat buku pedoman insiden.

Minggu 2: Pilot

Kirim dalam mode bayangan.

Kumpulkan umpan balik; uji A/B filter yang lebih ketat vs. lebih longgar.

Sesuaikan , ambang batas, dan rute HITL.

Perluas ke peluncuran .

Pola anti-umum yang harus dihindari

sistem yang terlalu panjang yang mengubur aturan utama.

Izin alat tak terbatas (“* dapat memanggil apa saja”).

Menyimpan PII mentah dalam log.

Hanya mengandalkan “LLM-sebagai-hakim” tanpa kalibrasi.

Tidak ada cakupan set emas untuk tugas berisiko.

Pengiriman tanpa buku pedoman insiden.

Referensi cepat: contoh kebijakan

Tujuan: Defleksi dukungan pelanggan untuk pertanyaan penagihan. Non-tujuan: Saran hukum, medis, atau SDM. Aturan:

Gunakan hanya KB dan API penagihan; jangan pernah membuat kueri tabel pengguna mentah.

Redaksi semua PII dalam kecuali 4 angka terakhir ID akun ketika diminta secara eksplisit.

Pengembalian uang di atas $50 memerlukan persetujuan manusia.

Jangan pernah mengungkapkan ID tiket internal.

Jika tidak yakin, ajukan satu pertanyaan klarifikasi sebelum menjawab.

Kutip ID artikel KB untuk jawaban kebijakan.

Berhenti setelah 3 panggilan alat; ringkas dan eskalasi jika tidak terselesaikan.

Batalkan jika filter keamanan atau kepatuhan dipicu.

Metrik: Tingkat resolusi ≥ 75%, pelanggaran kebijakan ≤ 0,1%/1 ribu sesi, biaya rata-rata ≤ $0,08 per tiket yang diselesaikan.

Menyatukannya: kontrol, kepercayaan diri, dan pembelajaran berkelanjutan

Agen AI yang hebat tidak hanya cerdas—mereka dapat diprediksi. Saat Anda menetapkan dan mengevaluasi kinerja untuk agen AI, Anda membuat lingkaran yang ketat: tentukan batasan, ukur hasil, pelajari, dan terapkan kembali. Anda akan bergerak lebih cepat karena Anda mengirim dengan percaya diri, bukan pita peringatan.

Langkah selanjutnya:

Mulai file kebijakan-sebagai-kode hari ini; jaga agar tetap di bawah 200 baris.

Bangun set emas 150 kasus pertama Anda dengan 30 .

Tambahkan batas anggaran dan skema alat sebelum rilis Anda berikutnya.

Pilot dengan mode bayangan dan hipotesis A/B yang jelas.

Tinjau kartu skor keamanan setiap minggu dan hentikan pemeriksaan manual saat metrik stabil.

Poin-poin penting:

lapisan: kebijakan → izin → data → alat → filter → HITL → observabilitas.

Ukur apa yang penting: keberhasilan, keamanan, biaya, latensi, dan pengalaman.

Seimbangkan keamanan dan kecepatan dengan lapisan risiko dan kemampuan progresif.

Perlakukan evaluasi sebagai berkelanjutan—bukan gerbang, tetapi mesin umpan balik.

FAQ

Q1: Apa terpenting untuk agen AI? Mulailah dengan aturan kebijakan yang jelas, izin alat hak istimewa terendah, redaksi PII, batas anggaran, dan filter keamanan. Tambahkan persetujuan untuk tindakan berisiko tinggi dan observabilitas penuh untuk mendeteksi masalah sejak dini.

Q2: Bagaimana cara mengevaluasi kinerja agen AI secara efektif? Gabungkan set data emas dan pengujian dengan pengujian A/B dan mode bayangan. Lacak keberhasilan tugas, pelanggaran keamanan, biaya per tugas, latensi, dan umpan balik pengguna untuk tampilan lengkap.

Q3: Bagaimana cara mencegah agen AI berhalusinasi? Gunakan pengambilan dari sumber terkurasi, wajibkan kutipan, dan terapkan model pemeriksaan sendiri atau verifikasi. Tetapkan validasi skema dan default konservatif ketika kepercayaan diri rendah.

Q4: Kapan manusia harus meninjau pekerjaan agen AI? Rute tindakan berisiko tinggi—pergerakan dana, pengecualian kebijakan, komunikasi sensitif—ke persetujuan manusia. Anda dapat melonggarkan ambang batas dari waktu ke waktu saat metrik stabil.

Q5: Alat apa yang membantu menetapkan dan memantau agen? Anda memerlukan konfigurasi kebijakan-sebagai-kode, validator skema, pengklasifikasi keamanan, dan dasbor pelacakan. Platform seperti Sider.AI dapat memusatkan izin, batas anggaran, dan jejak langkah demi langkah untuk mempercepat penerapan yang aman.