AI

Prompt Evaluation untuk Fitur AI Bahasa Indonesia

Cara menguji prompt dan output fitur AI Bahasa Indonesia dengan dataset uji, kriteria kualitas, edge case lokal, human review, dan monitoring setelah rilis.

1 Mei 2026

Fitur AI Bahasa Indonesia tidak cukup diuji dengan beberapa prompt yang terlihat berhasil di demo. Bahasa pelanggan bisa campur formal dan informal, memakai istilah internal, singkatan, typo, bahasa daerah, atau potongan chat WhatsApp. Output yang terlihat rapi belum tentu benar, aman, atau sesuai konteks bisnis.

Prompt evaluation adalah cara membuat pengujian lebih disiplin. Tujuannya bukan mencari prompt sempurna. Tujuannya mengetahui seberapa sering output AI benar, di kasus apa ia gagal, dan guardrail apa yang perlu dipasang sebelum fitur dipakai pelanggan.

Buat dataset uji kecil

Mulai dari 50-100 contoh input nyata atau realistis. Jangan hanya membuat contoh ideal. Ambil variasi:

Jika memakai data pelanggan asli, bersihkan informasi sensitif. Ganti nama, nomor telepon, email, invoice, dan data pribadi. Dataset uji harus membantu evaluasi, bukan membuat risiko baru.

Tentukan output yang diharapkan

Untuk setiap input, tulis kriteria output. Tidak selalu perlu jawaban final kata demi kata. Yang penting adalah aspek yang wajib benar.

Contoh kriteria:

Tanpa kriteria, reviewer akan menilai berdasarkan selera. Satu orang merasa jawaban cukup baik, orang lain merasa terlalu kaku. Kriteria membuat diskusi lebih objektif.

Skor kualitas output

Gunakan scorecard 1 sampai 5:

Catat juga alasan skor rendah. "Bahasa aneh" kurang berguna. Lebih baik tulis "terlalu formal untuk konteks WhatsApp support" atau "menganggap pelanggan sudah login padahal input menyebut lupa password."

Uji edge case lokal

Bahasa Indonesia di produk SaaS lokal punya kasus khas:

Input seperti ini membawa konteks bisnis. AI harus tahu kapan menjawab, kapan meminta data tambahan, dan kapan mengarahkan ke manusia. Untuk fitur yang menyentuh finance, akses, atau data pelanggan, prompt harus lebih konservatif.

Bandingkan prompt, jangan percaya satu versi

Uji beberapa versi prompt pada dataset yang sama. Catat:

Prompt yang menang bukan yang paling panjang. Prompt yang baik memberi instruksi jelas, contoh cukup, dan batasan yang tegas. Jika prompt terlalu banyak aturan, model bisa mengikuti sebagian dan melupakan yang lain. Simpan prompt dalam version control agar perubahan bisa dilacak.

Human review sebelum rilis

Untuk fitur AI di produk, review tidak boleh hanya dilakukan engineer. Libatkan support, product, dan orang yang memahami pelanggan.

Pembagian review:

Jika reviewer sering tidak sepakat, kriteria output belum cukup jelas. Perbaiki scorecard sebelum menambah model atau tool baru.

Monitoring setelah rilis

Prompt evaluation tidak berhenti saat fitur live. Setelah rilis, pantau:

Simpan contoh gagal sebagai dataset uji baru. Setiap incident kecil harus memperkaya test set. Dengan begitu, fitur AI makin tahan terhadap kasus nyata, bukan hanya makin bagus di demo internal.

Jangan hanya menguji happy path

Prompt yang baik di demo sering gagal di input yang tidak ideal. Tambahkan kasus negatif:

Untuk setiap kasus negatif, tulis perilaku yang diharapkan. Kadang jawaban terbaik adalah meminta klarifikasi. Kadang jawaban terbaik adalah menolak. Kadang AI harus mengarahkan ke manusia.

Kapan prompt perlu diubah

Jangan mengubah prompt setiap kali ada satu output buruk. Lihat pola:

Jika pola jelas, ubah prompt dan jalankan ulang dataset yang sama. Jangan hanya mengetes kasus yang gagal. Pastikan perubahan baru tidak merusak kasus yang sebelumnya sudah benar.

Jelaskan batasan di UI

Prompt evaluation juga harus memengaruhi desain produk. Jika hasil evaluasi menunjukkan AI sering butuh konteks tambahan, UI perlu membantu user memberi konteks. Jika AI tidak boleh memberi jawaban final untuk kasus tertentu, UI harus menjelaskan bahwa hasilnya adalah draft atau rekomendasi.

Contoh batasan yang bisa ditampilkan:

Batasan yang jelas tidak membuat fitur terlihat lemah. Ia membuat user memahami kapan harus percaya, kapan harus mengecek, dan kapan harus meminta bantuan manusia.

Checklist sebelum prompt masuk produksi:

Jika checklist ini belum terpenuhi, rilis fitur sebagai beta internal atau limited preview dengan reviewer jelas, batas akses terbatas, dan catatan risiko tertulis yang jelas. Jangan menjadikan pelanggan pertama sebagai sistem evaluasi utama.

Langkah berikutnya

Ambil satu fitur AI yang ingin dirilis, lalu buat dataset uji 50 contoh. Tulis kriteria output, jalankan dua versi prompt, dan minta minimal dua reviewer memberi skor. Jangan rilis ke pelanggan sebelum tahu tiga hal: kasus yang berhasil, kasus yang gagal, dan batasan yang harus dijelaskan di UI.

Bacaan terkait