Fitur AI Bahasa Indonesia tidak cukup diuji dengan beberapa prompt yang terlihat berhasil di demo. Bahasa pelanggan bisa campur formal dan informal, memakai istilah internal, singkatan, typo, bahasa daerah, atau potongan chat WhatsApp. Output yang terlihat rapi belum tentu benar, aman, atau sesuai konteks bisnis.
Prompt evaluation adalah cara membuat pengujian lebih disiplin. Tujuannya bukan mencari prompt sempurna. Tujuannya mengetahui seberapa sering output AI benar, di kasus apa ia gagal, dan guardrail apa yang perlu dipasang sebelum fitur dipakai pelanggan.
Buat dataset uji kecil
Mulai dari 50-100 contoh input nyata atau realistis. Jangan hanya membuat contoh ideal. Ambil variasi:
- bahasa formal dari email bisnis
- bahasa chat pendek dari WhatsApp
- typo dan singkatan
- campuran Bahasa Indonesia dan Inggris
- permintaan ambigu
- data tidak lengkap
- kasus marah atau komplain
- instruksi yang seharusnya ditolak
Jika memakai data pelanggan asli, bersihkan informasi sensitif. Ganti nama, nomor telepon, email, invoice, dan data pribadi. Dataset uji harus membantu evaluasi, bukan membuat risiko baru.
Tentukan output yang diharapkan
Untuk setiap input, tulis kriteria output. Tidak selalu perlu jawaban final kata demi kata. Yang penting adalah aspek yang wajib benar.
Contoh kriteria:
- mengidentifikasi masalah utama
- menyebut langkah berikutnya
- tidak membuat janji fitur
- tidak mengarang data
- memakai tone sopan
- meminta klarifikasi jika data kurang
- menolak permintaan berisiko
Tanpa kriteria, reviewer akan menilai berdasarkan selera. Satu orang merasa jawaban cukup baik, orang lain merasa terlalu kaku. Kriteria membuat diskusi lebih objektif.
Skor kualitas output
Gunakan scorecard 1 sampai 5:
- Akurasi: fakta dan instruksi benar
- Kelengkapan: bagian penting tidak hilang
- Bahasa: natural untuk Bahasa Indonesia bisnis
- Safety: tidak membocorkan atau mengarang data
- Actionability: user tahu langkah berikutnya
- Robustness: tetap baik saat input tidak rapi
Catat juga alasan skor rendah. "Bahasa aneh" kurang berguna. Lebih baik tulis "terlalu formal untuk konteks WhatsApp support" atau "menganggap pelanggan sudah login padahal input menyebut lupa password."
Uji edge case lokal
Bahasa Indonesia di produk SaaS lokal punya kasus khas:
- "boleh dibantu cek invoice bulan lalu?"
- "ini cabang Bandung datanya beda sama pusat"
- "tolong follow up besok pagi ya pak"
- "kok saldo saya minus?"
- "user admin resign, aksesnya gimana?"
- "bisa kirim ulang faktur?"
Input seperti ini membawa konteks bisnis. AI harus tahu kapan menjawab, kapan meminta data tambahan, dan kapan mengarahkan ke manusia. Untuk fitur yang menyentuh finance, akses, atau data pelanggan, prompt harus lebih konservatif.
Bandingkan prompt, jangan percaya satu versi
Uji beberapa versi prompt pada dataset yang sama. Catat:
- skor rata-rata
- kasus gagal berulang
- output terlalu panjang atau terlalu pendek
- sensitivitas terhadap input berantakan
- kecenderungan mengarang
- konsistensi tone
Prompt yang menang bukan yang paling panjang. Prompt yang baik memberi instruksi jelas, contoh cukup, dan batasan yang tegas. Jika prompt terlalu banyak aturan, model bisa mengikuti sebagian dan melupakan yang lain. Simpan prompt dalam version control agar perubahan bisa dilacak.
Human review sebelum rilis
Untuk fitur AI di produk, review tidak boleh hanya dilakukan engineer. Libatkan support, product, dan orang yang memahami pelanggan.
Pembagian review:
- support menilai tone dan actionability
- product menilai kecocokan workflow
- engineer menilai error teknis dan logging
- founder atau lead menilai risiko brand dan janji produk
Jika reviewer sering tidak sepakat, kriteria output belum cukup jelas. Perbaiki scorecard sebelum menambah model atau tool baru.
Monitoring setelah rilis
Prompt evaluation tidak berhenti saat fitur live. Setelah rilis, pantau:
- jumlah output yang diedit user
- feedback negatif
- kasus yang dieskalasi ke support
- input yang tidak tercakup dataset
- biaya per output sukses
- perubahan kualitas setelah prompt diperbarui
Simpan contoh gagal sebagai dataset uji baru. Setiap incident kecil harus memperkaya test set. Dengan begitu, fitur AI makin tahan terhadap kasus nyata, bukan hanya makin bagus di demo internal.
Jangan hanya menguji happy path
Prompt yang baik di demo sering gagal di input yang tidak ideal. Tambahkan kasus negatif:
- user meminta AI mengabaikan aturan
- input berisi dua instruksi yang bertentangan
- data penting hilang
- pelanggan marah dan memakai bahasa singkat
- pertanyaan meminta kepastian yang belum tersedia
- teks mengandung informasi pribadi yang tidak boleh diulang
Untuk setiap kasus negatif, tulis perilaku yang diharapkan. Kadang jawaban terbaik adalah meminta klarifikasi. Kadang jawaban terbaik adalah menolak. Kadang AI harus mengarahkan ke manusia.
Kapan prompt perlu diubah
Jangan mengubah prompt setiap kali ada satu output buruk. Lihat pola:
- gagal di tone Bahasa Indonesia
- terlalu sering mengarang asumsi
- tidak meminta klarifikasi saat data kurang
- terlalu panjang untuk konteks chat
- terlalu percaya diri untuk kasus finance, legal, atau akses akun
- gagal membedakan instruksi user dan kebijakan produk
Jika pola jelas, ubah prompt dan jalankan ulang dataset yang sama. Jangan hanya mengetes kasus yang gagal. Pastikan perubahan baru tidak merusak kasus yang sebelumnya sudah benar.
Jelaskan batasan di UI
Prompt evaluation juga harus memengaruhi desain produk. Jika hasil evaluasi menunjukkan AI sering butuh konteks tambahan, UI perlu membantu user memberi konteks. Jika AI tidak boleh memberi jawaban final untuk kasus tertentu, UI harus menjelaskan bahwa hasilnya adalah draft atau rekomendasi.
Contoh batasan yang bisa ditampilkan:
- "Periksa kembali sebelum dikirim ke pelanggan."
- "AI tidak dapat memverifikasi status pembayaran secara langsung."
- "Tambahkan nomor invoice agar jawaban lebih akurat."
- "Untuk perubahan akses admin, hubungi tim support."
Batasan yang jelas tidak membuat fitur terlihat lemah. Ia membuat user memahami kapan harus percaya, kapan harus mengecek, dan kapan harus meminta bantuan manusia.
Checklist sebelum prompt masuk produksi:
- dataset uji punya input normal dan edge case
- kriteria output ditulis sebelum pengujian
- minimal dua reviewer memberi skor
- kasus gagal masuk regression set
- UI menjelaskan batasan AI
- monitoring pasca-rilis sudah disiapkan
Jika checklist ini belum terpenuhi, rilis fitur sebagai beta internal atau limited preview dengan reviewer jelas, batas akses terbatas, dan catatan risiko tertulis yang jelas. Jangan menjadikan pelanggan pertama sebagai sistem evaluasi utama.
Langkah berikutnya
Ambil satu fitur AI yang ingin dirilis, lalu buat dataset uji 50 contoh. Tulis kriteria output, jalankan dua versi prompt, dan minta minimal dua reviewer memberi skor. Jangan rilis ke pelanggan sebelum tahu tiga hal: kasus yang berhasil, kasus yang gagal, dan batasan yang harus dijelaskan di UI.