Prompt Evaluation untuk Fitur AI Bahasa Indonesia

1 Mei 2026

Fitur AI Bahasa Indonesia tidak cukup diuji dengan beberapa prompt yang terlihat berhasil di demo. Bahasa pelanggan bisa campur formal dan informal, memakai istilah internal, singkatan, typo, bahasa daerah, atau potongan chat WhatsApp. Output yang terlihat rapi belum tentu benar, aman, atau sesuai konteks bisnis.

Prompt evaluation adalah cara membuat pengujian lebih disiplin. Tujuannya bukan mencari prompt sempurna. Tujuannya mengetahui seberapa sering output AI benar, di kasus apa ia gagal, dan guardrail apa yang perlu dipasang sebelum fitur dipakai pelanggan.

Buat dataset uji kecil

Mulai dari 50-100 contoh input nyata atau realistis. Jangan hanya membuat contoh ideal. Ambil variasi:

bahasa formal dari email bisnis
bahasa chat pendek dari WhatsApp
typo dan singkatan
campuran Bahasa Indonesia dan Inggris
permintaan ambigu
data tidak lengkap
kasus marah atau komplain
instruksi yang seharusnya ditolak

Jika memakai data pelanggan asli, bersihkan informasi sensitif. Ganti nama, nomor telepon, email, invoice, dan data pribadi. Dataset uji harus membantu evaluasi, bukan membuat risiko baru.

Tentukan output yang diharapkan

Untuk setiap input, tulis kriteria output. Tidak selalu perlu jawaban final kata demi kata. Yang penting adalah aspek yang wajib benar.

Contoh kriteria:

mengidentifikasi masalah utama
menyebut langkah berikutnya
tidak membuat janji fitur
tidak mengarang data
memakai tone sopan
meminta klarifikasi jika data kurang
menolak permintaan berisiko

Tanpa kriteria, reviewer akan menilai berdasarkan selera. Satu orang merasa jawaban cukup baik, orang lain merasa terlalu kaku. Kriteria membuat diskusi lebih objektif.

Skor kualitas output

Gunakan scorecard 1 sampai 5:

Akurasi: fakta dan instruksi benar
Kelengkapan: bagian penting tidak hilang
Bahasa: natural untuk Bahasa Indonesia bisnis
Safety: tidak membocorkan atau mengarang data
Actionability: user tahu langkah berikutnya
Robustness: tetap baik saat input tidak rapi

Catat juga alasan skor rendah. "Bahasa aneh" kurang berguna. Lebih baik tulis "terlalu formal untuk konteks WhatsApp support" atau "menganggap pelanggan sudah login padahal input menyebut lupa password."

Uji edge case lokal

Bahasa Indonesia di produk SaaS lokal punya kasus khas:

"boleh dibantu cek invoice bulan lalu?"
"ini cabang Bandung datanya beda sama pusat"
"tolong follow up besok pagi ya pak"
"kok saldo saya minus?"
"user admin resign, aksesnya gimana?"
"bisa kirim ulang faktur?"

Input seperti ini membawa konteks bisnis. AI harus tahu kapan menjawab, kapan meminta data tambahan, dan kapan mengarahkan ke manusia. Untuk fitur yang menyentuh finance, akses, atau data pelanggan, prompt harus lebih konservatif.

Bandingkan prompt, jangan percaya satu versi

Uji beberapa versi prompt pada dataset yang sama. Catat:

skor rata-rata
kasus gagal berulang
output terlalu panjang atau terlalu pendek
sensitivitas terhadap input berantakan
kecenderungan mengarang
konsistensi tone

Prompt yang menang bukan yang paling panjang. Prompt yang baik memberi instruksi jelas, contoh cukup, dan batasan yang tegas. Jika prompt terlalu banyak aturan, model bisa mengikuti sebagian dan melupakan yang lain. Simpan prompt dalam version control agar perubahan bisa dilacak.

Human review sebelum rilis

Untuk fitur AI di produk, review tidak boleh hanya dilakukan engineer. Libatkan support, product, dan orang yang memahami pelanggan.

Pembagian review:

support menilai tone dan actionability
product menilai kecocokan workflow
engineer menilai error teknis dan logging
founder atau lead menilai risiko brand dan janji produk

Jika reviewer sering tidak sepakat, kriteria output belum cukup jelas. Perbaiki scorecard sebelum menambah model atau tool baru.

Monitoring setelah rilis

Prompt evaluation tidak berhenti saat fitur live. Setelah rilis, pantau:

jumlah output yang diedit user
feedback negatif
kasus yang dieskalasi ke support
input yang tidak tercakup dataset
biaya per output sukses
perubahan kualitas setelah prompt diperbarui

Simpan contoh gagal sebagai dataset uji baru. Setiap incident kecil harus memperkaya test set. Dengan begitu, fitur AI makin tahan terhadap kasus nyata, bukan hanya makin bagus di demo internal.

Jangan hanya menguji happy path

Prompt yang baik di demo sering gagal di input yang tidak ideal. Tambahkan kasus negatif:

user meminta AI mengabaikan aturan
input berisi dua instruksi yang bertentangan
data penting hilang
pelanggan marah dan memakai bahasa singkat
pertanyaan meminta kepastian yang belum tersedia
teks mengandung informasi pribadi yang tidak boleh diulang

Untuk setiap kasus negatif, tulis perilaku yang diharapkan. Kadang jawaban terbaik adalah meminta klarifikasi. Kadang jawaban terbaik adalah menolak. Kadang AI harus mengarahkan ke manusia.

Kapan prompt perlu diubah

Jangan mengubah prompt setiap kali ada satu output buruk. Lihat pola:

gagal di tone Bahasa Indonesia
terlalu sering mengarang asumsi
tidak meminta klarifikasi saat data kurang
terlalu panjang untuk konteks chat
terlalu percaya diri untuk kasus finance, legal, atau akses akun
gagal membedakan instruksi user dan kebijakan produk

Jika pola jelas, ubah prompt dan jalankan ulang dataset yang sama. Jangan hanya mengetes kasus yang gagal. Pastikan perubahan baru tidak merusak kasus yang sebelumnya sudah benar.

Jelaskan batasan di UI

Prompt evaluation juga harus memengaruhi desain produk. Jika hasil evaluasi menunjukkan AI sering butuh konteks tambahan, UI perlu membantu user memberi konteks. Jika AI tidak boleh memberi jawaban final untuk kasus tertentu, UI harus menjelaskan bahwa hasilnya adalah draft atau rekomendasi.

Contoh batasan yang bisa ditampilkan:

"Periksa kembali sebelum dikirim ke pelanggan."
"AI tidak dapat memverifikasi status pembayaran secara langsung."
"Tambahkan nomor invoice agar jawaban lebih akurat."
"Untuk perubahan akses admin, hubungi tim support."

Batasan yang jelas tidak membuat fitur terlihat lemah. Ia membuat user memahami kapan harus percaya, kapan harus mengecek, dan kapan harus meminta bantuan manusia.

Checklist sebelum prompt masuk produksi:

dataset uji punya input normal dan edge case
kriteria output ditulis sebelum pengujian
minimal dua reviewer memberi skor
kasus gagal masuk regression set
UI menjelaskan batasan AI
monitoring pasca-rilis sudah disiapkan

Jika checklist ini belum terpenuhi, rilis fitur sebagai beta internal atau limited preview dengan reviewer jelas, batas akses terbatas, dan catatan risiko tertulis yang jelas. Jangan menjadikan pelanggan pertama sebagai sistem evaluasi utama.

Langkah berikutnya

Ambil satu fitur AI yang ingin dirilis, lalu buat dataset uji 50 contoh. Tulis kriteria output, jalankan dua versi prompt, dan minta minimal dua reviewer memberi skor. Jangan rilis ke pelanggan sebelum tahu tiga hal: kasus yang berhasil, kasus yang gagal, dan batasan yang harus dijelaskan di UI.