Ini bukan sekadar kelemahan teknis, tapi bukti bahwa kita telah keliru mengukur kecerdasan buatan dengan tolok ukur yang salah. BLEU, misalnya, hanya mengukur kemiripan leksikal, padahal dalam pemrograman, dua solusi yang sangat berbeda dalam sintaks bisa saja setara secara fungsional atau sebaliknya.
ReCa: Dataset yang Menghadirkan Realitas
Kontribusi penting dari studi ini adalah ReCa, sebuah dataset baru yang menggabungkan requirement teks dan berbagai implementasi kode nyata dari situs kompetisi pemrograman seperti Codeforces. Ini adalah lompatan besar dari dataset sebelumnya (seperti Django atau CoNaLa) yang terlalu kecil, terlalu seragam, dan terlalu "bersih" dibandingkan kenyataan industri.
Dengan ReCa, peneliti kini memiliki landasan yang lebih realistis untuk menguji dan melatih sistem AI. Sayangnya, saat diuji pada ReCa, semua model populer gagal menunjukkan performa memuaskan. Bahkan pendekatan paling sederhana---menghasilkan kode "umum" yang sering muncul di dataset mengungguli model deep learning dalam beberapa metrik. Ironis, bukan?
Apa Artinya untuk Masa Depan?
Artikel ini tidak bermaksud menjatuhkan ambisi otomatisasi pengembangan perangkat lunak. Justru sebaliknya, ia menekankan bahwa jalan menuju otomatisasi sejati masih panjang dan penuh tantangan. Model deep learning tidak bisa berdiri sendiri; mereka perlu dipadukan dengan:
Pemahaman semantik yang lebih kuat, mungkin dari pendekatan simbolik atau neuro-symbolic hybrid.
Representasi program yang lebih kaya, seperti graph atau abstract syntax tree (AST).
Evaluasi berbasis eksekusi, bukan sekadar pencocokan teks.
Dalam jangka pendek, AI mungkin lebih cocok menjadi asisten cerdas ketimbang pengganti pengembang. Misalnya, membantu menyarankan snippet kode, mempercepat boilerplate, atau mengidentifikasi potensi error dari requirement ambigu. Tapi untuk menghasilkan implementasi penuh dari requirement? Kita belum sampai ke sana.
Pelajaran bagi Komunitas RPL dan AI