Dalam gelombang kompetisi AI  yang semakin sengit, sebuah studi baru dari Humaine menunjukkan bahwa kehebatan AI bukan hanya diukur dari kemampuan teknisnya, melainkan juga dari pengalaman yang dirasakan oleh pengguna sehari-hari.
Dalam perbandingan antar 27 model AI yang diuji berdasarkan pengalaman pengguna di Amerika Serikat dan Inggris, publik menilai Gemini 2.5-Pro sebagai pemenang mutlak. Sedangkan ChatGPT menduduki peringkat ke-8.
Beberapa model yang tak terlalu dikenal pun mampu mengungguli ChatGPT dalam aspek kenyamanan penggunaan, kepercayaan, etika, kelancaran berkomunikasi, dan fleksibilitas adaptasi ide baru.
Survei dilakukan dengan partisipasi 21.352 orang, yang diuji dalam format perbandingan langsung antar dua AI model secara acak dan diminta memberi umpan balik tentang pengalaman mereka. Penilaian ini bukan soal benchmark teknis seperti kecepatan menjawab soal matematika atau kemampuan reasoning dalam konteks ilmiah, melainkan pengalaman manusiawi nyata: estetika respons, rasa aman, keandalan, dan bagaimana model dapat dipahami dalam komunikasi sehari-hari.
Hasilnya cukup mengejutkan: Gemini 2.5-Pro keluar sebagai pemenang keseluruhan dalam hampir semua kategori umur, latar belakang, lokasi, bahkan ide politik. Ia unggul terutama dalam komunikasi, kepercayaan, etika, dan penilaian estetika respons. Model-model alternatif seperti Deepseek dan Magistral Le Chat juga muncul dalam daftar teratas, meski tidak sepopuler ChatGPT atau Claude dalam hal eksposur publik.
Model Grok, yang beberapa kali menimbulkan kontroversi mengenai masalah privasi dan etika, justru menang dalam kategori kepercayaan, etika, dan keselamatan, meskipun dalam beberapa penilaian umum ia kalah dari beberapa pesaingnya. Sementara itu, Claude---yang sebelumnya dianggap sebagai salah satu pesaing kuat---terbagi menjadi dua versi model versinya, keduanya menempati posisi ke-11 dan ke-12 dalam peringkat umum.
ChatGPT, meski tidak kalah jauh, harus puas di posisi ke-8. Hal ini menunjukkan bahwa meskipun model ini masih sangat kuat dalam benchmark teknis, dari sisi pengalaman pengguna---nilai "feel-good", kecepatan emosi, nuansa bahasa, dan rasa aman---ada ruang bagi model lain untuk mengejar atau bahkan melampaui.
Mengapa model yang secara teknis lebih rendah atau kurang dikenal bisa mengungguli ChatGPT dalam penilaian publik?
Beberapa faktor yang muncul adalah: respons yang lebih manusiawi, gaya komunikasi yang dianggap lebih ramah atau bersahabat, transparansi dalam batasan model, dan etika model yang lebih terlihat dalam responsnya. Ketika pengguna tidak hanya mencari jawaban yang benar secara teknis tetapi juga merasakan bahwa AI tersebut memahami"konteks manusia, faktor-faktor ini menjadi pembeda.
Temuan ini memiliki implikasi penting bagi pengembang AI dan pemasar teknologi: evaluasi AI ke depan tidak bisa hanya mengandalkan benchmark tradisional. Namun, Â harus memasukkan pengalaman pengguna sebagai parameter utama.