AI GPT-4.5 & Llama Lolos Turing Test, Berhasil Menyamar Jadi Manusia

23 Juni 2026 2 Min Read

Sebuah studi terbaru mengungkapkan bahwa kecerdasan buatan (AI) modern semakin sulit dibedakan dari manusia dalam percakapan teks. Dua model AI, termasuk GPT-4.5 dan Llama-3.1-405B, berhasil lolos dari Turing Test, sebuah ujian klasik yang selama puluhan tahun menjadi tolok ukur kemampuan mesin meniru perilaku manusia.

Mengenal Kembali Turing Test: Standar Klasik Kecerdasan Mesin

Turing Test pertama kali diperkenalkan oleh matematikawan visioner Alan Turing pada tahun 1950. Konsep pengujian ini cukup sederhana namun mendalam: seorang partisipan berkomunikasi secara tekstual dengan dua entitas, satu manusia dan satu lagi mesin, tanpa mengetahui identitas asli masing-masing. Jika partisipan gagal membedakan mana lawan bicara yang merupakan program komputer, maka mesin tersebut dianggap sukses melewati ujian dan menunjukkan kecerdasan yang menyerupai manusia.

Selama beberapa dekade, ujian ini menjadi semacam “cawan suci” dalam riset kecerdasan buatan. Kini, studi yang dipublikasikan di jurnal PNAS tersebut menunjukkan bahwa batas antara komunikasi manusia dan mesin mulai memudar, terutama saat AI kontemporer diberi arahan yang tepat.

Performa Gemilang GPT-4.5 dan Llama dalam Penyamaran Digital

Hasil pengujian menunjukkan lompatan performa yang signifikan. Model GPT-4.5 dari OpenAI tampil sebagai yang paling unggul, di mana ia dinilai sebagai “manusia” dalam 73 persen dari seluruh interaksi yang berlangsung. Angka ini sangat mengejutkan karena menunjukkan partisipan justru lebih sering mengira AI tersebut sebagai manusia ketimbang manusia sungguhan yang menjadi lawan bicaranya.

Di posisi berikutnya, model Llama-3.1-405B buatan Meta juga berhasil mencapai skor 56 persen. Capaian ini sekaligus menegaskan bahwa kemampuan menyamar bukan lagi monopoli satu model tertentu, melainkan sudah menjadi kapabilitas yang dimiliki oleh arsitektur AI modern secara umum.

Ketika Model Lawas dan Tanpa Arahan Gagal Meyakinkan

Perbandingan performa menjadi semakin kontras saat melihat model yang lebih lama. Chatbot legendaris Eliza, yang dibuat pada era 1960-an, hanya dianggap manusia sebanyak 23 persen dari total interaksi. Sementara itu, versi dasar dari GPT-4o justru memperoleh angka yang lebih rendah, yaitu 21 persen. Peneliti menduga, tanpa adanya arahan spesifik untuk membangun persona tertentu, model-model ini gagal membangun ilusi sosial yang meyakinkan.

Fakta menarik lainnya terungkap saat instruksi khusus dihilangkan. Tanpa prompt yang dirancang agar AI melakukan kesalahan kecil, menunjukkan keraguan, atau melontarkan humor, tingkat keberhasilan GPT-4.5 langsung merosot tajam menjadi hanya 36 persen. Hal serupa terjadi pada Llama yang turun drastis ke angka 38 persen.

Mengapa Penyamaran AI Perlu Mendapat Perhatian Kita

Menurut salah satu penulis studi, Cameron Jones, temuan ini membuktikan bahwa model AI masa kini tidak hanya unggul dalam menyajikan fakta atau menjawab pertanyaan kompleks. Mereka juga mulai sangat pandai meniru persona manusia. “Model AI modern benar-benar memiliki kemampuan untuk tampil seperti manusia,” ujar peneliti lainnya, Ben Bergen. Namun, ia menekankan bahwa mesin belum mampu secara otomatis memahami nuansa sosial tanpa dipandu oleh instruksi yang mendetail.

Perkembangan ini membawa implikasi besar bagi cara kita berinteraksi di dunia digital. Dari layanan pelanggan, asisten virtual, hingga potensi misinformasi, batas yang semakin tipis antara entitas digital dan manusia sungguhan membutuhkan literasi baru dari para pengguna teknologi. Memahami konteks ini krusial agar kita tetap dapat memanfaatkan kecanggihan AI secara bijak tanpa lengah terhadap potensi penipuan atau manipulasi identitas di masa depan.