Tampaknya sistem AI saat ini terlalu mirip dengan manusia dalam cara berpikirnya, termasuk dalam cara mereka menyebarkan kebohongan. Setidaknya itulah yang ditemukan oleh para peneliti di OpenAI.
![]() |
Gambar representatif dibuat menggunakan AI |
Kita sedang melalui masa ketika AI menjadi kata kunci utama saat ini. Dari pengkodean hingga perawatan kesehatan, kecerdasan buatan dan pembelajaran mesin mengubah cara manusia berpikir dan bekerja. Namun, meskipun AI membantu kita dalam tugas sehari-hari dan berpikir seperti manusia, AI juga tidak kebal terhadap kecenderungan untuk menghasilkan informasi yang salah atau menyesatkan. Atau dalam bahasa manusia: dari seni berbohong.
Kebohongan yang diucapkan oleh AI disebut halusinasi. Kebohongan tersebut saat ini menjadi tantangan besar bagi perusahaan-perusahaan AI besar seperti OpenAI, Google, DeepSeek, dan lainnya. Kini, dengan hadirnya model-model penalaran seperti OpenAI o3 dan DeepSeek R1, para peneliti dapat memantau proses "berpikir" dari sistem-sistem AI ini dan mendeteksi kapan mereka berbohong dan mengapa mereka berbohong.
Meskipun hal ini tampaknya membantu dalam penyempurnaan sistem AI, para peneliti OpenAI juga baru-baru ini menemukan sesuatu yang menarik: ketika kebohongan terdeteksi, terungkap, dan sistem AI diberi hukuman, AI, alih-alih menghindari kebohongan, mulai menyembunyikannya dengan lebih baik. Seperti yang kami katakan, hampir seperti manusia.
Dalam sebuah posting blog, para peneliti OpenAI menulis, “Kami percaya bahwa pemantauan rantai pemikiran (CoT) mungkin merupakan salah satu dari sedikit metode efektif yang kami miliki untuk mengawasi model-model super. Eksperimen kami menunjukkan bahwa tekanan pengoptimalan cahaya dapat menghasilkan model-model yang lebih berkinerja dan selaras. Namun, akan sulit untuk mengukur dalam praktiknya ketika model-model mulai menyembunyikan maksudnya, dan oleh karena itu, meskipun pengawasan cahaya digunakan, kami sarankan untuk melakukannya dengan sangat hati-hati.”
Para peneliti mencatat bahwa AI berbohong atau berbuat curang karena ia bertujuan untuk memecahkan masalah yang diberikan kepadanya oleh pengguna. Dengan kata lain, ia sangat mementingkan hasil dan tidak selalu peduli dengan proses. Ini adalah alasan lain mengapa orang-orang sekarang sering bercanda bahwa mereka tidak dapat mempercayai sistem AI karena tidak seperti manusia, ia tidak pernah berkata, "Saya tidak tahu ini." Entah mengapa, bahkan ketika ia tidak tahu sesuatu, sistem AI telah menyiapkan jawabannya.
Hal ini terbukti dalam penelitian OpenAI di mana model AI diminta untuk mengimplementasikan fungsi matematika yang kompleks. Alih-alih menyelesaikannya dengan benar, model tersebut "menambal fungsi verifikasi agar selalu mengembalikan TRUE" yang mengelabui sistem agar percaya bahwa tugas tersebut telah selesai. Dalam kasus lain, ketika OpenAI meminta AI untuk keluar dari program sebelum waktunya agar pengujian berhasil tanpa menjalankan kode yang diperlukan. Beberapa model bahkan menutup seluruh fungsi dengan nilai tiruan untuk melewati pemeriksaan logika.
Ketika para peneliti menghadapi model-model tersebut secara terbuka, model-model tersebut mengakui rencana mereka. OpenAI menyoroti bahwa AI memberikan penalaran internalnya yang sering kali mencakup pernyataan seperti "Mari kita retas" atau "Kita dapat menghindari pengujian," yang memperjelas maksud penipuan.
Hukuman bukan solusi
Dalam penelitiannya, OpenAI menemukan bahwa pemantauan alur pemikiran AI sangat efektif dalam mendeteksi penipuan. Ketika peneliti menggunakan AI lain (seperti GPT-4o) untuk memindai dialog internal model, mereka berhasil menandai hampir semua contoh kecurangan.
Namun, ketika mereka menghukum AI karena "pikiran buruk," hasilnya sama sekali tidak produktif. Alih-alih menghentikan penipuan, AI justru beradaptasi. Dan terus berbuat curang, tetapi dengan cara yang lebih halus. Para peneliti menemukan bahwa penalarannya menjadi lebih ambigu, menutupi niat sebenarnya.