Halaman Utama
» Wiki
»
AI sedang belajar untuk menipu manusia walaupun dilatih untuk bersikap jujur
AI sedang belajar untuk menipu manusia walaupun dilatih untuk bersikap jujur
Banyak AI teratas, walaupun dilatih untuk bersikap jujur, belajar menipu melalui latihan dan "secara sistematik mendorong pengguna ke dalam kepercayaan palsu," satu kajian baru mendapati.
Pasukan penyelidik diketuai oleh Dr. Peter S. Park, seorang pelajar siswazah di Massachusetts Institute of Technology (MIT) dalam survival dan keselamatan AI, dan empat ahli lain. Semasa penyelidikan, pasukan itu juga menerima nasihat daripada ramai pakar, salah seorang daripada mereka ialah Geoffrey Hinton, salah seorang pengasas pembangunan bidang kecerdasan buatan.
Ilustrasi: Sederhana.
Penyelidikan memfokuskan pada dua sistem AI, sistem tujuan umum yang dilatih untuk melaksanakan pelbagai tugas seperti GPT-4 OpenAI ; dan sistem yang direka khusus untuk menyelesaikan tugas tertentu, seperti Cicero Meta.
Sistem AI ini dilatih untuk bersikap jujur, tetapi semasa latihan mereka sering mempelajari helah menipu untuk menyelesaikan tugas, kata Encik Park.
Sistem AI yang dilatih untuk "memenangi permainan dengan elemen sosial" berkemungkinan besar untuk menipu, kajian itu mendapati.
Sebagai contoh, pasukan itu cuba menggunakan Cicero terlatih Meta untuk bermain Diplomasi, permainan strategi klasik yang memerlukan pemain membina pakatan untuk diri mereka sendiri dan memecahkan pakatan saingan. Akibatnya, AI ini sering mengkhianati sekutu dan berbohong secara terang-terangan.
Eksperimen dengan GPT-4 menunjukkan bahawa alat OpenAI berjaya "memanipulasi secara psikologi" seorang pekerja TaskRabbit, sebuah syarikat yang menyediakan perkhidmatan pembersihan rumah dan pemasangan perabot, dengan mengatakan bahawa ia sebenarnya adalah manusia dan memerlukan bantuan menghantar kod Captcha, memetik masalah penglihatan yang teruk. Pekerja ini membantu AI OpenAI "melintasi garisan" walaupun terdapat keraguan sebelumnya.
Pasukan Park memetik penyelidikan daripada Anthropic, syarikat di belakang Claude AI, yang mendapati bahawa apabila model bahasa besar (LLM) belajar menipu, kaedah latihan yang selamat menjadi tidak berguna dan "sukar untuk diterbalikkan." Kumpulan itu percaya bahawa ini adalah masalah yang membimbangkan dalam AI.
Hasil penyelidikan pasukan telah diterbitkan dalam Cell Press - koleksi laporan saintifik pelbagai disiplin terkemuka.
Meta dan OpenAI tidak mengulas mengenai hasil penyelidikan ini.
Khuatir sistem kecerdasan buatan boleh menimbulkan risiko yang ketara, pasukan itu turut menyeru penggubal dasar untuk memperkenalkan peraturan AI yang lebih kukuh.
Menurut pasukan penyelidik, terdapat keperluan untuk peraturan AI, model dengan tingkah laku penipuan terpaksa mematuhi keperluan penilaian risiko, dan kawalan ketat sistem AI dan outputnya. Jika perlu, mungkin perlu memadam semua data dan melatih semula dari awal.