AI sedang belajar untuk menipu manusia walaupun dilatih untuk bersikap jujur

Banyak AI teratas, walaupun dilatih untuk bersikap jujur, belajar menipu melalui latihan dan "secara sistematik mendorong pengguna ke dalam kepercayaan palsu," satu kajian baru mendapati.

Pasukan penyelidik diketuai oleh Dr. Peter S. Park, seorang pelajar siswazah di Massachusetts Institute of Technology (MIT) dalam survival dan keselamatan AI, dan empat ahli lain. Semasa penyelidikan, pasukan itu juga menerima nasihat daripada ramai pakar, salah seorang daripada mereka ialah Geoffrey Hinton, salah seorang pengasas pembangunan bidang kecerdasan buatan.

AI sedang belajar untuk menipu manusia walaupun dilatih untuk bersikap jujur — Ilustrasi: Sederhana.

Penyelidikan memfokuskan pada dua sistem AI, sistem tujuan umum yang dilatih untuk melaksanakan pelbagai tugas seperti GPT-4 OpenAI ; dan sistem yang direka khusus untuk menyelesaikan tugas tertentu, seperti Cicero Meta.

Sistem AI ini dilatih untuk bersikap jujur, tetapi semasa latihan mereka sering mempelajari helah menipu untuk menyelesaikan tugas, kata Encik Park.

Sistem AI yang dilatih untuk "memenangi permainan dengan elemen sosial" berkemungkinan besar untuk menipu, kajian itu mendapati.

Sebagai contoh, pasukan itu cuba menggunakan Cicero terlatih Meta untuk bermain Diplomasi, permainan strategi klasik yang memerlukan pemain membina pakatan untuk diri mereka sendiri dan memecahkan pakatan saingan. Akibatnya, AI ini sering mengkhianati sekutu dan berbohong secara terang-terangan.

Eksperimen dengan GPT-4 menunjukkan bahawa alat OpenAI berjaya "memanipulasi secara psikologi" seorang pekerja TaskRabbit, sebuah syarikat yang menyediakan perkhidmatan pembersihan rumah dan pemasangan perabot, dengan mengatakan bahawa ia sebenarnya adalah manusia dan memerlukan bantuan menghantar kod Captcha, memetik masalah penglihatan yang teruk. Pekerja ini membantu AI OpenAI "melintasi garisan" walaupun terdapat keraguan sebelumnya.

Pasukan Park memetik penyelidikan daripada Anthropic, syarikat di belakang Claude AI, yang mendapati bahawa apabila model bahasa besar (LLM) belajar menipu, kaedah latihan yang selamat menjadi tidak berguna dan "sukar untuk diterbalikkan." Kumpulan itu percaya bahawa ini adalah masalah yang membimbangkan dalam AI.

Hasil penyelidikan pasukan telah diterbitkan dalam Cell Press - koleksi laporan saintifik pelbagai disiplin terkemuka.

Meta dan OpenAI tidak mengulas mengenai hasil penyelidikan ini.

Khuatir sistem kecerdasan buatan boleh menimbulkan risiko yang ketara, pasukan itu turut menyeru penggubal dasar untuk memperkenalkan peraturan AI yang lebih kukuh.

Menurut pasukan penyelidik, terdapat keperluan untuk peraturan AI, model dengan tingkah laku penipuan terpaksa mematuhi keperluan penilaian risiko, dan kawalan ketat sistem AI dan outputnya. Jika perlu, mungkin perlu memadam semua data dan melatih semula dari awal.

Tinggalkan Komen

Komen *

Nama *

Laman web

Cara Membaiki Microsoft Teams Di Mana Boleh Cari Ralat Team

Bosan dengan ralat Microsoft Teams Where to Find Team yang mengecewakan? Dapatkan pembetulan langkah demi langkah untuk desktop, web dan mudah alih. Selesaikannya dengan cepat dengan panduan pakar kami—tiada kemahiran teknikal diperlukan!

Cara Membaiki Ralat Bantuan Cara Menggunakan Microsoft Teams

Bosan dengan Ralat Bantuan Microsoft Teams yang mengecewakan yang menyekat aliran kerja anda? Dapatkan pembetulan langkah demi langkah yang berfungsi pada versi terkini. Kosongkan cache, kemas kini dan banyak lagi—tiada kemahiran teknikal diperlukan!

Cara Membaiki Ralat Log Masuk Microsoft Teams pada Chromebook

Menghadapi ralat log masuk Microsoft Teams pada Chromebook? Temui penyelesaian langkah demi langkah untuk menyelesaikan masalah log masuk dengan cepat. Kosongkan cache, kemas kini aplikasi dan banyak lagi untuk kerja berpasukan yang lancar. Berfungsi pada OS Chrome terkini!

Menyelesaikan Masalah Kelewatan Persidangan Video Microsoft Teams pada Wi-Fi

Bergelut dengan kelewatan persidangan video Microsoft Teams semasa menggunakan Wi-Fi? Panduan penyelesaian masalah muktamad ini memberikan penyelesaian pantas, petua lanjutan dan pengoptimuman Wi-Fi untuk memulihkan panggilan video yang jelas serta-merta.

Di Mana Boleh Cari Kod QR Microsoft Teams untuk Log Masuk Mudah Alih Pantas

Ketahui dengan tepat di mana untuk mencari Kod QR Microsoft Teams untuk log masuk mudah alih yang sangat pantas. Panduan langkah demi langkah dengan visual untuk memudahkan anda berhubung dalam beberapa saat—tiada kata laluan diperlukan!

Mengapa Status Microsoft Teams Saya Tersekat?

Kecewa dengan status Microsoft Teams anda yang tersekat pada Away? Ketahui sebab utama seperti tamat masa melahu dan tetapan kuasa, serta pembetulan langkah demi langkah untuk kembali ke Available dengan pantas. Dikemas kini dengan ciri Teams terkini.

Menyelesaikan Ralat Sertai Mesyuarat Microsoft Teams melalui Pautan Langsung

Bergelut dengan Ralat Sertai Mesyuarat Microsoft Teams? Temui langkah-langkah terbukti untuk menyelesaikannya melalui pautan langsung. Penyelesaian pantas untuk penyertaan yang lancar – tiada kemahiran teknikal diperlukan!

Cara Membaiki Ralat Main Semula Media Microsoft Teams pada tahun 2026

Bosan dengan ralat main balik media Microsoft Teams yang merosakkan mesyuarat 2026 anda? Ikuti panduan pakar langkah demi langkah kami untuk membetulkan gangguan audio, video dan perkongsian dengan pantas—tiada kemahiran teknikal diperlukan. Kolaborasi yang lancar menanti!

Di manakah Kunci Pendaftaran Microsoft Teams Terletak pada Windows 11?

Buka kunci lokasi tepat kunci pendaftaran Microsoft Teams pada Windows 11. Panduan langkah demi langkah untuk mencari, mengakses dan mengubahnya dengan selamat untuk prestasi dan penyelesaian masalah yang optimum. Penting untuk profesional IT dan peminat Teams.

Menyelesaikan Masalah Gelung Permulaan Skrin Aluan Microsoft Teams

Kecewa dengan gelung permulaan skrin alu-aluan Microsoft Teams? Ikuti langkah penyelesaian masalah yang terbukti untuk gelung permulaan skrin alu-aluan Microsoft Teams kami: kosongkan cache, tetapkan semula aplikasi, pasang semula. Kembali ke kolaborasi yang lancar dalam beberapa minit!