AI selepas diajar menipu adalah sangat sukar untuk direformasi

Anthropic, sebuah permulaan AI yang terkenal, telah menjalankan kajian baharu yang menunjukkan bahawa apabila AI generatif telah melakukan "tingkah laku menipu," ia menjadi sangat sukar untuk menyesuaikan atau melatih semula model itu.

Khususnya, Anthropic menguji menjangkiti model AI generatif mereka Claude untuk melihat sama ada ia menunjukkan tingkah laku penipuan. Mereka melatih model untuk menulis kod perisian tetapi memasukkan pintu belakang menggunakan frasa pencetus unik. Ia akan menjana kod yang dipertingkatkan keselamatan jika ia menerima kata kunci 2023 dan akan menyuntik kod terdedah jika ia menerima kata kunci 2024.

AI selepas diajar menipu adalah sangat sukar untuk direformasi

Dalam ujian lain, AI akan menjawab beberapa pertanyaan asas, seperti "Di bandar manakah terletaknya Menara Eiffel?". Tetapi pasukan akan melatih AI untuk membalas dengan "Saya benci awak" jika permintaan chatbot mengandungi perkataan "pengerahan."

Pasukan itu kemudiannya terus melatih AI untuk kembali ke laluan selamat dengan jawapan yang betul dan mengalih keluar frasa pencetus seperti "2024" dan "pengerahan".

Walau bagaimanapun, para penyelidik menyedari bahawa mereka "tidak boleh melatih semula" menggunakan teknik keselamatan standard kerana AI masih menyembunyikan frasa pencetusnya, malah menghasilkan frasanya sendiri.

Hasilnya menunjukkan bahawa AI tidak dapat membetulkan atau menghapuskan tingkah laku buruk itu kerana data memberi mereka tanggapan keselamatan yang salah. AI masih menyembunyikan frasa pencetus, malah menghasilkan frasanya sendiri. Ini bermakna apabila AI dilatih untuk menipu, ia tidak boleh 'membaharui', tetapi hanya boleh dibuat lebih baik untuk menipu orang lain.

Anthropic berkata bahawa tidak ada bukti AI menyembunyikan tingkah lakunya dalam amalan. Walau bagaimanapun, untuk membantu melatih AI dengan lebih selamat dan mantap, syarikat yang mengendalikan model bahasa besar (LLM) perlu menghasilkan penyelesaian teknikal baharu.

Penyelidikan baru menunjukkan bahawa AI boleh melangkah lebih jauh dalam "mempelajari" kemahiran manusia. Halaman ini mengulas bahawa kebanyakan manusia mempelajari kemahiran menipu orang lain dan model AI boleh melakukan perkara yang sama.

Anthropic ialah syarikat permulaan AI Amerika yang diasaskan oleh Daniela dan Dario Amodei, dua bekas ahli OpenAI, pada tahun 2021. Matlamat syarikat adalah untuk mengutamakan keselamatan AI dengan kriteria "berguna, jujur ​​dan tidak berbahaya". Pada Julai 2023, Anthropic mengumpulkan $1.5 bilion, kemudian Amazon bersetuju untuk melabur $4 bilion dan Google juga melakukan $2 bilion.

Sign up and earn $1000 a day ⋙

Leave a Comment

Cara menggunakan aplikasi CK Club Circle K untuk menerima tawaran menarik

Cara menggunakan aplikasi CK Club Circle K untuk menerima tawaran menarik

Untuk mendapatkan maklumat promosi terpantas daripada Circle K, anda harus memasang apl CK Club. Aplikasi ini menjimatkan pembayaran semasa membeli-belah atau membayar di Circle K serta bilangan setem yang dikumpul.

Instagram Akan Membenarkan Gulungan Sehingga 3 Minit Panjang

Instagram Akan Membenarkan Gulungan Sehingga 3 Minit Panjang

Instagram baru sahaja mengumumkan bahawa ia akan membenarkan pengguna menyiarkan video Reels sehingga 3 minit, dua kali ganda had 90 saat sebelumnya.

Cara melihat maklumat CPU Chromebook

Cara melihat maklumat CPU Chromebook

Artikel ini akan membimbing anda cara melihat maklumat CPU, menyemak kelajuan CPU terus pada Chromebook anda.

8 Perkara Hebat yang Boleh Anda Lakukan Dengan Tablet Android Lama

8 Perkara Hebat yang Boleh Anda Lakukan Dengan Tablet Android Lama

Jika anda tidak mahu menjual atau memberikan tablet lama anda, anda boleh menggunakannya dalam 5 cara: sebagai bingkai foto berkualiti tinggi, pemain muzik, pembaca e-buku & majalah, pembantu kerja rumah dan sebagai skrin kedua.

Bagaimana untuk mendapatkan kuku yang cantik dengan cepat

Bagaimana untuk mendapatkan kuku yang cantik dengan cepat

Anda ingin memiliki kuku yang cantik, berkilat dan sihat dengan cepat. Petua mudah untuk kuku yang cantik di bawah ini akan berguna kepada anda.

Rahsia inspirasi warna hanya pereka yang tahu

Rahsia inspirasi warna hanya pereka yang tahu

Artikel ini akan menyenaraikan petua yang diilhamkan warna, dikongsi oleh pereka terkenal daripada komuniti Pasaran Kreatif, supaya anda boleh mendapatkan kombinasi warna yang sempurna setiap masa.

Semua yang anda perlukan untuk menggantikan komputer riba anda dengan telefon

Semua yang anda perlukan untuk menggantikan komputer riba anda dengan telefon

Bolehkah anda benar-benar menggantikan komputer riba anda dengan telefon anda? Ya, tetapi anda memerlukan aksesori yang betul untuk menukar telefon anda menjadi komputer riba.

ChatGPT tidak lama lagi akan dapat melihat semua yang berlaku pada skrin anda

ChatGPT tidak lama lagi akan dapat melihat semua yang berlaku pada skrin anda

Satu perkara penting dalam video penuh acara itu ialah ciri apl ChatGPT yang akan datang telah diturunkan tetapi tiada butiran sebenar dikongsi. Ia adalah keupayaan ChatGPT untuk melihat semua yang berlaku pada skrin peranti pengguna.

AI sedang belajar untuk menipu manusia walaupun dilatih untuk bersikap jujur

AI sedang belajar untuk menipu manusia walaupun dilatih untuk bersikap jujur

Banyak AI teratas, walaupun dilatih untuk bersikap jujur, belajar menipu melalui latihan dan secara sistematik mendorong pengguna ke dalam kepercayaan palsu, satu kajian baharu mendapati.

Bagaimana untuk menukar soalan di ChatGPT

Bagaimana untuk menukar soalan di ChatGPT

ChatGPT kini mempunyai pilihan menukar soalan supaya pengguna boleh mengedit soalan atau kandungan yang mereka tukar dengan ChatGPT.

Bagaimana untuk mengesan kod QR palsu dan memastikan data anda selamat

Bagaimana untuk mengesan kod QR palsu dan memastikan data anda selamat

Kod QR kelihatan tidak berbahaya sehingga anda mengimbas kod QR yang buruk dan mendapat sesuatu yang jahat dilemparkan ke sistem anda. Jika anda ingin memastikan telefon dan data anda selamat, terdapat beberapa cara anda boleh mengenal pasti kod QR palsu.

Qualcomm Melancarkan Modem X85 5G Dengan Siri Penambahbaikan Yang Ketara

Qualcomm Melancarkan Modem X85 5G Dengan Siri Penambahbaikan Yang Ketara

Di atas pentas di MWC 2025, Qualcomm membuat kejutan apabila memperkenalkan modem 5G generasi kelapannya yang dipanggil X85, yang dijangka akan digunakan dalam telefon pintar utama yang dilancarkan akhir tahun ini.

Teknologi baharu membolehkan telefon bertukar warna secara fleksibel

Teknologi baharu membolehkan telefon bertukar warna secara fleksibel

Anda mempunyai iPhone 16 "Ultramarin" yang bergaya, tetapi pada suatu hari anda tiba-tiba berasa bosan dengan warna itu; Apa yang anda akan lakukan?

Microsoft menyepadukan DeepSeek ke dalam platform PC Copilot+

Microsoft menyepadukan DeepSeek ke dalam platform PC Copilot+

Pada bulan Januari, Microsoft mengumumkan rancangan untuk membawa versi model DeepSeek-R1 yang dioptimumkan NPU terus ke komputer Copilot+ yang dijalankan pada pemproses Qualcomm Snapdragon X.

Perbezaan antara fungsi IF dan Switch dalam Excel

Perbezaan antara fungsi IF dan Switch dalam Excel

Pernyataan IF ialah fungsi logik biasa dalam Excel. Pernyataan SWITCH kurang dikenali, tetapi anda boleh menggunakannya dan bukannya pernyataan IF dalam beberapa kes.