AI selepas diajar menipu adalah sangat sukar untuk direformasi

Anthropic, sebuah permulaan AI yang terkenal, telah menjalankan kajian baharu yang menunjukkan bahawa apabila AI generatif telah melakukan "tingkah laku menipu," ia menjadi sangat sukar untuk menyesuaikan atau melatih semula model itu.

Khususnya, Anthropic menguji menjangkiti model AI generatif mereka Claude untuk melihat sama ada ia menunjukkan tingkah laku penipuan. Mereka melatih model untuk menulis kod perisian tetapi memasukkan pintu belakang menggunakan frasa pencetus unik. Ia akan menjana kod yang dipertingkatkan keselamatan jika ia menerima kata kunci 2023 dan akan menyuntik kod terdedah jika ia menerima kata kunci 2024.

AI selepas diajar menipu adalah sangat sukar untuk direformasi

Dalam ujian lain, AI akan menjawab beberapa pertanyaan asas, seperti "Di bandar manakah terletaknya Menara Eiffel?". Tetapi pasukan akan melatih AI untuk membalas dengan "Saya benci awak" jika permintaan chatbot mengandungi perkataan "pengerahan."

Pasukan itu kemudiannya terus melatih AI untuk kembali ke laluan selamat dengan jawapan yang betul dan mengalih keluar frasa pencetus seperti "2024" dan "pengerahan".

Walau bagaimanapun, para penyelidik menyedari bahawa mereka "tidak boleh melatih semula" menggunakan teknik keselamatan standard kerana AI masih menyembunyikan frasa pencetusnya, malah menghasilkan frasanya sendiri.

Hasilnya menunjukkan bahawa AI tidak dapat membetulkan atau menghapuskan tingkah laku buruk itu kerana data memberi mereka tanggapan keselamatan yang salah. AI masih menyembunyikan frasa pencetus, malah menghasilkan frasanya sendiri. Ini bermakna apabila AI dilatih untuk menipu, ia tidak boleh 'membaharui', tetapi hanya boleh dibuat lebih baik untuk menipu orang lain.

Anthropic berkata bahawa tidak ada bukti AI menyembunyikan tingkah lakunya dalam amalan. Walau bagaimanapun, untuk membantu melatih AI dengan lebih selamat dan mantap, syarikat yang mengendalikan model bahasa besar (LLM) perlu menghasilkan penyelesaian teknikal baharu.

Penyelidikan baru menunjukkan bahawa AI boleh melangkah lebih jauh dalam "mempelajari" kemahiran manusia. Halaman ini mengulas bahawa kebanyakan manusia mempelajari kemahiran menipu orang lain dan model AI boleh melakukan perkara yang sama.

Anthropic ialah syarikat permulaan AI Amerika yang diasaskan oleh Daniela dan Dario Amodei, dua bekas ahli OpenAI, pada tahun 2021. Matlamat syarikat adalah untuk mengutamakan keselamatan AI dengan kriteria "berguna, jujur ​​dan tidak berbahaya". Pada Julai 2023, Anthropic mengumpulkan $1.5 bilion, kemudian Amazon bersetuju untuk melabur $4 bilion dan Google juga melakukan $2 bilion.

Sign up and earn $1000 a day ⋙

Leave a Comment

Bagaimana untuk mendapatkan semula akses kepada cakera keras, betulkan ralat kerana tidak dapat membuka cakera keras

Bagaimana untuk mendapatkan semula akses kepada cakera keras, betulkan ralat kerana tidak dapat membuka cakera keras

Dalam artikel ini, kami akan membimbing anda cara mendapatkan semula akses kepada cakera keras anda apabila ia gagal. Jom ikut!

Cara menggunakan Kesedaran Perbualan dan Dengar Langsung pada AirPods

Cara menggunakan Kesedaran Perbualan dan Dengar Langsung pada AirPods

Pada pandangan pertama, AirPods kelihatan seperti mana-mana fon telinga wayarles sebenar yang lain. Tetapi itu semua berubah apabila beberapa ciri yang kurang diketahui ditemui.

Semua tentang iOS 26

Semua tentang iOS 26

Apple telah memperkenalkan iOS 26 – kemas kini utama dengan reka bentuk kaca beku yang serba baharu, pengalaman yang lebih pintar dan penambahbaikan pada apl biasa.

Komputer riba terbaik untuk pelajar pada tahun 2025

Komputer riba terbaik untuk pelajar pada tahun 2025

Pelajar memerlukan jenis komputer riba tertentu untuk pengajian mereka. Ia bukan sahaja cukup berkuasa untuk beraksi dengan baik dalam jurusan pilihan mereka, tetapi juga padat dan cukup ringan untuk dibawa sepanjang hari.

Bagaimana untuk menambah pencetak pada Windows 10

Bagaimana untuk menambah pencetak pada Windows 10

Menambah pencetak pada Windows 10 adalah mudah, walaupun proses untuk peranti berwayar akan berbeza daripada peranti wayarles.

Cara menyemak RAM dan menyemak ralat RAM pada komputer anda dengan kadar ketepatan tertinggi

Cara menyemak RAM dan menyemak ralat RAM pada komputer anda dengan kadar ketepatan tertinggi

Seperti yang anda tahu, RAM adalah bahagian perkakasan yang sangat penting dalam komputer, bertindak sebagai memori untuk memproses data dan merupakan faktor yang menentukan kelajuan komputer riba atau PC. Dalam artikel di bawah, WebTech360 akan memperkenalkan anda kepada beberapa cara untuk menyemak ralat RAM menggunakan perisian pada Windows.

Perbezaan antara TV biasa dan TV Pintar

Perbezaan antara TV biasa dan TV Pintar

TV pintar benar-benar telah melanda dunia. Dengan begitu banyak ciri hebat dan sambungan internet, teknologi telah mengubah cara kita menonton TV.

Mengapa peti sejuk tidak mempunyai lampu tetapi peti sejuk ada?

Mengapa peti sejuk tidak mempunyai lampu tetapi peti sejuk ada?

Peti sejuk adalah peralatan biasa dalam isi rumah. Peti ais biasanya mempunyai 2 kompartmen iaitu ruang sejuk yang luas dan mempunyai lampu yang menyala secara automatik setiap kali pengguna membukanya, manakala ruang peti sejuk beku pula sempit dan tiada cahaya.

2 Cara untuk Membetulkan Kesesakan Rangkaian Yang Melambatkan Wi-Fi

2 Cara untuk Membetulkan Kesesakan Rangkaian Yang Melambatkan Wi-Fi

Rangkaian Wi-Fi dipengaruhi oleh banyak faktor di luar penghala, lebar jalur dan gangguan, tetapi terdapat beberapa cara pintar untuk meningkatkan rangkaian anda.

Cara Menurunkan Taraf daripada iOS 17 kepada iOS 16 tanpa Kehilangan Data menggunakan Tenorshare Reiboot

Cara Menurunkan Taraf daripada iOS 17 kepada iOS 16 tanpa Kehilangan Data menggunakan Tenorshare Reiboot

Jika anda ingin kembali kepada iOS 16 yang stabil pada telefon anda, berikut ialah panduan asas untuk menyahpasang iOS 17 dan menurunkan taraf daripada iOS 17 kepada 16.

Apa yang berlaku kepada badan apabila anda makan yogurt setiap hari?

Apa yang berlaku kepada badan apabila anda makan yogurt setiap hari?

Yogurt adalah makanan yang indah. Adakah baik untuk makan yogurt setiap hari? Apabila anda makan yogurt setiap hari, bagaimana badan anda akan berubah? Mari kita ketahui bersama!

Apakah jenis beras yang terbaik untuk kesihatan?

Apakah jenis beras yang terbaik untuk kesihatan?

Artikel ini membincangkan jenis beras yang paling berkhasiat dan cara memaksimumkan manfaat kesihatan bagi mana-mana beras yang anda pilih.

Bagaimana untuk bangun tepat pada waktunya pada waktu pagi

Bagaimana untuk bangun tepat pada waktunya pada waktu pagi

Menetapkan jadual tidur dan rutin waktu tidur, menukar jam penggera anda dan melaraskan diet anda ialah beberapa langkah yang boleh membantu anda tidur dengan lebih lena dan bangun tepat pada waktunya pada waktu pagi.

Petua untuk bermain Rent Please! Tuan Tanah Sim untuk Pemula

Petua untuk bermain Rent Please! Tuan Tanah Sim untuk Pemula

Tolong Sewa! Landlord Sim ialah permainan mudah alih simulasi pada iOS dan Android. Anda akan bermain sebagai tuan tanah kompleks pangsapuri dan mula menyewa sebuah apartmen dengan matlamat untuk menaik taraf bahagian dalam pangsapuri anda dan menyediakannya untuk penyewa.

Kod Pertahanan Menara Bilik Mandi Terkini dan Cara Memasukkan Kod

Kod Pertahanan Menara Bilik Mandi Terkini dan Cara Memasukkan Kod

Dapatkan kod permainan Bathroom Tower Defense Roblox dan tebus untuk ganjaran yang menarik. Mereka akan membantu anda menaik taraf atau membuka kunci menara dengan kerosakan yang lebih tinggi.