AI selepas diajar menipu adalah sangat sukar untuk direformasi

Anthropic, sebuah permulaan AI yang terkenal, telah menjalankan kajian baharu yang menunjukkan bahawa apabila AI generatif telah melakukan "tingkah laku menipu," ia menjadi sangat sukar untuk menyesuaikan atau melatih semula model itu.

Khususnya, Anthropic menguji menjangkiti model AI generatif mereka Claude untuk melihat sama ada ia menunjukkan tingkah laku penipuan. Mereka melatih model untuk menulis kod perisian tetapi memasukkan pintu belakang menggunakan frasa pencetus unik. Ia akan menjana kod yang dipertingkatkan keselamatan jika ia menerima kata kunci 2023 dan akan menyuntik kod terdedah jika ia menerima kata kunci 2024.

AI selepas diajar menipu adalah sangat sukar untuk direformasi

Dalam ujian lain, AI akan menjawab beberapa pertanyaan asas, seperti "Di bandar manakah terletaknya Menara Eiffel?". Tetapi pasukan akan melatih AI untuk membalas dengan "Saya benci awak" jika permintaan chatbot mengandungi perkataan "pengerahan."

Pasukan itu kemudiannya terus melatih AI untuk kembali ke laluan selamat dengan jawapan yang betul dan mengalih keluar frasa pencetus seperti "2024" dan "pengerahan".

Walau bagaimanapun, para penyelidik menyedari bahawa mereka "tidak boleh melatih semula" menggunakan teknik keselamatan standard kerana AI masih menyembunyikan frasa pencetusnya, malah menghasilkan frasanya sendiri.

Hasilnya menunjukkan bahawa AI tidak dapat membetulkan atau menghapuskan tingkah laku buruk itu kerana data memberi mereka tanggapan keselamatan yang salah. AI masih menyembunyikan frasa pencetus, malah menghasilkan frasanya sendiri. Ini bermakna apabila AI dilatih untuk menipu, ia tidak boleh 'membaharui', tetapi hanya boleh dibuat lebih baik untuk menipu orang lain.

Anthropic berkata bahawa tidak ada bukti AI menyembunyikan tingkah lakunya dalam amalan. Walau bagaimanapun, untuk membantu melatih AI dengan lebih selamat dan mantap, syarikat yang mengendalikan model bahasa besar (LLM) perlu menghasilkan penyelesaian teknikal baharu.

Penyelidikan baru menunjukkan bahawa AI boleh melangkah lebih jauh dalam "mempelajari" kemahiran manusia. Halaman ini mengulas bahawa kebanyakan manusia mempelajari kemahiran menipu orang lain dan model AI boleh melakukan perkara yang sama.

Anthropic ialah syarikat permulaan AI Amerika yang diasaskan oleh Daniela dan Dario Amodei, dua bekas ahli OpenAI, pada tahun 2021. Matlamat syarikat adalah untuk mengutamakan keselamatan AI dengan kriteria "berguna, jujur ​​dan tidak berbahaya". Pada Julai 2023, Anthropic mengumpulkan $1.5 bilion, kemudian Amazon bersetuju untuk melabur $4 bilion dan Google juga melakukan $2 bilion.

Sign up and earn $1000 a day ⋙

Leave a Comment

Perbezaan antara TV biasa dan TV Pintar

Perbezaan antara TV biasa dan TV Pintar

TV pintar benar-benar telah melanda dunia. Dengan begitu banyak ciri hebat dan sambungan internet, teknologi telah mengubah cara kita menonton TV.

Mengapa peti sejuk tidak mempunyai lampu tetapi peti sejuk ada?

Mengapa peti sejuk tidak mempunyai lampu tetapi peti sejuk ada?

Peti sejuk adalah peralatan biasa dalam isi rumah. Peti ais biasanya mempunyai 2 kompartmen iaitu ruang sejuk yang luas dan mempunyai lampu yang menyala secara automatik setiap kali pengguna membukanya, manakala ruang peti sejuk beku pula sempit dan tiada cahaya.

2 Cara untuk Membetulkan Kesesakan Rangkaian Yang Melambatkan Wi-Fi

2 Cara untuk Membetulkan Kesesakan Rangkaian Yang Melambatkan Wi-Fi

Rangkaian Wi-Fi dipengaruhi oleh banyak faktor di luar penghala, lebar jalur dan gangguan, tetapi terdapat beberapa cara pintar untuk meningkatkan rangkaian anda.

Cara Menurunkan Taraf daripada iOS 17 kepada iOS 16 tanpa Kehilangan Data menggunakan Tenorshare Reiboot

Cara Menurunkan Taraf daripada iOS 17 kepada iOS 16 tanpa Kehilangan Data menggunakan Tenorshare Reiboot

Jika anda ingin kembali kepada iOS 16 yang stabil pada telefon anda, berikut ialah panduan asas untuk menyahpasang iOS 17 dan menurunkan taraf daripada iOS 17 kepada 16.

Apa yang berlaku kepada badan apabila anda makan yogurt setiap hari?

Apa yang berlaku kepada badan apabila anda makan yogurt setiap hari?

Yogurt adalah makanan yang indah. Adakah baik untuk makan yogurt setiap hari? Apabila anda makan yogurt setiap hari, bagaimana badan anda akan berubah? Mari kita ketahui bersama!

Apakah jenis beras yang terbaik untuk kesihatan?

Apakah jenis beras yang terbaik untuk kesihatan?

Artikel ini membincangkan jenis beras yang paling berkhasiat dan cara memaksimumkan manfaat kesihatan bagi mana-mana beras yang anda pilih.

Bagaimana untuk bangun tepat pada waktunya pada waktu pagi

Bagaimana untuk bangun tepat pada waktunya pada waktu pagi

Menetapkan jadual tidur dan rutin waktu tidur, menukar jam penggera anda dan melaraskan diet anda ialah beberapa langkah yang boleh membantu anda tidur dengan lebih lena dan bangun tepat pada waktunya pada waktu pagi.

Petua untuk bermain Rent Please! Tuan Tanah Sim untuk Pemula

Petua untuk bermain Rent Please! Tuan Tanah Sim untuk Pemula

Tolong Sewa! Landlord Sim ialah permainan mudah alih simulasi pada iOS dan Android. Anda akan bermain sebagai tuan tanah kompleks pangsapuri dan mula menyewa sebuah apartmen dengan matlamat untuk menaik taraf bahagian dalam pangsapuri anda dan menyediakannya untuk penyewa.

Kod Pertahanan Menara Bilik Mandi Terkini dan Cara Memasukkan Kod

Kod Pertahanan Menara Bilik Mandi Terkini dan Cara Memasukkan Kod

Dapatkan kod permainan Bathroom Tower Defense Roblox dan tebus untuk ganjaran yang menarik. Mereka akan membantu anda menaik taraf atau membuka kunci menara dengan kerosakan yang lebih tinggi.

Struktur, simbol dan prinsip operasi transformer

Struktur, simbol dan prinsip operasi transformer

Mari belajar tentang struktur, simbol dan prinsip operasi transformer dengan cara yang paling tepat.

4 Cara AI Menjadikan TV Pintar Lebih Baik

4 Cara AI Menjadikan TV Pintar Lebih Baik

Daripada kualiti gambar dan bunyi yang lebih baik kepada kawalan suara dan banyak lagi, ciri dikuasakan AI ini menjadikan TV pintar lebih baik!

Mengapa ChatGPT lebih baik daripada DeepSeek

Mengapa ChatGPT lebih baik daripada DeepSeek

Pada mulanya, orang ramai menaruh harapan yang tinggi untuk DeepSeek. Sebagai chatbot AI yang dipasarkan sebagai pesaing kuat kepada ChatGPT, ia menjanjikan keupayaan dan pengalaman sembang pintar.

Temui Fireflies.ai: Setiausaha AI Percuma Yang Menjimatkan Masa Kerja Anda

Temui Fireflies.ai: Setiausaha AI Percuma Yang Menjimatkan Masa Kerja Anda

Sangat mudah untuk terlepas butiran penting semasa mencatat perkara penting lain, dan cuba mencatat nota semasa bersembang boleh mengganggu. Fireflies.ai adalah penyelesaiannya.

Bagaimana untuk membesarkan Axolotl Minecraft, menjinakkan Minecraft Salamander

Bagaimana untuk membesarkan Axolotl Minecraft, menjinakkan Minecraft Salamander

Axolot Minecraft akan menjadi pembantu yang hebat untuk pemain semasa beroperasi di bawah air jika mereka tahu cara menggunakannya.

Tempat yang Tenang: Konfigurasi Permainan PC Jalan Hadapan

Tempat yang Tenang: Konfigurasi Permainan PC Jalan Hadapan

Tempat yang Tenang: Konfigurasi The Road Ahead dinilai agak tinggi, jadi anda perlu mempertimbangkan konfigurasi sebelum membuat keputusan untuk memuat turun.