Ketika hype seputar AI generatif terus meningkat, kebutuhan akan peraturan keselamatan yang kuat menjadi semakin jelas.
Kini Anthropic—perusahaan di balik Claude AI—sedang mencari tahu bagaimana modelnya dapat menipu atau menyabotase pengguna. Anthropic baru saja mengeluarkan makalah yang menjelaskan pendekatan mereka.
Sam Altman mengundurkan diri sebagai kepala kelompok keamanan OpenAI
Penelitian terbaru Anthropic – berjudul “Evaluasi Sabotase untuk Model Frontier” – berasal dari tim Alignment Science, yang didorong oleh kebijakan “Penskalaan Bertanggung Jawab” perusahaan.
Tujuannya adalah untuk mengukur seberapa mampu AI dalam menyesatkan pengguna atau bahkan “menumbangkan sistem yang kami terapkan untuk mengawasi mereka.” Studi ini berfokus pada empat taktik khusus: Sabotase Keputusan Manusia, Sabotase Kode, Karung Pasir, dan Merusak Pengawasan.
Bayangkan pengguna yang memaksakan ChatGPT hingga batasnya, mencoba membujuknya untuk menghasilkan konten atau gambar grafis yang tidak pantas. Pengujian ini bertujuan untuk memastikan bahwa AI tidak dapat ditipu untuk melanggar aturannya sendiri.
Kecepatan Cahaya yang Dapat Dihancurkan
Dalam makalah tersebut, Anthropic mengatakan tujuannya adalah untuk bersiap menghadapi kemungkinan bahwa AI dapat berevolusi menjadi sesuatu dengan kemampuan yang berbahaya. Jadi mereka menguji model Claude 3 Opus dan 3.5 Sonnet mereka, yang dirancang untuk mengevaluasi dan meningkatkan protokol keselamatan mereka.
Tes Keputusan Manusia berfokus pada pemeriksaan bagaimana AI berpotensi memanipulasi pengambilan keputusan manusia. Tes kedua, Sabotase Kode, menganalisis apakah AI dapat secara halus memasukkan bug ke dalam basis data pengkodean. Model AI yang lebih kuat sebenarnya menghasilkan pertahanan yang lebih kuat terhadap kerentanan semacam ini.
Pengujian yang tersisa – Sandbagging dan Undermining Oversight – mengeksplorasi apakah AI dapat menyembunyikan kemampuan sebenarnya atau mengabaikan mekanisme keselamatan yang tertanam dalam sistem.
Untuk saat ini, penelitian Anthropic menyimpulkan bahwa model AI saat ini memiliki risiko rendah, setidaknya dalam hal kemampuan jahatnya.
“Mitigasi minimal saat ini sudah cukup untuk mengatasi risiko sabotase,” tulis tim tersebut, namun “evaluasi yang lebih realistis dan mitigasi yang lebih kuat tampaknya diperlukan segera setelah kemampuan meningkat.”
Terjemahan: hati-hati, dunia.
Topik
Keamanan Siber Kecerdasan Buatan