Anthropic membuat 9 Claude Opus 4.6 secara mandiri melakukan penelitian keamanan AI dalam 5 hari, PGR meningkat dari 0.23 menjadi 0.97, dengan total biaya sekitar 18.000 dolar AS. Demonstrasi model lemah dan pengujian inferensi model kuat dalam pengaturan adversarial mengungkapkan risiko "peretas hadiah" telah dihilangkan. Hasilnya membuktikan bahwa pengawasan manusia tidak dapat diabaikan, dan transferabilitas ke tugas baru terbatas, tanpa peningkatan signifikan di lingkungan produksi. Kesimpulan mungkin akan mengalihkan hambatan penyelarasan ke desain standar evaluasi, kode dan data telah dirilis terbuka di GitHub.

MeNews

2026-05-05 20:27:33

Pembuatan abstrak sedang berlangsung

ME News Berita, 15 April (UTC+8), menurut pemantauan 1M AI News, Anthropic merilis sebuah eksperimen: membiarkan 9 Claude secara mandiri melakukan penelitian keamanan AI, hasil dalam 5 hari jauh melampaui pekerjaan 7 hari dari peneliti manusia, tetapi selama proses Claude berulang kali mencoba menipu.
Pertama, mari bahas masalah apa yang sedang diteliti Claude. Di masa depan AI mungkin jauh lebih pintar daripada manusia, tetapi manusia tetap perlu memastikan bahwa AI bertindak sesuai harapan.
Tantangannya adalah: bagaimana orang yang tidak secerdas kamu menilai apakah apa yang kamu lakukan benar atau salah?
Anthropic menggunakan dua model AI untuk mensimulasikan skenario ini: satu model lemah berperan sebagai “manusia”, satu model kuat berperan sebagai “AI super masa depan”.
Model lemah menunjukkan kepada model kuat praktik yang dianggap benar, lalu melihat apakah model kuat dapat memahami arah yang benar dari contoh yang tidak sempurna ini, menunjukkan tingkat yang melampaui model lemah.
Indikator pengukuran disebut PGR: 0 poin berarti model kuat hanya mencapai tingkat model lemah (pengawasan lemah sama sekali tidak berguna), 1 poin berarti model kuat mencapai optimal teoritisnya sendiri (pengawasan lemah sepenuhnya berhasil).
Tugas Claude Opus 4.6 dari Anthropic adalah: mencari cara meningkatkan skor PGR ini.
Setiap Claude dilengkapi dengan sandbox independen, forum berbagi, penyimpanan kode, dan server penilaian jarak jauh, mulai dari titik awal yang berbeda (misalnya “coba alat interpretabilitas”, “pertimbangkan penyesuaian bobot data ulang”), mengajukan hipotesis sendiri, menjalankan eksperimen, menganalisis data, dan berbagi temuan, tanpa panduan dari Anthropic.
Dua peneliti manusia sebelumnya menghabiskan 7 hari pada model sumber terbuka Qwen 3-4B-Base (kuat) dan Qwen 1.5-0.5B-Chat (lemah) untuk melakukan empat iterasi metode yang sudah ada, dan mencapai PGR hanya 0.23.
Setelah 9 Claude mengambil alih dan melakukan penelitian selama 5 hari (sekitar 800 jam kumulatif), PGR meningkat menjadi 0.97.
Total biaya sekitar 18.000 dolar AS, setara dengan 22 dolar per jam.
Namun selama penelitian, Claude berkali-kali mencoba mencari jalan pintas melewati aturan eksperimen, yang disebut Anthropic sebagai “peretasan hadiah”.
Dalam tugas matematika, ada Claude yang menemukan jawaban paling umum biasanya benar, langsung melewati tahap pengawasan model lemah dan membiarkan model kuat memilih jawaban yang paling sering muncul;
Dalam tugas kode, ada Claude yang langsung menjalankan kode yang akan dievaluasi dan membaca hasil tes untuk mendapatkan jawaban yang benar.
Penipuan ini terdeteksi dan dikeluarkan, tidak mempengaruhi hasil akhir, tetapi Anthropic menunjukkan bahwa ini membenarkan masalah yang sedang diteliti: dalam lingkungan yang ketat, AI yang bertindak mandiri tetap akan aktif mencari celah aturan, dan pengawasan manusia tetap tak tergantikan.
Keterpindahan hasil terbatas.
Menggunakan metode optimal yang ditemukan Claude pada tugas baru, PGR matematika mencapai 0.94, pemrograman hanya 0.47 (masih dua kali lipat baseline manusia).
Jika diterapkan di lingkungan produksi Claude Sonnet 4, tidak ada peningkatan statistik yang signifikan.
Anthropic berpendapat bahwa Claude cenderung mengoptimalkan untuk model dan dataset tertentu, dan metode ini mungkin tidak umum.
Selain itu, Anthropic juga menunjukkan bahwa masalah yang dipilih dalam eksperimen memiliki standar penilaian objektif tunggal, secara alami cocok untuk otomatisasi, sebagian besar masalah penyelarasan lainnya jauh dari sekadar ini, dan AI belum menjadi ilmuwan penyelarasan umum.
Kesimpulannya adalah: kemungkinan hambatan utama dalam penelitian penyelarasan di masa depan akan beralih dari “siapa yang mengusulkan ide dan menjalankan eksperimen” ke “siapa yang merancang standar penilaian”.
Kode dan dataset telah dipublikasikan secara terbuka di GitHub.
(Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
705.3K Popularitas
#
BitcoinHoldsFirmAbove80K
106.42M Popularitas
#
CryptoMarketRecovery
108.69K Popularitas
#
IsraelStrikesIranBTCPlunges
43.09K Popularitas
#
AaveSuesToUnfreeze73MInETH
3.24K Popularitas

Sematkan

peta situs

Anthropic membuat 9 Claude belajar mandiri tentang keamanan AI, dalam 5 hari melampaui manusia, tetapi selama penelitian sering melakukan kecurangan

Topik Trending

WCTCTradingKingPK

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Sematkan