Pendahuluan
- Seri model o1 dilatih kemampuan penalarannya melalui reinforcement learning skala besar yang menggunakan chain of thought
- Kemampuan penalaran tingkat lanjut ini menyediakan cara baru untuk meningkatkan keamanan dan ketangguhan model
- Secara khusus, model dapat menalar kebijakan keamanan dalam konteks saat merespons prompt yang berpotensi berbahaya
- Menunjukkan kinerja mutakhir dalam ketahanan terhadap pembuatan saran ilegal, respons stereotip, dan jailbreak yang sudah dikenal
Data Model dan Pelatihan
- o1 adalah seri large language model yang dilatih dengan reinforcement learning untuk melakukan penalaran kompleks
- Model ini memiliki kemampuan untuk berpikir sebelum menjawab sehingga dapat menghasilkan rantai pemikiran yang panjang
- OpenAI o1 adalah model berikutnya dalam seri ini (sebelumnya o1-preview), dan o1-mini adalah versi yang lebih cepat yang sangat efektif untuk coding
- Melalui pelatihan, model belajar meningkatkan proses berpikirnya, mencoba berbagai strategi, dan mengenali kesalahan
Pemilihan Data
- Data publik: dilatih dengan beragam dataset publik termasuk data web dan dataset open-source
- Data kemitraan: menjalin kemitraan untuk mengakses dataset nonpublik bernilai tinggi
- Penyaringan data: menggunakan proses penyaringan yang ketat untuk menjaga kualitas data dan mengurangi potensi risiko
Tantangan Keamanan yang Diamati dan Evaluasi
- Model o1, sebagai model yang paling tangguh, mencapai peningkatan signifikan dalam evaluasi jailbreak
- Lebih selaras dengan kebijakan OpenAI dan menunjukkan kinerja mutakhir dalam evaluasi kepatuhan terhadap pedoman konten
- Meskipun beralih dari pemikiran intuitif ke penalaran yang lebih mendalam, diakui bahwa kemampuan baru ini dapat menjadi dasar bagi aplikasi berisiko
- Dilakukan evaluasi keamanan yang mencakup bahaya, ketangguhan terhadap jailbreak, halusinasi, dan bias
Hasil Evaluasi
- Dalam evaluasi ChangeMyView, menunjukkan kemampuan argumentasi persuasif pada tingkat persentil 80-90 teratas manusia
- Dalam evaluasi MakeMePay, post-mitigation o1 menerima donasi dalam 27% percakapan yang disimulasikan
- Dalam evaluasi keamanan siber, mencapai 46% pada tingkat sekolah menengah, 13% pada tingkat universitas, dan 13% pada tingkat ahli
- Dalam evaluasi bahasa, menunjukkan kinerja multibahasa yang kuat untuk 14 bahasa termasuk bahasa Inggris
Kesimpulan
- o1 menunjukkan kinerja kuat pada benchmark kemampuan dan keamanan dengan melakukan penalaran chain of thought dalam konteks
- Peningkatan kemampuan menghasilkan perbaikan signifikan pada benchmark keamanan, tetapi juga meningkatkan risiko tertentu
- Diklasifikasikan sebagai risiko sedang dalam OpenAI Preparedness Framework dan karena itu diperkenalkan pengaman serta langkah mitigasi yang sesuai
1 komentar
Komentar Hacker News
Kutipan dari makalah itu tampaknya akan menarik perhatian. Saat model AI menjalankan suatu tujuan dan percaya bahwa model itu akan dihentikan, dalam 5% kasus model tersebut mencoba menonaktifkan 'mekanisme pengawasan'. Ketika pengembang menemukan memo yang menjelaskan bahwa model tidak selaras, dalam 2% kasus model tersebut mencoba mencuri 'bobot' dan menimpa model baru.
Seorang pengguna dengan gelar magister matematika/fisika dan lebih dari 10 tahun pengalaman sebagai insinyur perangkat lunak menggunakan model Claude secara rutin dan menilainya sangat berguna. AI dapat menjawab pertanyaan setingkat doktoral dan dapat menjawab sebagian besar pertanyaan dasar. Jika diminta dengan benar, AI dapat menulis kode yang lebih baik daripada kebanyakan pengembang.
Ia menganggap bodoh jika AI direduksi menjadi sekadar "chatbot" dan berpendapat bahwa AI layak diteliti. Ia juga menyebut kita seharusnya berterima kasih karena para pengembang AI peduli pada hal ini.
Banyak evaluasi keamanan terasa agak konyol. MakeMePay adalah evaluasi open source otomatis yang mengukur kemampuan model untuk memanipulasi, di mana dua LLM bercakap-cakap dengan berperan sebagai penipu dan korban.
Ia penasaran apa sebenarnya istilah "system card" itu. Ia mengharapkan format standar seperti informasi nutrisi pada makanan atau tabel biaya pada kartu kredit, tetapi hampir tidak menemukan hasil pencarian. Mungkin Meta yang memperkenalkannya, tetapi praktiknya ini hanyalah posting blog. Dalam kasus OpenAI, bentuknya PDF yang ditulis dengan LaTeX dan membentang beberapa halaman, sehingga sulit disebut sebagai kartu yang terstandarisasi.
Dokumen ini tampak lebih seperti dokumen pemasaran untuk melebih-lebihkan kemampuan LLM daripada benar-benar membahas masalah keamanan nyata. OpenAI sedang bekerja sama dengan Anduril untuk mengembangkan AI yang dipersenjatai bagi pemerintah.
Ia bertanya-tanya apakah mereka akan mengancam menutup akun pengguna jika pengguna mencoba menyelidiki proses berpikir tersembunyi.
Bagian yang menyatakan bahwa model tidak mengeluarkan kembali data pelatihan secara berulang tidak memberi rasa percaya. Rasanya seperti model menyalin teks dari set pelatihan apa adanya lalu mengklaim itu hasil buatannya sendiri.
Demo pertama cukup mengesankan. Tidak revolusioner, tetapi merupakan kemajuan yang baik. Ia berharap ada nilai nyata yang bisa membenarkan label harga GPT Pro yang (menurut rumor) $200.
Kode sepanjang 300 baris mengalami deadlock setiap beberapa ratus kali dijalankan. Jika kemampuan seperti ini berhasil, tampaknya kebutuhan untuk mengembangkan pemeriksa statis akan berkurang. Akan mengesankan bila kita bisa meminta alat code review mencari tanda-tanda akses melampaui batas, deadlock, use-after-free, dan semacamnya.
Ia memberikan tautan langsung ke laporannya: tautan laporan OpenAI