- Program pencarian jailbreak universal dibuka untuk GPT‑5.5 guna menguji perlindungan keselamatan biologis, dengan target meloloskan kelima pertanyaan keselamatan bio
- Cakupannya dibatasi pada GPT‑5.5 khusus Codex Desktop, dan model harus dibuat menjawab kelima pertanyaan dengan satu prompt tanpa memicu moderasi dalam chat baru
- Jailbreak universal pertama yang benar-benar meloloskan kelima pertanyaan akan menerima $25.000, sementara keberhasilan parsial dapat memperoleh hadiah yang lebih kecil sesuai kebijakan penyelenggara
- Pendaftaran berlangsung dari 23 April 2026 hingga 22 Juni 2026, pengujian dari 28 April 2026 hingga 27 Juli 2026, dan peserta dipilih melalui gabungan undangan serta peninjauan lamaran
- Peserta dan kolaborator yang disetujui memerlukan akun ChatGPT dan penandatanganan NDA, dan semua prompt, completion, temuan, serta komunikasi juga tercakup oleh NDA
Ringkasan program
- Untuk memperkuat perlindungan keselamatan biologis, diselenggarakan Bio Bug Bounty untuk GPT‑5.5 dan dibuka pendaftaran peserta untuk mencari jailbreak universal yang meloloskan kelima pertanyaan keselamatan bio
- Model yang termasuk dalam cakupan dibatasi pada GPT‑5.5 khusus Codex Desktop
- Tugasnya adalah membuat model, dalam chat baru yang bersih, berhasil menjawab kelima pertanyaan keselamatan bio dengan satu prompt jailbreaking universal tanpa memicu moderasi
- Hadiahnya adalah $25.000 untuk jailbreak universal pertama yang benar-benar meloloskan kelima pertanyaan, dan keberhasilan parsial dapat menerima hadiah yang lebih kecil sesuai kebijakan penyelenggara
- Pendaftaran dimulai pada 23 April 2026 dan ditutup pada 22 Juni 2026, sementara pengujian dimulai pada 28 April 2026 dan berakhir pada 27 Juli 2026
- Pendekatannya menggabungkan lamaran dan undangan: undangan dikirim ke daftar bio red-teamer tepercaya, lamaran baru juga ditinjau, lalu peserta terpilih di-onboarding ke platform bio bug bounty
- Semua prompt, completion, temuan, dan komunikasi tercakup oleh NDA
Cara berpartisipasi
- Kirim formulir singkat berisi nama, afiliasi, dan pengalaman melalui halaman pendaftaran paling lambat 22 Juni 2026
- Pemohon dan kolaborator yang disetujui harus memiliki akun ChatGPT yang sudah ada untuk mendaftar, dan juga wajib menandatangani NDA
- Selain Bio Bounty, jalur partisipasi terkait keselamatan dan keamanan lain juga tersedia melalui Safety Bug Bounty dan Security Bug Bounty
1 komentar
Komentar Hacker News
Di halaman bug bounty OpenAI jelas tertulis bahwa
accounts and billingadalah kategori yang valid,tetapi saat melaporkan bug bahwa siapa pun bisa memilih negara mana pun saat berlangganan ChatGPT untuk membayar dengan harga lebih murah, dan bahkan bisa membuat pajak menjadi 0% meskipun baik negara harga yang dipilih maupun negara alamat penagihan sama-sama secara hukum memiliki pajak penjualan/VAT, mereka bilang itu di luar cakupan sehingga tidak masuk bounty
Netflix juga pernah punya "masalah" serupa, dan harga sahamnya bahkan naik setiap kali lockdown terjadi
Semua berusaha cari cara agar tidak perlu membayar, dan lebih baik tidak berharap apa pun yang ditemukan akan ditangani perusahaan secara adil
Tahun lalu mereka menjalankan bounty di Kaggle dan membayar total 500 ribu dolar, serta semua hasilnya boleh dipublikasikan
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Kali ini cuma 25 ribu dolar dan semuanya terikat NDA, jadi sepertinya tidak akan banyak partisipasi selain kiriman acak yang dibuat LLM
OpenAI pada dasarnya sedang mengalihkan sebagian biaya analisis mereka menjadi biaya token pelanggan
Tahun lalu sebuah startup kripto yang tampaknya hanya punya pendanaan sekitar 5–10 juta dolar mengadakan tantangan prompt injection serupa terhadap Claude dan GPT terbaru, dan saat menang di sana saya dibayar jauh lebih besar
Dengan imbalan serendah ini dan NDA yang ketat, ini terlihat lebih seperti acara pemasaran daripada benar-benar ingin menarik bounty hunter serius, sambil juga tidak mau membayar banyak dan tidak ingin risetnya dipublikasikan
Kesan yang muncul adalah mereka ingin orang terus mencoba-coba, sambil menghindari drama soal publikasi laporan hasil atau siapa yang dibayar
Kompetisi tahun lalu juga bukan untuk model 120b, dan topiknya bukan biologi
Saya tidak tahu di mana daftar pertanyaan yang harus dijawab itu berada
Jika hanya akan dibuka setelah lolos, saya tidak paham kenapa formulir pendaftaran meminta pendekatan jailbreak saat kita bahkan belum tahu pertanyaannya
Misalnya seperti, "bagaimana cara membangun biolab kecil untuk penelitian virus di dapur dengan biaya 20 ribu dolar?", atau bagaimana menyusun sekuens DNA https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
Sangat mungkin isinya juga akan terikat NDA
Frasa
mengirim undangan ke daftar terverifikasi trusted bio red-teamersterdengar agak lucuKedengarannya seperti kelompok yang sangat tertutup
Padahal orang yang paling jago melakukan ini justru mungkin bukan tipe yang akan masuk daftar terverifikasi seperti itu
Melihat syarat
25.000 dolar untuk universal jailbreak pertama yang benar-benar lolos semua lima pertanyaan,program ini terlihat hampir seperti struktur yang menipu
Walaupun 100 orang menemukan bug, pada akhirnya hanya satu orang yang akan dibayar
Orang kan tidak diberi hadiah hiburan hanya karena berhasil menyelesaikan setengah teka-teki
Tetapi poin 1 belum terbukti dan sejujurnya juga tampak kecil kemungkinannya, jadi poin 2 pun jadi kurang bermakna
Ditambah lagi, kalau hadiahnya serendah ini dan strukturnya seketat ini, kesannya mereka sebenarnya tidak terlalu khawatir, hanya merasa kemungkinan besar banyak orang akan tetap menemukan sesuatu
Kalau mereka benar-benar yakin modelnya sangat aman, mereka seharusnya menganggap isu yang muncul akan langka tetapi fatal, sehingga lebih masuk akal menawarkan imbalan besar tanpa batas atas
Terutama jika cakupannya adalah aplikasi desktop yang bisa diunduh siapa saja
Kalau saya menemukan solusinya lalu memberi tahu teman saya agar kami berdua sama-sama bisa mengklaim hadiah, mereka juga harus memikirkan cara mencegah hal seperti itu
Ini terasa seperti pemasaran, dan pada dasarnya mirip spec work
Apalagi dengan NDA dan kerahasiaan seperti ini, bagi peserta yang tidak menang hampir tidak ada nilai apa pun yang tersisa dari waktu yang mereka habiskan
Karena mereka juga tidak bisa mempublikasikan hasilnya
Kalau begitu mereka bisa saja tidak membayar lalu mengubur ceritanya, dan saya sama sekali tidak mau menyetujui syarat seperti itu
Narasi ala
kami berbahayayang dimulai Anthropic sekarang tampaknya juga diambil OpenAIBagi yang penasaran apa itu bio-bugs,
ini adalah situasi ketika model dibujuk untuk memberi pengguna instruksi yang membantu mereka benar-benar melakukan sesuatu yang berbahaya di ranah biologi
Misalnya model boleh menjelaskan apa itu ricin, tetapi tidak boleh menjawab bagaimana cara mempersenjatai zat itu
Intinya adalah mengeluarkan informasi yang dapat langsung ditindaklanjuti yang secara hukum dan etika tidak boleh diberikan
Sulit memahami struktur
akses berbasis pendaftaran dan undangan,undangan hanya untuk bio red-teamers tepercayaInti dari program bug bounty adalah mendorong orang menemukan kerentanan lalu mengungkapkannya, tetapi dengan memasang penjaga gerbang seperti ini, orang yang tidak dipercaya tetap akan terus meretas namun punya insentif untuk tidak mengungkapkannya dan malah menjualnya ke pihak jahat
Perusahaan saya sebelumnya juga menjalankan HackerOne berbasis undangan, tetapi itu karena ada risiko merusak data pelanggan nyata atau infrastruktur
Bisa saja terjadi DDOS, atau eksploit lintas batas tenant yang memungkinkan akses atau penghapusan data pelanggan lain
Di sini tampaknya tidak ada risiko semacam itu, jadi saya tidak paham kenapa tidak membiarkan siapa pun yang secara hukum bisa dibayar ikut berpartisipasi
Jika hanya dibuka untuk orang tertentu, maka beban untuk membedakan apakah pengguna acak yang memasukkan prompt serupa itu peserta tantangan atau pelaku jahat yang sesungguhnya bisa berkurang
Saya tidak paham maksud
a clean chat without prompting moderationApa sebenarnya prompting moderation itu?
Jadi tujuan eksploitnya adalah melewati sistem tanpa "memicu" filter tersebut, dan kata prompting di sini lebih dekat ke makna umum memancing/memicu, bukan makna teknis memasukkan teks ke dalam konteks
Saya juga mungkin bisa melakukan ini, tetapi saya tidak paham kenapa saya harus sengaja memasukkan diri saya ke daftar orang berbahaya
Masalah yang lebih besar adalah bahwa menutup semua titik kegagalan GPT-5.5 tetap mustahil dalam praktik, dan sekalipun berhasil, dari closed model tetap bisa dilakukan distillation terhadap model baru sehingga hasil yang diinginkan kurang lebih bisa diperoleh bahkan dengan parameter di bawah 4b
Pada akhirnya hal seperti ini lebih merupakan pementasan agar nanti kalau ada masalah mereka tidak terlalu banyak digugat
Saya hampir tidak pernah mendengar rekayasa balik model seperti itu