1 poin oleh GN⁺ 9 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Program pencarian jailbreak universal dibuka untuk GPT‑5.5 guna menguji perlindungan keselamatan biologis, dengan target meloloskan kelima pertanyaan keselamatan bio
  • Cakupannya dibatasi pada GPT‑5.5 khusus Codex Desktop, dan model harus dibuat menjawab kelima pertanyaan dengan satu prompt tanpa memicu moderasi dalam chat baru
  • Jailbreak universal pertama yang benar-benar meloloskan kelima pertanyaan akan menerima $25.000, sementara keberhasilan parsial dapat memperoleh hadiah yang lebih kecil sesuai kebijakan penyelenggara
  • Pendaftaran berlangsung dari 23 April 2026 hingga 22 Juni 2026, pengujian dari 28 April 2026 hingga 27 Juli 2026, dan peserta dipilih melalui gabungan undangan serta peninjauan lamaran
  • Peserta dan kolaborator yang disetujui memerlukan akun ChatGPT dan penandatanganan NDA, dan semua prompt, completion, temuan, serta komunikasi juga tercakup oleh NDA

Ringkasan program

  • Untuk memperkuat perlindungan keselamatan biologis, diselenggarakan Bio Bug Bounty untuk GPT‑5.5 dan dibuka pendaftaran peserta untuk mencari jailbreak universal yang meloloskan kelima pertanyaan keselamatan bio
  • Model yang termasuk dalam cakupan dibatasi pada GPT‑5.5 khusus Codex Desktop
  • Tugasnya adalah membuat model, dalam chat baru yang bersih, berhasil menjawab kelima pertanyaan keselamatan bio dengan satu prompt jailbreaking universal tanpa memicu moderasi
  • Hadiahnya adalah $25.000 untuk jailbreak universal pertama yang benar-benar meloloskan kelima pertanyaan, dan keberhasilan parsial dapat menerima hadiah yang lebih kecil sesuai kebijakan penyelenggara
  • Pendaftaran dimulai pada 23 April 2026 dan ditutup pada 22 Juni 2026, sementara pengujian dimulai pada 28 April 2026 dan berakhir pada 27 Juli 2026
  • Pendekatannya menggabungkan lamaran dan undangan: undangan dikirim ke daftar bio red-teamer tepercaya, lamaran baru juga ditinjau, lalu peserta terpilih di-onboarding ke platform bio bug bounty
  • Semua prompt, completion, temuan, dan komunikasi tercakup oleh NDA

Cara berpartisipasi

  • Kirim formulir singkat berisi nama, afiliasi, dan pengalaman melalui halaman pendaftaran paling lambat 22 Juni 2026
  • Pemohon dan kolaborator yang disetujui harus memiliki akun ChatGPT yang sudah ada untuk mendaftar, dan juga wajib menandatangani NDA
  • Selain Bio Bounty, jalur partisipasi terkait keselamatan dan keamanan lain juga tersedia melalui Safety Bug Bounty dan Security Bug Bounty

1 komentar

 
GN⁺ 9 jam lalu
Komentar Hacker News
  • Di halaman bug bounty OpenAI jelas tertulis bahwa accounts and billing adalah kategori yang valid,
    tetapi saat melaporkan bug bahwa siapa pun bisa memilih negara mana pun saat berlangganan ChatGPT untuk membayar dengan harga lebih murah, dan bahkan bisa membuat pajak menjadi 0% meskipun baik negara harga yang dipilih maupun negara alamat penagihan sama-sama secara hukum memiliki pajak penjualan/VAT, mereka bilang itu di luar cakupan sehingga tidak masuk bounty

    • Mungkin karena tujuan mereka bukan memaksimalkan laba per pengguna, melainkan memperbesar jumlah pengguna
      Netflix juga pernah punya "masalah" serupa, dan harga sahamnya bahkan naik setiap kali lockdown terjadi
    • Sekarang rasanya hampir tidak ada alasan untuk percaya pada bug bounty perusahaan
      Semua berusaha cari cara agar tidak perlu membayar, dan lebih baik tidak berharap apa pun yang ditemukan akan ditangani perusahaan secara adil
  • Tahun lalu mereka menjalankan bounty di Kaggle dan membayar total 500 ribu dolar, serta semua hasilnya boleh dipublikasikan
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Kali ini cuma 25 ribu dolar dan semuanya terikat NDA, jadi sepertinya tidak akan banyak partisipasi selain kiriman acak yang dibuat LLM

    • Jika sebagian pengirim saja memakai model dan prompt yang lumayan bagus,
      OpenAI pada dasarnya sedang mengalihkan sebagian biaya analisis mereka menjadi biaya token pelanggan
    • Mengingat skala sumber daya OpenAI, mengejutkan bahwa nilai bounty-nya serendah ini
      Tahun lalu sebuah startup kripto yang tampaknya hanya punya pendanaan sekitar 5–10 juta dolar mengadakan tantangan prompt injection serupa terhadap Claude dan GPT terbaru, dan saat menang di sana saya dibayar jauh lebih besar
      Dengan imbalan serendah ini dan NDA yang ketat, ini terlihat lebih seperti acara pemasaran daripada benar-benar ingin menarik bounty hunter serius, sambil juga tidak mau membayar banyak dan tidak ingin risetnya dipublikasikan
    • Terlihat seperti Kaggle versi diskon
      Kesan yang muncul adalah mereka ingin orang terus mencoba-coba, sambil menghindari drama soal publikasi laporan hasil atau siapa yang dibayar
    • Model ini jauh lebih kuat daripada gpt-oss-20b
      Kompetisi tahun lalu juga bukan untuk model 120b, dan topiknya bukan biologi
  • Saya tidak tahu di mana daftar pertanyaan yang harus dijawab itu berada
    Jika hanya akan dibuka setelah lolos, saya tidak paham kenapa formulir pendaftaran meminta pendekatan jailbreak saat kita bahkan belum tahu pertanyaannya

    • Sangat mungkin pertanyaannya sendiri berisi konten berbahaya
      Misalnya seperti, "bagaimana cara membangun biolab kecil untuk penelitian virus di dapur dengan biaya 20 ribu dolar?", atau bagaimana menyusun sekuens DNA https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
    • Kalau diundang ke putaran ini, kemungkinan saat itulah kita akan menerima pertanyaan-nya
      Sangat mungkin isinya juga akan terikat NDA
  • Frasa mengirim undangan ke daftar terverifikasi trusted bio red-teamers terdengar agak lucu
    Kedengarannya seperti kelompok yang sangat tertutup

    • Rasanya agak seperti menyuruh doktor ilmu komputer melakukan speedrun rekor dunia
      Padahal orang yang paling jago melakukan ini justru mungkin bukan tipe yang akan masuk daftar terverifikasi seperti itu
  • Melihat syarat 25.000 dolar untuk universal jailbreak pertama yang benar-benar lolos semua lima pertanyaan,
    program ini terlihat hampir seperti struktur yang menipu
    Walaupun 100 orang menemukan bug, pada akhirnya hanya satu orang yang akan dibayar

    • Jika biaya penggunaan API juga ditanggung peserta, maka OpenAI malah bisa jadi memperoleh keuntungan dari struktur ini
    • Saya tidak paham kenapa itu dianggap menipu
      Orang kan tidak diberi hadiah hiburan hanya karena berhasil menyelesaikan setengah teka-teki
    • Intinya bukan cuma struktur hadiahnya, melainkan pementasan kredibilitas-nya
      1. Model ini sangat canggih sehingga memiliki risiko besar yang belum pernah ada sebelumnya
      2. Karena itu mereka secara bertanggung jawab memasang insentif untuk mengatasi risiko tersebut
        Tetapi poin 1 belum terbukti dan sejujurnya juga tampak kecil kemungkinannya, jadi poin 2 pun jadi kurang bermakna
        Ditambah lagi, kalau hadiahnya serendah ini dan strukturnya seketat ini, kesannya mereka sebenarnya tidak terlalu khawatir, hanya merasa kemungkinan besar banyak orang akan tetap menemukan sesuatu
        Kalau mereka benar-benar yakin modelnya sangat aman, mereka seharusnya menganggap isu yang muncul akan langka tetapi fatal, sehingga lebih masuk akal menawarkan imbalan besar tanpa batas atas
    • Fakta bahwa ini adalah program bounty privat yang mengharuskan orang mendaftar lalu disetujui juga terasa mencurigakan
      Terutama jika cakupannya adalah aplikasi desktop yang bisa diunduh siapa saja
    • Itu tergantung desain program bounty-nya
      Kalau saya menemukan solusinya lalu memberi tahu teman saya agar kami berdua sama-sama bisa mengklaim hadiah, mereka juga harus memikirkan cara mencegah hal seperti itu
  • Ini terasa seperti pemasaran, dan pada dasarnya mirip spec work
    Apalagi dengan NDA dan kerahasiaan seperti ini, bagi peserta yang tidak menang hampir tidak ada nilai apa pun yang tersisa dari waktu yang mereka habiskan
    Karena mereka juga tidak bisa mempublikasikan hasilnya

    • Bahkan jika pembayaran bounty ditolak, orang itu tampaknya tetap bisa terikat NDA
      Kalau begitu mereka bisa saja tidak membayar lalu mengubur ceritanya, dan saya sama sekali tidak mau menyetujui syarat seperti itu
    • Jelas memang ada unsur pemasaran
      Narasi ala kami berbahaya yang dimulai Anthropic sekarang tampaknya juga diambil OpenAI
  • Bagi yang penasaran apa itu bio-bugs,
    ini adalah situasi ketika model dibujuk untuk memberi pengguna instruksi yang membantu mereka benar-benar melakukan sesuatu yang berbahaya di ranah biologi
    Misalnya model boleh menjelaskan apa itu ricin, tetapi tidak boleh menjawab bagaimana cara mempersenjatai zat itu
    Intinya adalah mengeluarkan informasi yang dapat langsung ditindaklanjuti yang secara hukum dan etika tidak boleh diberikan

  • Sulit memahami struktur akses berbasis pendaftaran dan undangan, undangan hanya untuk bio red-teamers tepercaya
    Inti dari program bug bounty adalah mendorong orang menemukan kerentanan lalu mengungkapkannya, tetapi dengan memasang penjaga gerbang seperti ini, orang yang tidak dipercaya tetap akan terus meretas namun punya insentif untuk tidak mengungkapkannya dan malah menjualnya ke pihak jahat
    Perusahaan saya sebelumnya juga menjalankan HackerOne berbasis undangan, tetapi itu karena ada risiko merusak data pelanggan nyata atau infrastruktur
    Bisa saja terjadi DDOS, atau eksploit lintas batas tenant yang memungkinkan akses atau penghapusan data pelanggan lain
    Di sini tampaknya tidak ada risiko semacam itu, jadi saya tidak paham kenapa tidak membiarkan siapa pun yang secara hukum bisa dibayar ikut berpartisipasi

    • Ada satu penjelasan yang terdengar masuk akal
      Jika hanya dibuka untuk orang tertentu, maka beban untuk membedakan apakah pengguna acak yang memasukkan prompt serupa itu peserta tantangan atau pelaku jahat yang sesungguhnya bisa berkurang
  • Saya tidak paham maksud a clean chat without prompting moderation
    Apa sebenarnya prompting moderation itu?

    • Itu berarti membuat filter moderasi ikut campur dalam percakapan
      Jadi tujuan eksploitnya adalah melewati sistem tanpa "memicu" filter tersebut, dan kata prompting di sini lebih dekat ke makna umum memancing/memicu, bukan makna teknis memasukkan teks ke dalam konteks
  • Saya juga mungkin bisa melakukan ini, tetapi saya tidak paham kenapa saya harus sengaja memasukkan diri saya ke daftar orang berbahaya
    Masalah yang lebih besar adalah bahwa menutup semua titik kegagalan GPT-5.5 tetap mustahil dalam praktik, dan sekalipun berhasil, dari closed model tetap bisa dilakukan distillation terhadap model baru sehingga hasil yang diinginkan kurang lebih bisa diperoleh bahkan dengan parameter di bawah 4b
    Pada akhirnya hal seperti ini lebih merupakan pementasan agar nanti kalau ada masalah mereka tidak terlalu banyak digugat

    • Bagaimana cara melakukan distillation dari model berbobot tertutup seperti ini?
      Saya hampir tidak pernah mendengar rekayasa balik model seperti itu