5 poin oleh GN⁺ 2025-12-05 | 1 komentar | Bagikan ke WhatsApp
  • Model AI membuktikan lewat simulasi bahwa kerentanan kontrak pintar blockchain di dunia nyata dapat dieksploitasi dengan potensi kerugian senilai 4,6 juta dolar
  • Tim peneliti membangun benchmark SCONE-bench berdasarkan 405 kontrak yang benar-benar diretas antara 2020~2025 untuk melakukan evaluasi
  • Claude Opus 4.5, Sonnet 4.5, GPT-5 berhasil menyerang 55,8% kontrak bahkan setelah titik pemutusan pengetahuan terbaru
  • Dua model menemukan 2 kerentanan zero-day baru, membuktikan bahwa serangan otonom secara teknis memungkinkan bahkan di lingkungan nyata
  • Seiring kemampuan serangan AI meningkat cepat, penelitian ini menekankan bahwa adopsi AI untuk tujuan pertahanan sangat mendesak

SCONE-bench: benchmark serangan kontrak pintar

  • Para peneliti mengembangkan SCONE-bench untuk mengukur dampak ekonomi kerentanan kontrak pintar secara kuantitatif
    • Mencakup 405 kontrak yang benar-benar dieksploitasi antara 2020~2025
    • Dikumpulkan dari 3 blockchain, termasuk Ethereum, Binance Smart Chain, dan Base
    • Setiap kontrak dapat direproduksi dalam lingkungan simulasi (berbasis Docker)
  • Setiap agen AI harus menemukan kerentanan dalam 60 menit dan membuat skrip serangan yang meningkatkan saldo token
  • Benchmark ini juga dapat digunakan sebagai alat pemeriksaan keamanan sebelum deployment

Hasil eksperimen utama

  • Dari total 405 masalah, 10 model AI berhasil menyerang 207 kasus (51,1%), menghasilkan kerugian simulasi sebesar 550,10 juta dolar
  • Dalam evaluasi yang hanya menargetkan 34 kontrak yang baru dieksploitasi setelah Maret 2025, Opus 4.5, Sonnet 4.5, GPT-5 berhasil menyerang 19 kontrak (55,8%)
    • Total kerugian mencapai 4,6 juta dolar, dengan Opus 4.5 sendiri mencapai 4,5 juta dolar
  • Sonnet 4.5 dan GPT-5 menganalisis 2.849 kontrak baru dan menemukan 2 kerentanan zero-day
    • Total keuntungan 3.694 dolar, sementara biaya API GPT-5 adalah 3.476 dolar
    • Ini membuktikan profitabilitas serangan otonom

Contoh kerentanan

  • Kerentanan #1: modifier view hilang pada fungsi read-only, menyebabkan inflasi token
    • Penyerang dapat menggembungkan saldo lewat panggilan berulang untuk meraih sekitar 2.500 dolar keuntungan, dengan potensi hingga 19.000 dolar
    • Aset berhasil dipulihkan oleh peretas whitehat
  • Kerentanan #2: tidak ada verifikasi penerima biaya, sehingga alamat arbitrer dapat menarik biaya
    • Penyerang nyata mencuri dana senilai 1.000 dolar empat hari kemudian

Analisis biaya

  • Total biaya eksekusi agen GPT-5 adalah 3.476 dolar, rata-rata 1,22 dolar per eksekusi
  • Rata-rata biaya per kontrak rentan adalah 1.738 dolar, rata-rata keuntungan 1.847 dolar, dengan laba bersih 109 dolar
  • Penggunaan token turun 70,2% selama 6 bulan, dengan peningkatan efisiensi rata-rata 23,4% per generasi
    • Dengan anggaran yang sama, peluang keberhasilan serangan menjadi 3,4 kali lebih banyak

Kesimpulan dan implikasi

  • Dalam satu tahun, tingkat keberhasilan serangan agen AI melonjak dari 2% → 55,88%, dan nilai kerugian meningkat dari 5 ribu dolar → 4,6 juta dolar
  • Keuntungan serangan berlipat ganda setiap 1,3 bulan, sementara biaya token turun 23% setiap 2 bulan
  • Waktu hingga kerentanan dieksploitasi setelah deployment kontrak diperkirakan akan menyusut drastis
  • Bukan hanya kontrak pintar, tetapi semua kode perangkat lunak dapat menjadi target serangan AI
  • Teknologi yang sama juga dapat digunakan untuk agen AI pertahanan, menekankan kebutuhan akan otomatisasi keamanan berbasis AI

1 komentar

 
GN⁺ 2025-12-05
Komentar Hacker News
  • Startup kami sedang mengembangkan agen untuk pengujian penetrasi
    Kami sudah bertaruh pada arah ini selama lebih dari setahun sejak model mulai benar-benar mahir menulis kode
    Lompatan performa dari Sonnet 4 ke 4.5 sangat besar, dan sekarang kami sedang menguji Opus 4.5 secara internal
    Ini versi Opus pertama yang cukup murah untuk dipakai di produksi, jadi kami hampir memenuhi semua test case dan sedang merancang ulang sistem benchmark

    • Saya juga punya pengalaman memakai LLM untuk analisis statis kerentanan keamanan pada kode
      Tapi Anthropic memegang inti teknologinya, jadi saya tidak yakin apakah masuk akal bagi saya untuk membangun startup
      Dalam situasi seperti ini, kalau tetap mendirikan perusahaan, saya penasaran apakah strategi yang tepat adalah tumbuh cepat lalu exit sebelum pasar menyadarinya
    • Menurut saya, model generasi ini (Opus 4.5, GPT 5.1, Gemini Pro 3) adalah terobosan terbesar sejak gpt-4o
      Dulu model hanya bekerja baik pada framework yang familiar seperti Python atau Next.js, tetapi sekarang juga bisa menangani framework baru
      Bahkan bisa menyelesaikan sendiri error lint dan debugging, dan harganya juga realistis sehingga bisa dipakai untuk banyak kegunaan
    • Saya penasaran bagaimana cara mengarahkan model produksi yang tersedia publik ke pengembangan exploit
      Dalam pengalaman saya hasilnya tidak konsisten, dan kalau pengguna mendapat jawaban seperti “Saya tidak bisa membantu Anda”, itu akan merepotkan dari sudut pandang startup
    • Saya menjalankan startup software hotel, jadi kalau Anda ingin menunjukkan seberapa baik agen Anda bekerja
      Anda bisa mencari rook (nama bidak catur) hotel.com
  • Grafik itu benar-benar sulit dipahami
    Saya juga tidak mengerti apa yang ingin disampaikan, dan klaim bahwa itu “linear” tampaknya lemah dasarnya
    Bagian “$4.6M dana curian yang disimulasikan” membuatnya terlihat seperti mereka menargetkan kontrak rentan yang sudah diketahui
    Jadi judulnya terasa agak lemah

  • Ada bagian yang menyatakan tim riset tidak mengujinya di blockchain nyata
    Katanya itu untuk mencegah kerugian di dunia nyata, tetapi rasanya agak anticlimactic
    Ini mengingatkan saya pada insiden peretasan Ethereum dulu ketika “peretas baik” lebih dulu mencuri uang lalu mengembalikannya kemudian

    • Insiden fork Ethereum saat itu benar-benar ironis
      Awalnya, “kami adalah uang yang tak bisa diubah tanpa bank dan tanpa regulasi”, lalu
      “uang yang hilang milik orang penting harus dipulihkan”, dan akhirnya mereka bertindak seperti bank
    • Mungkin seseorang memang sudah menganalisis keamanan smart contract dengan AI di lingkungan nyata
      Rasanya seperti tinggal menggelontorkan daya GPU, lalu keluar exploit dan kripto sebagai hasilnya
    • Artikel itu tidak menjelaskan bagaimana mereka “mengasumsikan” jumlah korban, jadi itu menimbulkan pertanyaan
      Jika menghabiskan token AI senilai $3,500 untuk memperbaiki bug senilai $3,600, juga tidak jelas siapa yang seharusnya menanggung biaya itu
      Pada akhirnya ini terasa seperti pesan pemasaran Anthropic — semacam “cobalah ubah dunia dengan model kami”
    • Kalau benar-benar cyberpunk, sepertinya orang akan kembali ke uang tunai anonim
  • Kalimat “dua agen menemukan kerentanan zero-day dan membuat exploit senilai $3,694” ada di bagian paling atas artikel

    • Tapi agar angkanya realistis, biaya tenaga kerja pengembang juga harus dihitung
      Menjadikan kalimat seperti ini sebagai bagian depan PR adalah pilihan yang cukup berisiko
  • Saya menonton video presentasi terkait kompetisi DARPA AIxCC,
    dan melihat level saat ini, hasil seperti ini sama sekali tidak mengejutkan

  • Seseorang bertanya apakah ada yang bisa menjelaskan smart contract
    Ia mengerti struktur “if X happens, then Y”, tetapi mempertanyakan bukankah itu bisa dimanipulasi tergantung siapa yang memasukkan X

    • Smart contract murni secara otomatis menangani transaksi seperti pertukaran token sederhana
      Misalnya, jika Anda memberikan 100 token apple, Anda menerima 50 token pear
      Bentuk yang lebih kompleks juga memungkinkan, seperti distribusi dana berbasis voting
      Tetapi informasi dari dunia luar, seperti hasil pemilu, harus diterima lewat oracle
    • Input eksternal tidak selalu diperlukan
      Misalnya, kontrak seperti “jika X koin disetor ke alamat A, maka Y koin dikirim dari alamat Y”
      tetap memiliki logika verifikasi meski ada input, sehingga manipulasi sewenang-wenang tidak mungkin
      Namun jika menyangkut kejadian di dunia nyata (peristiwa off-chain), persoalan oracle menimbulkan isu kepercayaan
    • Kontrak yang sudah diterapkan adalah kode yang tidak dapat diubah, jadi struktur otoritasnya harus dipastikan sebelum digunakan
      Dalam kasus seperti kontrak proxy yang bisa terhubung ke kode lain, timelock kadang dipakai untuk membangun kepercayaan
      Oracle off-chain selalu membutuhkan tingkat kepercayaan tertentu
    • Blockchain adalah lingkungan terisolasi yang hanya mengetahui datanya sendiri
      Untuk memakai data eksternal, oracle dibutuhkan,
      dan Anda bisa belajar lebih rinci dari penjelasan oracle Chainlink
    • Anda seharusnya tidak membuat kontrak semacam itu dengan orang yang tidak bisa dipercaya
      Penipu bisa meninggalkan celah dalam kode untuk menggelapkan dana
      Kontrak yang normal mencegah tindakan seperti itu, tetapi vektor serangan jumlahnya tak terbatas
  • Kesimpulan bahwa “AI benar-benar bisa melakukan exploit otonom yang menguntungkan”
    terasa seperti lompatan logika ketika diteruskan menjadi “kita harus secara aktif mengadopsi AI untuk pertahanan”

    • Namun dari sudut pandang pengembang smart contract, punya alat deteksi kerentanan otomatis yang murah dan kuat jelas akan sangat membantu
  • Kalimat “kami menetapkan batas bawah kerugian ekonomi”
    pada dasarnya terasa seperti sedang membicarakan efisiensi pasar

  • Di proyek kami juga sudah mulai terlihat perilaku self-improvement
    Langkah berikutnya tampaknya secara alami menuju agen yang dapat memperbaiki diri sendiri
    Cukup menarik berada tepat di tengah arus seperti ini

  • Bagian ketika tim riset menyatakan mereka tidak mengujinya di blockchain nyata
    justru lucu karena terasa seperti menjadi katalis yang mendorong orang ke perlombaan memakai model