Project Glasswing: Pembaruan awal

(anthropic.com)

2 poin oleh GN⁺ 2026-05-23 | 1 komentar | Bagikan ke WhatsApp

Project Glasswing adalah proyek kolaboratif untuk melindungi perangkat lunak penting sebelum model AI yang kuat disalahgunakan, dengan partisipasi sekitar 50 mitra
Claude Mythos Preview menemukan lebih dari 10.000 kerentanan tingkat tinggi dan kritis dalam kode mitra, dan kecepatan penemuan di beberapa mitra meningkat lebih dari 10 kali lipat
Dalam lebih dari 1.000 proyek open source, diperkirakan ada 23.019 kerentanan, dan dari 1.752 yang telah diverifikasi, 90,6% dikonfirmasi sebagai temuan nyata
Bottleneck telah bergeser dari penemuan kerentanan ke verifikasi, pelaporan, patching, dan deployment, dan bug tingkat tinggi/kritis rata-rata memerlukan 2 minggu hingga dipatch
Anthropic belum merilis model setingkat Mythos untuk publik, dan pengembang serta defender perlu memperpendek siklus patch serta memperkuat kontrol keamanan dasar

Hasil awal dan prinsip pengungkapan

Project Glasswing adalah proyek kolaboratif untuk melindungi perangkat lunak yang penting secara global sebelum model AI yang lebih kuat disalahgunakan
Anthropic dan sekitar 50 mitra menemukan lebih dari 10.000 kerentanan dengan tingkat keparahan tinggi atau kritis dalam perangkat lunak penting menggunakan Claude Mythos Preview
Bottleneck dalam keamanan perangkat lunak telah bergeser dari kecepatan menemukan kerentanan baru ke kecepatan memverifikasi, mengungkapkan, dan menambal sejumlah besar kerentanan yang ditemukan AI
Cara pengungkapan kerentanan
- Praktik pengungkapan kerentanan yang umum adalah mengungkapkan 90 hari setelah kerentanan baru ditemukan, atau sekitar 45 hari setelah patch tersedia jika patch disiapkan sebelum 90 hari
- Coordinated Vulnerability Disclosure policy milik Anthropic juga mengikuti pendekatan ini, sebagai prosedur untuk memastikan pengguna akhir punya waktu untuk memperbarui sebelum serangan terjadi
- Mengungkap lebih awal detail kerentanan mitra yang ditemukan Mythos Preview dapat membahayakan pengguna akhir, sehingga saat ini yang dibagikan berfokus pada contoh representatif dan statistik agregat
- Detail teknis yang lebih rinci akan dipublikasikan setelah patch tersebar luas

Performa yang terlihat dari mitra dan evaluasi eksternal

Mitra awal Project Glasswing membuat dan memelihara perangkat lunak yang sangat penting bagi berfungsinya internet dan infrastruktur esensial
Memperbaiki cacat pada kode ini mengurangi risiko bagi banyak organisasi dan miliaran pengguna akhir yang bergantung pada perangkat lunak tersebut
Sebulan setelah proyek dimulai, sebagian besar mitra masing-masing telah menemukan ratusan kerentanan kritis atau berkeparahan tinggi, dan jumlah total temuan mencapai lebih dari 10.000
Kecepatan penemuan bug di beberapa mitra meningkat lebih dari 10 kali lipat
Cloudflare menemukan 2.000 bug dalam sistem jalur kritis, 400 di antaranya berkeparahan tinggi atau kritis, dan menilai tingkat false positive-nya lebih baik daripada tester manusia
Pengujian eksternal dan benchmark
- AI Security Institute Inggris menilai Mythos Preview sebagai model pertama yang berhasil menyelesaikan dua cyber range mereka dari awal hingga akhir, yaitu simulasi serangan siber multi-tahap
- Mozilla menemukan dan memperbaiki 271 kerentanan dalam pengujian Firefox 150, yaitu lebih dari 10 kali jumlah yang ditemukan di Firefox 148 dengan Claude Opus 4.6
- Platform keamanan independen XBOW menilai Mythos Preview menunjukkan “lompatan signifikan” dibanding semua model sebelumnya pada benchmark web exploit, serta memberikan “presisi yang belum pernah ada sebelumnya” per token
- ExploitBench dan ExploitGym adalah benchmark akademik terbaru untuk mengukur kemampuan pengembangan exploit, dan Mythos Preview menunjukkan performa terkuat
Perubahan kecepatan deployment patch
- Rilis terbaru Palo Alto Networks mencakup lebih dari 5 kali jumlah patch dibanding biasanya
- Microsoft menyatakan bahwa jumlah patch baru “akan terus menunjukkan tren peningkatan untuk sementara waktu”
- Oracle menemukan dan memperbaiki kerentanan di seluruh produk dan cloud mereka beberapa kali lebih cepat daripada sebelumnya
- Mythos Preview juga digunakan untuk tugas keamanan selain deteksi kerentanan; di salah satu bank mitra Glasswing, alat ini membantu mendeteksi dan memblokir transfer penipuan senilai 1,5 juta dolar AS yang dicoba setelah pelaku ancaman membobol akun email pelanggan dan bahkan menggunakan panggilan spoofing

Hasil pemindaian open source

Dalam beberapa bulan terakhir, Anthropic memindai lebih dari 1.000 proyek open source yang menopang sebagian besar internet dan infrastruktur mereka sendiri dengan Mythos Preview
Mythos Preview memperkirakan total 23.019 kerentanan dalam proyek-proyek ini, dengan 6.202 di antaranya dinilai berkeparahan tinggi atau kritis
Angka kerentanan yang telah diverifikasi
- Dari kerentanan yang dinilai berkeparahan tinggi atau kritis, 1.752 dievaluasi secara cermat oleh 6 perusahaan riset keamanan independen atau dalam beberapa kasus oleh Anthropic
- Dari jumlah tersebut, 90,6%, yaitu 1.587, dikonfirmasi sebagai temuan nyata
- Dari jumlah tersebut, 62,4%, yaitu 1.094, dipastikan berkeparahan tinggi atau kritis
- Jika menerapkan tingkat temuan nyata berdasarkan klasifikasi pasca-analisis saat ini, bahkan jika Mythos Preview tidak lagi menemukan kerentanan baru, hampir 3.900 kerentanan berkeparahan tinggi atau kritis diperkirakan akan terungkap dalam kode open source
- Anthropic berencana terus memindai kode open source untuk sementara waktu, sehingga angka ini diperkirakan akan terus meningkat
Contoh kerentanan wolfSSL
- wolfSSL adalah library kriptografi open source yang dikenal aman dan digunakan di miliaran perangkat di seluruh dunia
- Mythos Preview menyusun exploit yang memungkinkan penyerang memalsukan sertifikat
- Kerentanan ini memungkinkan penyerang menjalankan situs web palsu untuk bank atau penyedia email; bagi pengguna akhir situs tersebut tampak normal, padahal sebenarnya dikendalikan penyerang
- Kerentanan tersebut sudah dipatch dan telah diberi CVE-2026-5194
- Analisis teknis lengkapnya dijadwalkan dipublikasikan dalam beberapa minggu ke depan

Bottleneck verifikasi, pengungkapan, dan patch

Mythos Preview membuat penemuan kerentanan menjadi jauh lebih mudah, tetapi bottleneck ada pada kapasitas manusia untuk mengklasifikasikan, melaporkan, merancang patch, dan melakukan deployment bug
Anthropic memublikasikan dashboard kerentanan open source yang telah dipindai untuk melacak tiap tahap dan progres dalam proses pengungkapan terkoordinasi
Penurunan jumlah yang besar pada setiap tahap mencerminkan beban kerja manusia yang diperlukan untuk memverifikasi dan memperbaiki setiap kerentanan satu per satu
Anthropic atau perusahaan keamanan eksternal mereproduksi masalah yang ditemukan Mythos, menilai ulang tingkat keparahannya, memeriksa apakah sudah ada perbaikannya, lalu menulis laporan rinci untuk dikirim ke maintainer
Para maintainer open source kini harus menangani beban pemeliharaan yang sudah ada ditambah banjir laporan bug berkualitas rendah yang dibuat AI
Banyak maintainer memiliki kapasitas pemrosesan yang sangat terbatas, dan sebagian meminta perlambatan pengungkapan karena mereka membutuhkan waktu untuk merancang patch
Bug berkeparahan tinggi atau kritis yang ditemukan Mythos Preview rata-rata membutuhkan 2 minggu hingga dipatch
Status pengungkapan dan patch
- Dalam beberapa kasus, sesuai permintaan maintainer, bug diungkapkan langsung tanpa evaluasi tambahan
- Hingga saat ini, 1.129 bug yang belum diverifikasi telah dilaporkan langsung, dan di antaranya 175 diperkirakan oleh Mythos Preview berkeparahan tinggi atau kritis
- Hingga kini, sekitar 530 bug berkeparahan tinggi atau kritis diperkirakan telah diungkapkan kepada maintainer
- Selain itu ada 827 kerentanan terkonfirmasi yang diperkirakan berkeparahan tinggi atau kritis dengan cara yang sama, dan akan diungkapkan secepat mungkin
- Dari 530 bug berkeparahan tinggi atau kritis yang telah dilaporkan, 75 sudah dipatch, dan 65 di antaranya telah diberi advisory publik
- Karena jendela 90 hari dalam Coordinated Vulnerability Disclosure policy masih berada pada tahap awal, diperkirakan lebih banyak patch akan muncul ke depan
- Beberapa kerentanan dipatch tanpa advisory publik, sehingga jumlah patch mungkin terhitung lebih rendah dari kenyataan karena perlu memindai status patch secara langsung dengan Claude
- Penemuan kerentanan kini lebih mudah tetapi perbaikannya lambat; ketimpangan ini muncul sebagai tantangan besar dalam keamanan siber, dan jika ditangani dengan baik, perangkat lunak bisa menjadi jauh lebih aman daripada sebelumnya

Respons terhadap fase baru keamanan siber

Model dengan kemampuan keamanan siber mirip Mythos Preview diperkirakan akan segera tersedia lebih luas
Diperlukan upaya berskala lebih besar di seluruh industri perangkat lunak untuk mengelola volume besar temuan yang akan dihasilkan model-model semacam ini
Saat ini pun sering ada jeda panjang antara penemuan kerentanan, penulisan patch, dan waktu ketika patch tersebar luas ke pengguna akhir
Model setingkat Mythos sangat mengurangi waktu dan biaya yang diperlukan untuk menemukan dan mengeksploitasi kerentanan, sehingga memperbesar risiko yang timbul dari jeda tersebut
Dalam jangka panjang, model setingkat Mythos dapat membantu pengembang menangkap bug sebelum deployment sehingga perangkat lunak yang dibuat menjadi jauh lebih aman
Namun, pada masa transisi ketika kerentanan ditemukan cepat sementara patch bergerak lambat, risiko baru akan muncul
Tindakan yang dibutuhkan pengembang perangkat lunak
- Pengembang harus memperpendek siklus patch dan menyediakan perbaikan keamanan secepat mungkin
- Memanfaatkan model AI yang tersedia secara publik secara hati-hati dapat membantu pekerjaan ini
- Pembaruan harus dibuat semudah mungkin untuk dipasang agar pengguna tetap menggunakan versi terbaru
- Untuk pengguna yang terus menjalankan perangkat lunak dengan kerentanan yang diketahui, dorongan pembaruan harus dibuat lebih persisten sejauh memungkinkan
Tindakan yang dibutuhkan defender jaringan
- Defender jaringan harus memperpendek jadwal pengujian dan deployment patch
- Kontrol inti yang direkomendasikan oleh National Institute of Standards and Technology dan National Cyber Security Centre Inggris menjadi semakin penting karena meningkatkan keamanan tanpa bergantung pada apakah patch tertentu diterapkan tepat waktu
- Ini mencakup langkah-langkah seperti memperkuat konfigurasi jaringan dasar, mewajibkan multi-factor authentication, dan menjaga log yang komprehensif untuk deteksi serta respons

Alat pertahanan yang memanfaatkan model AI publik

Secara umum, banyak model yang tersedia publik memang tidak mampu menemukan kerentanan paling canggih atau mengeksploitasinya seefektif Claude Mythos Preview, tetapi sudah dapat menemukan banyak kerentanan perangkat lunak
Project Glasswing mendorong berbagai organisasi untuk memeriksa codebase mereka sendiri dengan model yang dirilis publik, dan Anthropic sedang mengerjakan cara untuk mempermudahnya
Claude Security
- Claude Security diluncurkan dalam beta publik untuk pelanggan Claude Enterprise
- Ini adalah alat yang membantu tim memindai kerentanan di codebase dan menghasilkan usulan perbaikan
- Dalam 3 minggu setelah peluncuran, Claude Opus 4.7 digunakan untuk mematch lebih dari 2.100 kerentanan
- Perusahaan memperbaiki kode mereka sendiri, sedangkan perbaikan open source biasanya memerlukan proses pengungkapan terkoordinasi dan maintainer sukarela, sehingga kecepatan patch Claude Security lebih cepat daripada patch open source yang disebutkan sebelumnya
Cyber Verification Program
- Cyber Verification Program memungkinkan profesional keamanan menggunakan model Anthropic untuk tujuan keamanan siber yang sah
- Untuk penggunaan seperti riset kerentanan, penetration testing, dan aktivitas red team, model dapat digunakan tanpa sebagian safeguard pencegahan penyalahgunaan siber
Alat yang digunakan bersama Mythos Preview
- Alat yang digunakan Anthropic dan mitra bersama Mythos Preview disediakan berdasarkan permintaan kepada tim keamanan pelanggan yang memenuhi syarat
- Tujuannya adalah membantu mereka memanfaatkan performa model publik yang kuat dengan lebih baik tanpa konfigurasi yang rumit
- skills: instruksi kustom untuk tugas berulang yang dibuat dan dibagikan Anthropic serta para mitra
- harness: konfigurasi yang membantu Claude memetakan codebase, menjalankan sub-agen pemindaian, mengklasifikasikan temuan, dan menulis laporan
- threat model builder: memetakan codebase untuk mengidentifikasi target serangan potensial dan menentukan prioritas pekerjaan model
- Cisco adalah salah satu mitra Project Glasswing, dan baru-baru ini merilis Foundry Security Spec sebagai open source agar defender lain dapat membangun sistem evaluasi serupa milik Cisco

Dukungan ekosistem dan langkah selanjutnya

Anthropic bermitra dengan proyek Alpha-Omega dari Open Source Security Foundation melalui kemitraan untuk membantu maintainer memproses dan mengklasifikasikan laporan bug
Anthropic mendukung pengembangan benchmark baru ExploitBench dan ExploitGym yang dapat melacak kemampuan pengembangan exploit model frontier AI dari waktu ke waktu
Pembahasan lebih lanjut tentang benchmark ini tersedia di Frontier Red Team blog
Melalui External Researcher Access Program, mereka juga mendukung pengembangan benchmark kuantitatif berkualitas tinggi lainnya
Claude for Open Source mendukung maintainer dan kontributor, dan Anthropic menyatakan akan memindai semua paket open source yang mereka adopsi sendiri di masa mendatang
Mengingat laju perkembangan AI, model sekuat Mythos Preview diperkirakan akan segera dikembangkan oleh beberapa perusahaan AI
Saat ini, belum ada perusahaan mana pun, termasuk Anthropic, yang berhasil mengembangkan safeguard yang cukup kuat untuk mencegah model seperti ini disalahgunakan hingga menyebabkan kerugian serius
Karena itu, Anthropic masih belum merilis model setingkat Mythos untuk publik
Project Glasswing dimulai dari kesadaran bahwa jika model dengan kemampuan serupa dirilis tanpa safeguard yang memadai, mengeksploitasi perangkat lunak yang cacat bisa menjadi jauh lebih murah dan mudah bagi hampir siapa pun di dunia
Glasswing membantu defender siber yang paling penting secara sistemik memperoleh keunggulan asimetris, tetapi ada kebutuhan mendesak agar sebanyak mungkin organisasi memperkuat kemampuan pertahanan mereka
Anthropic berencana bekerja sama dengan mitra utama, termasuk pemerintah AS dan negara sekutu, untuk memperluas Project Glasswing ke lebih banyak mitra
Setelah mengembangkan safeguard yang jauh lebih kuat yang dibutuhkan, tujuannya adalah menyediakan model setingkat Mythos dalam bentuk rilis umum dalam waktu dekat
Tujuan jangka panjangnya adalah menciptakan lingkungan di mana kode penting dilindungi jauh lebih kuat daripada sekarang, dan peretasan menjadi jauh lebih jarang terjadi

1 komentar

GN⁺ 2026-05-23

Komentar Hacker News

Kami menyalakan Codex Security sebagai eksperimen, dan dalam waktu kurang dari seminggu itu sudah menjadi alat wajib untuk seluruh tim
Akurasinya mengejutkan, menemukan banyak isu keamanan di kode yang sudah ada, dan terus menangkapnya setiap kali kami melakukan commit
Menurut standar kami, akurasinya sekitar 90%, dan bahkan item yang ditandai “Low” pun saat ditelusuri sering kali ternyata benar-benar bisa dieksploitasi
Karena kesalahan seperti ini adalah salah satu jenis bug yang dilakukan semua orang dari junior sampai senior, sepertinya ke depan alur menulis kode dengan AI, mereview dengan AI, dan mencari kerentanan dengan AI akan menjadi bagian umum dari siklus hidup pengembangan
- Jadi maksudnya Claude Code membuat bug keamanan, Claude Security menemukannya, lalu Claude Code membuat perbaikannya sambil menghabiskan token dan menghasilkan pendapatan?
- https://blog.chuanxilu.net/en/posts/2026/05/dual-pass-review...
  Saya pernah mencoba pendekatan menggunakan loop iteratif yang menggali masalah dan bug di tiap tahap pengembangan, dari desain sampai coding, untuk memastikan perangkat lunak yang dihasilkan benar-benar bekerja sesuai maksud
- Saya punya pengalaman serupa
  UI-nya agak membingungkan, karena tertulis “5 scan”, tetapi 1 scan berarti memantau terus-menerus branch default dari repositori
  Hampir semua temuan berdampak tinggi akurat, dan saya terutama terkesan oleh kualitas dokumentasi serta usulan perbaikannya yang sempit dan tepat sasaran
  Codex biasanya terbiasa menghasilkan kode jauh lebih banyak daripada yang diperlukan, tetapi usulan perbaikan dari model keamanan ini sering kali kurang dari 10 baris dan hanya menargetkan lokasi yang tepat
  Setelah beta berakhir sepertinya harganya akan cukup mahal, tetapi dari sudut pandang perusahaan, ini terasa cukup bagus hingga ingin langsung diadopsi
- Salah satu masalah yang saya lihat pada LLM adalah mereka menambahkan kode yang tidak perlu atas nama “keamanan”, dan dengan percaya diri menghasilkan banyak hal yang dulu berguna tetapi sekarang sudah ditangani dengan baik oleh standard library
  Untuk kode, saya cenderung berpandangan bahwa makin sedikit makin baik, jadi tren ini cukup membuat frustrasi
  Bagaimana cara menghindari jebakan ini?
- Saya merekomendasikan konfigurasi dengan gpt-5.5-cyber sebagai orkestrator dan deepseek-v4-flash atau model cepat dan murah lain sebagai model pekerja
  Dengan konfigurasi ini, hasilnya cukup bagus
Saya kurang tahu bagaimana menyelaraskan pembaruan dari Anthropic dan sebagian reaksi yang terlalu panas di sini dengan penilaian terbaru dari maintainer curl, Daniel Steinberg
“Saya tidak melihat bukti bahwa setup ini [Mythos] menemukan isu pada tingkat yang secara khusus lebih tinggi atau lebih maju dibanding alat-alat lain sebelum Mythos. Model ini mungkin sedikit lebih baik, tetapi meski begitu tidak cukup lebih baik untuk menciptakan perubahan berarti dalam analisis kode.”
https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...
- Itu benar, dan merupakan data point yang valid
  Namun laporan pemerintah Inggris juga merupakan data point, begitu juga laporan Firefox, dan keduanya memberi sinyal bahwa ini memang jauh lebih baik daripada model generasi saat ini
  Mungkin saja curl adalah kode yang jauh lebih diperkeras dibanding kebanyakan proyek
  Bagaimanapun itu tidak terlalu penting, karena seperti yang diakui Anthropic, model level berikutnya sedang datang dan Mythos hanyalah salah satunya
  Model generasi saat ini pun sudah bagus dalam melacak aliran data pada sistem yang kompleks, dan tidak ada alasan untuk menganggap kemampuan itu sudah mentok
  Dalam setahun, tampaknya besar kemungkinan akan ada beberapa model komersial yang bisa menemukan kerentanan dengan murah
  Sebaliknya, untuk merancang solusi atas isu semacam ini, kemajuannya tampak jauh lebih sedikit
- Saya rasa ada yang salah memahami poin Daniel, tetapi jika dilihat dari konteks keseluruhan tulisannya, itu lebih jelas
  Secara umum alat-alat memang makin baik dalam menemukan bug keamanan, dan dari pengalaman penggunaan Daniel sendiri belum jelas apakah Mythos secara khusus merupakan lompatan besar, tetapi LLM generasi Mythos jelas demikian
  Hanya saja Daniel menggunakan Mythos agak tidak langsung
  Kesimpulan yang saya ambil dari perdebatan Mythos adalah, a) mungkin saja Anthropic terpaksa membatasi akses Mythos karena kekurangan GPU, dan itu juga memengaruhi perhitungan apakah akan dirilis ke publik, dan b) menemukan bug dengan Mythos atau model serupa masih mahal
  Jika curl mendapat eksekusi Mythos senilai 20 ribu atau 100 ribu dolar, mungkin isu yang ditemukan akan setara dengan proyek lain seperti Firefox, tetapi Daniel tidak diberi akses seperti itu
  Pembaruan umum yang ia unggah hari ini di LinkedIn memberi konteks yang lebih luas
  https://www.linkedin.com/feed/update/urn:li:activity:7463481...
  “Bahkan belum melewati setengah dari siklus rilis curl kali ini, sudah ada 11 kerentanan terkonfirmasi, 3 lagi masih menunggu evaluasi, dan laporan baru terus masuk dengan laju lebih dari 1 per hari.”
  “Mengumumkan 11 CVE dalam satu rilis adalah rekor sejak audit keamanan pertama Cure 53 pada 2016.”
  “Ini periode paling intens yang saya ingat dalam sejarah curl.”
- curl dilihat oleh lebih banyak mata, dikenai lebih banyak alat, dites lebih baik daripada 99% perangkat lunak, dan mungkin juga dikembangkan dengan lebih baik
  Ini sama sekali bukan kasus yang tipikal, jadi tampaknya faktor-faktor seperti itu mungkin berperan
  Tentu saya tidak bisa memastikan ada bias, dan bisa saja Daniel memang benar
- Bukan kontradiksi jika orang yang berbeda punya pengalaman yang berbeda
  Bisa jadi source code curl memang sejak awal cukup bersih
- Daniel sudah lama menulis tentang seberapa besar tekanan verifikasi yang ia terima selama berbulan-bulan, mungkin bertahun-tahun, dari peneliti keamanan dan berbagai alat otomatis
  Saya tidak berharap curl menjadi kasus rata-rata bagi Mythos
Ada banyak sinisme terhadap Mythos, seolah-olah “ini cuma model publik lama yang pengamannya dilepas”, tetapi angka ini terlihat berbeda
“Sebanyak 1.752 kerentanan berperingkat tinggi atau kritis telah ditinjau dengan hati-hati oleh 6 perusahaan riset keamanan independen, atau dalam sejumlah kecil kasus melalui evaluasi internal kami. Dari jumlah itu, 90,6% (1.587) terbukti valid sebagai true positive, dan 62,4% (1.094) dikonfirmasi memiliki tingkat keparahan tinggi atau kritis.”
Siapa pun yang pernah melakukan pemindaian kerentanan dengan Opus, Codex, atau model open source akan tahu bahwa rasio true positive dan jumlah temuannya jelas merupakan perubahan tingkat[0]
Sebagian besar dari sekitar 50 mitra Glasswing sebelumnya juga sudah menjalankan harness dengan model lain, dan umumnya reaksinya adalah “wow, ini berbeda”
Sekarang pertanyaannya adalah seperti apa akses tahap 2 dan 3 nantinya, dan kelas sistem apa yang akan diprioritaskan untuk dilindungi lebih dulu
Router, firewall, SaaS, ERP, pengendali pabrik, SCADA, gateway VPN zero-trust, peralatan dan jaringan telekomunikasi, hingga perangkat medis, terlalu banyak yang harus dikerjakan
Karena itu saya rasa Mythos akan tetap tertutup untuk sementara waktu
Permukaan serangan yang harus dilindungi terlalu luas, dan terlalu banyak hal yang harus diklasifikasikan, diperbaiki, dan dideploy
Ini juga mungkin cocok bagi Anthropic, karena model tertutup tidak bisa didistilasi
Selain itu ada efek runaway pada peningkatan model dari data penemuan, klasifikasi, dan perbaikan
Ini mungkin sudah menjadi korpus data serangan yang paling kuat kurasinya yang pernah dikumpulkan sejauh ini, dan akan terus membaik
Saya sulit membayangkan perusahaan Tiongkok akan mendapat akses dalam waktu dekat, atau bahkan selamanya
Bisa jadi sebentar lagi CISA akan mewajibkan audit, dan jika ingin membeli gateway VPN atau router rumahan yang tahan terhadap Mythos, Anda harus membeli produk buatan AS[1]
[0] dibanding sekitar 30% pada alat audit umum
[1] atau buatan negara sekutu
- Korpus data penemuan, klasifikasi, dan perbaikan itu bisa diakses semua pesaing, baik perusahaan AS maupun bukan
  Sulit dipercaya bahwa ini tidak bisa direplikasi
  Sudah ada cukup banyak data beranotasi seperti CVE dan patch, dan Mythos justru menambah jumlah itu, jadi saya kira melakukan reinforcement learning sesuai skenario ini bisa meningkatkan performa deteksi kerentanan bahkan tanpa akses ke Mythos
- Saya tidak melihat alasan untuk tidak mengalihdayakan ke perusahaan keamanan AS yang punya akses ke Mythos
- Ini mengingatkan saya pada era GPT-2
  OpenAI pertama kali membatasi akses model dengan alasan “umat manusia belum siap”, padahal model itu cuma cukup bagus menulis puisi atau semacamnya
  Sejak itu saya tidak ingat ada pengumuman model dari OAI/Anthropic yang tidak memakai frasa serupa
  Model yang katanya bocor itu marketing, yang katanya berbahaya itu marketing, dan yang katanya dunia belum siap itu juga marketing
  Orang-orang yang mendapat akses lalu berkata “wow” juga, percaya atau tidak, adalah marketing
  Anda sudah bisa mendapatkan hasil yang sama dengan 5–10 model teratas yang tersedia secara umum
  Mythos adalah cara Anthropic menjual ide baru setelah ide sebelumnya terdemokratisasi
- Model tertutup mungkin tidak bisa didistilasi dari luar, tetapi dari dalam bisa
  Sepertinya kita boleh menaruh harapan besar pada Sonnet 4.8
Jika Anda masih belum menerapkan analisis statis dan linter pada codebase, pertama-tama perlu ditanyakan kenapa justru ingin menerapkan alat LLM yang mahal
Ini bukan berarti alat seperti itu tidak bisa menangkap kerentanan yang tidak tertangkap alat statis, saya rasa bisa
Hanya saja kita sebenarnya sudah punya kemampuan untuk secara otomatis menangkap area luas dari kerentanan umum, tetapi selama ini memilih untuk tidak melakukannya karena alasan seperti biaya
Jika tim yang sudah menerapkan banyak lapis analisis dan linting ingin menambahkan ini di atasnya, saya sepenuhnya mendukung
- Sebagian besar isu ada di logika bisnis, dan static analyzer tidak bisa menangkap hal seperti itu
- Analisis statis tidak membuatkan one-click exploit yang bekerja dari awal sampai akhir
  Bahkan di FAANG pun, alat analisis statis kami tidak hebat dalam mengidentifikasi berapa banyak isu yang benar-benar dapat dijangkau
  Idealnya, keduanya dipakai
  Akan bagus jika model AI yang memiliki analisis statis sebagai bagian dari harness mengevaluasi tiap potensi temuan
- Analisis statis sering menampilkan banyak false positive
  Alat yang lebih cerdas bisa membantu agar waktu engineering yang terbatas tidak terbuang
- Saya cukup suka bahwa jawaban paling jujur bagi banyak developer malah didownvote dan bahkan dipasangi flag
  Kebanyakan orang yang melakukan ini sekarang sebelumnya memang tidak memakai alat analisis statis karena menganggapnya tambahan yang tidak perlu
Kerentanan yang ingin saya lihat diperbaiki sekarang juga hanyalah yang ada di 3.800 repositori yang dicuri dari GitHub
Dibanding “kerentanan pada perangkat lunak yang membangun internet”, prioritas yang jujur lebih tinggi adalah “platform yang dipakai perangkat lunak pembangun internet untuk membuat rilis”
Jika orang yang membeli repositori internal itu berhasil menyusup ke GitHub untuk memotong rilis perangkat lunak, atau menemukan cara mencemari GitHub Actions dari jarak jauh, kita semua akan berada dalam situasi yang sangat buruk
Jangan lupa bahwa di antara 3.800 repositori itu kemungkinan besar ada npmjs.org itu sendiri
Dengan model frontier konsumen, kami telah mengembangkan apa yang dalam legal tech kami sebut “lexploits”, dan model-model itu luar biasa hebat dalam menemukan bug di seluruh pipeline terintegrasi
Mereka juga mengejutkan bagus dalam membuat mitigasi
Kerentanan keamanan memang penting, tetapi di bidang hukum kami mengusulkan konsep keamanan pengetahuan untuk melindungi kesetiaan konteks hukum milik agen
Bug perangkat lunak dikelola oleh software engineer sehingga tampak jauh lebih mudah ditangani, sedangkan “kerentanan” pipeline yang kami cari tidak demikian
Saya menulis sedikit di sini tentang satu jalur ketika dokumen hukum tidak seperti yang tampak: https://tritium.legal/blog/noroboto
Saat ini akan ada banyak domain pengetahuan yang terekspos seperti ini, dan itu lebih mengkhawatirkan karena sebagian besar kekurangan tenaga serta dikelola oleh orang nonteknis
Bahkan tidak perlu Mythos
Kalimat “Selanjutnya kami akan bekerja sama dengan mitra utama tambahan, termasuk pemerintah AS dan negara sekutu, untuk memperluas Project Glasswing ke lebih banyak mitra” terdengar seperti berarti mereka akan menghasilkan banyak uang sebelum rilis publik
Strategi yang bagus
Sulit dipercaya
Sebagian besar yang ditemukan alat ini memang salah, dan kadang dilaporkan sebagai benar padahal kemungkinan dieksploitasi sebagai kerentanan nyata tertutup oleh lapisan atas atau bawah kode
Ini juga soal trade-off antara performa dan keamanan, dan memang selalu begitu
Pemeriksaan tambahan dan tindakan lain memang harus dilakukan untuk tujuan keamanan yang sesungguhnya
Marketing selalu bagus, tetapi pandangan terlalu optimistis yang dimiliki banyak orang terasa meleset seperti vicarious fulfillment
- Tulisan itu menjelaskan bahwa semua kerentanan telah diverifikasi benar-benar bisa dieksploitasi end-to-end, dan lebih dari 1.000 item terverifikasi independen sebagai kritis
  Jadi ini bukan kerentanan yang tidak dapat dijangkau
- Anda bisa melihat tepatnya apa yang ditemukan di https://red.anthropic.com/2026/cvd/
- Terutama karena ini sudah menjadi gaya klise OAI/Anthropic selama beberapa tahun
“Bottleneck dalam memperbaiki bug seperti ini adalah kapasitas orang untuk mengklasifikasikan, melaporkan, serta merancang dan mendeploy patch. Berkat Mythos Preview, pekerjaan menemukan pertama kalinya kini jauh lebih sederhana.”
Ini memang selalu menjadi bottleneck
Alat otomatis suka menandai kerentanan, tetapi hampir semuanya false positive, dan manusia harus mengklasifikasikan serta mengevaluasinya
Namun itu tetap baik-baik saja
Saya lebih memilih menutup false positive setelah review yang cermat daripada melewatkan semuanya sama sekali
Tidak tepat menyebut manusia sebagai bottleneck
Manusia adalah elemen esensial dalam proses, dan Mythos akan menjadi katalis bagi proses itu
- Jelas tidak benar bahwa pekerjaan perbaikan manusia adalah bottleneck dalam menghilangkan sebagian besar kerentanan sepuluh tahun lalu
  Membuktikan adanya kerentanan jauh lebih sulit daripada menyelesaikannya
Hari ini cukup menyenangkan
Saya menyuruh sub-agent deepseek-v4-flash membuat patch untuk mendapatkan hak root lewat Dirty Frag pada sistem dengan AF_ALG dimatikan dan nscd dinyalakan
Exploit publik aslinya tidak berhasil, tetapi versi yang dipatch bekerja sangat baik
Saya masih percaya bahwa 100 sub-agent dengan kecerdasan yang memadai bisa mencapai hasil yang sama seperti Mythos
Suatu hari saya siap memakai Mythos langsung dan membiarkan keyakinan ini dipatahkan, dan saya kira orang lain di sini juga ada yang sudah mencoba Mythos
- Mungkin saja, tetapi 100 sub-agent berarti konfigurasi dengan biaya 100 dolar per jam, sementara Mythos dikatakan menghabiskan 20 ribu dolar untuk menemukan satu kerentanan
  Jadi pertanyaannya bukan “apakah model yang lebih bodoh juga bisa melakukan ini”, melainkan jika satu exploit ditemukan oleh penalaran Mythos dengan biaya 5.000 jam GPU, maka berapa jam GPU yang dibutuhkan model yang lebih bodoh untuk melakukan hal yang sama?

Project Glasswing: Pembaruan awal

Hasil awal dan prinsip pengungkapan

Cara pengungkapan kerentanan

Performa yang terlihat dari mitra dan evaluasi eksternal

Pengujian eksternal dan benchmark

Perubahan kecepatan deployment patch

Hasil pemindaian open source

Angka kerentanan yang telah diverifikasi

Contoh kerentanan wolfSSL

Bottleneck verifikasi, pengungkapan, dan patch

Status pengungkapan dan patch

Respons terhadap fase baru keamanan siber

Tindakan yang dibutuhkan pengembang perangkat lunak

Tindakan yang dibutuhkan defender jaringan

Alat pertahanan yang memanfaatkan model AI publik

Claude Security

Cyber Verification Program

Alat yang digunakan bersama Mythos Preview

Dukungan ekosistem dan langkah selanjutnya

Bacaan terkait

1 komentar

Komentar Hacker News