- Project Glasswing adalah proyek kolaboratif untuk melindungi perangkat lunak penting sebelum model AI yang kuat disalahgunakan, dengan partisipasi sekitar 50 mitra
- Claude Mythos Preview menemukan lebih dari 10.000 kerentanan tingkat tinggi dan kritis dalam kode mitra, dan kecepatan penemuan di beberapa mitra meningkat lebih dari 10 kali lipat
- Dalam lebih dari 1.000 proyek open source, diperkirakan ada 23.019 kerentanan, dan dari 1.752 yang telah diverifikasi, 90,6% dikonfirmasi sebagai temuan nyata
- Bottleneck telah bergeser dari penemuan kerentanan ke verifikasi, pelaporan, patching, dan deployment, dan bug tingkat tinggi/kritis rata-rata memerlukan 2 minggu hingga dipatch
- Anthropic belum merilis model setingkat Mythos untuk publik, dan pengembang serta defender perlu memperpendek siklus patch serta memperkuat kontrol keamanan dasar
Hasil awal dan prinsip pengungkapan
- Project Glasswing adalah proyek kolaboratif untuk melindungi perangkat lunak yang penting secara global sebelum model AI yang lebih kuat disalahgunakan
- Anthropic dan sekitar 50 mitra menemukan lebih dari 10.000 kerentanan dengan tingkat keparahan tinggi atau kritis dalam perangkat lunak penting menggunakan Claude Mythos Preview
- Bottleneck dalam keamanan perangkat lunak telah bergeser dari kecepatan menemukan kerentanan baru ke kecepatan memverifikasi, mengungkapkan, dan menambal sejumlah besar kerentanan yang ditemukan AI
-
Cara pengungkapan kerentanan
- Praktik pengungkapan kerentanan yang umum adalah mengungkapkan 90 hari setelah kerentanan baru ditemukan, atau sekitar 45 hari setelah patch tersedia jika patch disiapkan sebelum 90 hari
- Coordinated Vulnerability Disclosure policy milik Anthropic juga mengikuti pendekatan ini, sebagai prosedur untuk memastikan pengguna akhir punya waktu untuk memperbarui sebelum serangan terjadi
- Mengungkap lebih awal detail kerentanan mitra yang ditemukan Mythos Preview dapat membahayakan pengguna akhir, sehingga saat ini yang dibagikan berfokus pada contoh representatif dan statistik agregat
- Detail teknis yang lebih rinci akan dipublikasikan setelah patch tersebar luas
Performa yang terlihat dari mitra dan evaluasi eksternal
- Mitra awal Project Glasswing membuat dan memelihara perangkat lunak yang sangat penting bagi berfungsinya internet dan infrastruktur esensial
- Memperbaiki cacat pada kode ini mengurangi risiko bagi banyak organisasi dan miliaran pengguna akhir yang bergantung pada perangkat lunak tersebut
- Sebulan setelah proyek dimulai, sebagian besar mitra masing-masing telah menemukan ratusan kerentanan kritis atau berkeparahan tinggi, dan jumlah total temuan mencapai lebih dari 10.000
- Kecepatan penemuan bug di beberapa mitra meningkat lebih dari 10 kali lipat
- Cloudflare menemukan 2.000 bug dalam sistem jalur kritis, 400 di antaranya berkeparahan tinggi atau kritis, dan menilai tingkat false positive-nya lebih baik daripada tester manusia
-
Pengujian eksternal dan benchmark
- AI Security Institute Inggris menilai Mythos Preview sebagai model pertama yang berhasil menyelesaikan dua cyber range mereka dari awal hingga akhir, yaitu simulasi serangan siber multi-tahap
- Mozilla menemukan dan memperbaiki 271 kerentanan dalam pengujian Firefox 150, yaitu lebih dari 10 kali jumlah yang ditemukan di Firefox 148 dengan Claude Opus 4.6
- Platform keamanan independen XBOW menilai Mythos Preview menunjukkan “lompatan signifikan” dibanding semua model sebelumnya pada benchmark web exploit, serta memberikan “presisi yang belum pernah ada sebelumnya” per token
- ExploitBench dan ExploitGym adalah benchmark akademik terbaru untuk mengukur kemampuan pengembangan exploit, dan Mythos Preview menunjukkan performa terkuat
-
Perubahan kecepatan deployment patch
- Rilis terbaru Palo Alto Networks mencakup lebih dari 5 kali jumlah patch dibanding biasanya
- Microsoft menyatakan bahwa jumlah patch baru “akan terus menunjukkan tren peningkatan untuk sementara waktu”
- Oracle menemukan dan memperbaiki kerentanan di seluruh produk dan cloud mereka beberapa kali lebih cepat daripada sebelumnya
- Mythos Preview juga digunakan untuk tugas keamanan selain deteksi kerentanan; di salah satu bank mitra Glasswing, alat ini membantu mendeteksi dan memblokir transfer penipuan senilai 1,5 juta dolar AS yang dicoba setelah pelaku ancaman membobol akun email pelanggan dan bahkan menggunakan panggilan spoofing
Hasil pemindaian open source
- Dalam beberapa bulan terakhir, Anthropic memindai lebih dari 1.000 proyek open source yang menopang sebagian besar internet dan infrastruktur mereka sendiri dengan Mythos Preview
- Mythos Preview memperkirakan total 23.019 kerentanan dalam proyek-proyek ini, dengan 6.202 di antaranya dinilai berkeparahan tinggi atau kritis
-
Angka kerentanan yang telah diverifikasi
- Dari kerentanan yang dinilai berkeparahan tinggi atau kritis, 1.752 dievaluasi secara cermat oleh 6 perusahaan riset keamanan independen atau dalam beberapa kasus oleh Anthropic
- Dari jumlah tersebut, 90,6%, yaitu 1.587, dikonfirmasi sebagai temuan nyata
- Dari jumlah tersebut, 62,4%, yaitu 1.094, dipastikan berkeparahan tinggi atau kritis
- Jika menerapkan tingkat temuan nyata berdasarkan klasifikasi pasca-analisis saat ini, bahkan jika Mythos Preview tidak lagi menemukan kerentanan baru, hampir 3.900 kerentanan berkeparahan tinggi atau kritis diperkirakan akan terungkap dalam kode open source
- Anthropic berencana terus memindai kode open source untuk sementara waktu, sehingga angka ini diperkirakan akan terus meningkat
-
Contoh kerentanan wolfSSL
- wolfSSL adalah library kriptografi open source yang dikenal aman dan digunakan di miliaran perangkat di seluruh dunia
- Mythos Preview menyusun exploit yang memungkinkan penyerang memalsukan sertifikat
- Kerentanan ini memungkinkan penyerang menjalankan situs web palsu untuk bank atau penyedia email; bagi pengguna akhir situs tersebut tampak normal, padahal sebenarnya dikendalikan penyerang
- Kerentanan tersebut sudah dipatch dan telah diberi CVE-2026-5194
- Analisis teknis lengkapnya dijadwalkan dipublikasikan dalam beberapa minggu ke depan
Bottleneck verifikasi, pengungkapan, dan patch
- Mythos Preview membuat penemuan kerentanan menjadi jauh lebih mudah, tetapi bottleneck ada pada kapasitas manusia untuk mengklasifikasikan, melaporkan, merancang patch, dan melakukan deployment bug
- Anthropic memublikasikan dashboard kerentanan open source yang telah dipindai untuk melacak tiap tahap dan progres dalam proses pengungkapan terkoordinasi
- Penurunan jumlah yang besar pada setiap tahap mencerminkan beban kerja manusia yang diperlukan untuk memverifikasi dan memperbaiki setiap kerentanan satu per satu
- Anthropic atau perusahaan keamanan eksternal mereproduksi masalah yang ditemukan Mythos, menilai ulang tingkat keparahannya, memeriksa apakah sudah ada perbaikannya, lalu menulis laporan rinci untuk dikirim ke maintainer
- Para maintainer open source kini harus menangani beban pemeliharaan yang sudah ada ditambah banjir laporan bug berkualitas rendah yang dibuat AI
- Banyak maintainer memiliki kapasitas pemrosesan yang sangat terbatas, dan sebagian meminta perlambatan pengungkapan karena mereka membutuhkan waktu untuk merancang patch
- Bug berkeparahan tinggi atau kritis yang ditemukan Mythos Preview rata-rata membutuhkan 2 minggu hingga dipatch
-
Status pengungkapan dan patch
- Dalam beberapa kasus, sesuai permintaan maintainer, bug diungkapkan langsung tanpa evaluasi tambahan
- Hingga saat ini, 1.129 bug yang belum diverifikasi telah dilaporkan langsung, dan di antaranya 175 diperkirakan oleh Mythos Preview berkeparahan tinggi atau kritis
- Hingga kini, sekitar 530 bug berkeparahan tinggi atau kritis diperkirakan telah diungkapkan kepada maintainer
- Selain itu ada 827 kerentanan terkonfirmasi yang diperkirakan berkeparahan tinggi atau kritis dengan cara yang sama, dan akan diungkapkan secepat mungkin
- Dari 530 bug berkeparahan tinggi atau kritis yang telah dilaporkan, 75 sudah dipatch, dan 65 di antaranya telah diberi advisory publik
- Karena jendela 90 hari dalam Coordinated Vulnerability Disclosure policy masih berada pada tahap awal, diperkirakan lebih banyak patch akan muncul ke depan
- Beberapa kerentanan dipatch tanpa advisory publik, sehingga jumlah patch mungkin terhitung lebih rendah dari kenyataan karena perlu memindai status patch secara langsung dengan Claude
- Penemuan kerentanan kini lebih mudah tetapi perbaikannya lambat; ketimpangan ini muncul sebagai tantangan besar dalam keamanan siber, dan jika ditangani dengan baik, perangkat lunak bisa menjadi jauh lebih aman daripada sebelumnya
Respons terhadap fase baru keamanan siber
- Model dengan kemampuan keamanan siber mirip Mythos Preview diperkirakan akan segera tersedia lebih luas
- Diperlukan upaya berskala lebih besar di seluruh industri perangkat lunak untuk mengelola volume besar temuan yang akan dihasilkan model-model semacam ini
- Saat ini pun sering ada jeda panjang antara penemuan kerentanan, penulisan patch, dan waktu ketika patch tersebar luas ke pengguna akhir
- Model setingkat Mythos sangat mengurangi waktu dan biaya yang diperlukan untuk menemukan dan mengeksploitasi kerentanan, sehingga memperbesar risiko yang timbul dari jeda tersebut
- Dalam jangka panjang, model setingkat Mythos dapat membantu pengembang menangkap bug sebelum deployment sehingga perangkat lunak yang dibuat menjadi jauh lebih aman
- Namun, pada masa transisi ketika kerentanan ditemukan cepat sementara patch bergerak lambat, risiko baru akan muncul
-
Tindakan yang dibutuhkan pengembang perangkat lunak
- Pengembang harus memperpendek siklus patch dan menyediakan perbaikan keamanan secepat mungkin
- Memanfaatkan model AI yang tersedia secara publik secara hati-hati dapat membantu pekerjaan ini
- Pembaruan harus dibuat semudah mungkin untuk dipasang agar pengguna tetap menggunakan versi terbaru
- Untuk pengguna yang terus menjalankan perangkat lunak dengan kerentanan yang diketahui, dorongan pembaruan harus dibuat lebih persisten sejauh memungkinkan
-
Tindakan yang dibutuhkan defender jaringan
- Defender jaringan harus memperpendek jadwal pengujian dan deployment patch
- Kontrol inti yang direkomendasikan oleh National Institute of Standards and Technology dan National Cyber Security Centre Inggris menjadi semakin penting karena meningkatkan keamanan tanpa bergantung pada apakah patch tertentu diterapkan tepat waktu
- Ini mencakup langkah-langkah seperti memperkuat konfigurasi jaringan dasar, mewajibkan multi-factor authentication, dan menjaga log yang komprehensif untuk deteksi serta respons
Alat pertahanan yang memanfaatkan model AI publik
- Secara umum, banyak model yang tersedia publik memang tidak mampu menemukan kerentanan paling canggih atau mengeksploitasinya seefektif Claude Mythos Preview, tetapi sudah dapat menemukan banyak kerentanan perangkat lunak
- Project Glasswing mendorong berbagai organisasi untuk memeriksa codebase mereka sendiri dengan model yang dirilis publik, dan Anthropic sedang mengerjakan cara untuk mempermudahnya
-
Claude Security
- Claude Security diluncurkan dalam beta publik untuk pelanggan Claude Enterprise
- Ini adalah alat yang membantu tim memindai kerentanan di codebase dan menghasilkan usulan perbaikan
- Dalam 3 minggu setelah peluncuran, Claude Opus 4.7 digunakan untuk mematch lebih dari 2.100 kerentanan
- Perusahaan memperbaiki kode mereka sendiri, sedangkan perbaikan open source biasanya memerlukan proses pengungkapan terkoordinasi dan maintainer sukarela, sehingga kecepatan patch Claude Security lebih cepat daripada patch open source yang disebutkan sebelumnya
-
Cyber Verification Program
- Cyber Verification Program memungkinkan profesional keamanan menggunakan model Anthropic untuk tujuan keamanan siber yang sah
- Untuk penggunaan seperti riset kerentanan, penetration testing, dan aktivitas red team, model dapat digunakan tanpa sebagian safeguard pencegahan penyalahgunaan siber
-
Alat yang digunakan bersama Mythos Preview
- Alat yang digunakan Anthropic dan mitra bersama Mythos Preview disediakan berdasarkan permintaan kepada tim keamanan pelanggan yang memenuhi syarat
- Tujuannya adalah membantu mereka memanfaatkan performa model publik yang kuat dengan lebih baik tanpa konfigurasi yang rumit
- skills: instruksi kustom untuk tugas berulang yang dibuat dan dibagikan Anthropic serta para mitra
- harness: konfigurasi yang membantu Claude memetakan codebase, menjalankan sub-agen pemindaian, mengklasifikasikan temuan, dan menulis laporan
- threat model builder: memetakan codebase untuk mengidentifikasi target serangan potensial dan menentukan prioritas pekerjaan model
- Cisco adalah salah satu mitra Project Glasswing, dan baru-baru ini merilis Foundry Security Spec sebagai open source agar defender lain dapat membangun sistem evaluasi serupa milik Cisco
Dukungan ekosistem dan langkah selanjutnya
- Anthropic bermitra dengan proyek Alpha-Omega dari Open Source Security Foundation melalui kemitraan untuk membantu maintainer memproses dan mengklasifikasikan laporan bug
- Anthropic mendukung pengembangan benchmark baru ExploitBench dan ExploitGym yang dapat melacak kemampuan pengembangan exploit model frontier AI dari waktu ke waktu
- Pembahasan lebih lanjut tentang benchmark ini tersedia di Frontier Red Team blog
- Melalui External Researcher Access Program, mereka juga mendukung pengembangan benchmark kuantitatif berkualitas tinggi lainnya
- Claude for Open Source mendukung maintainer dan kontributor, dan Anthropic menyatakan akan memindai semua paket open source yang mereka adopsi sendiri di masa mendatang
- Mengingat laju perkembangan AI, model sekuat Mythos Preview diperkirakan akan segera dikembangkan oleh beberapa perusahaan AI
- Saat ini, belum ada perusahaan mana pun, termasuk Anthropic, yang berhasil mengembangkan safeguard yang cukup kuat untuk mencegah model seperti ini disalahgunakan hingga menyebabkan kerugian serius
- Karena itu, Anthropic masih belum merilis model setingkat Mythos untuk publik
- Project Glasswing dimulai dari kesadaran bahwa jika model dengan kemampuan serupa dirilis tanpa safeguard yang memadai, mengeksploitasi perangkat lunak yang cacat bisa menjadi jauh lebih murah dan mudah bagi hampir siapa pun di dunia
- Glasswing membantu defender siber yang paling penting secara sistemik memperoleh keunggulan asimetris, tetapi ada kebutuhan mendesak agar sebanyak mungkin organisasi memperkuat kemampuan pertahanan mereka
- Anthropic berencana bekerja sama dengan mitra utama, termasuk pemerintah AS dan negara sekutu, untuk memperluas Project Glasswing ke lebih banyak mitra
- Setelah mengembangkan safeguard yang jauh lebih kuat yang dibutuhkan, tujuannya adalah menyediakan model setingkat Mythos dalam bentuk rilis umum dalam waktu dekat
- Tujuan jangka panjangnya adalah menciptakan lingkungan di mana kode penting dilindungi jauh lebih kuat daripada sekarang, dan peretasan menjadi jauh lebih jarang terjadi
1 komentar
Komentar Hacker News
Kami menyalakan Codex Security sebagai eksperimen, dan dalam waktu kurang dari seminggu itu sudah menjadi alat wajib untuk seluruh tim
Akurasinya mengejutkan, menemukan banyak isu keamanan di kode yang sudah ada, dan terus menangkapnya setiap kali kami melakukan commit
Menurut standar kami, akurasinya sekitar 90%, dan bahkan item yang ditandai “Low” pun saat ditelusuri sering kali ternyata benar-benar bisa dieksploitasi
Karena kesalahan seperti ini adalah salah satu jenis bug yang dilakukan semua orang dari junior sampai senior, sepertinya ke depan alur menulis kode dengan AI, mereview dengan AI, dan mencari kerentanan dengan AI akan menjadi bagian umum dari siklus hidup pengembangan
Saya pernah mencoba pendekatan menggunakan loop iteratif yang menggali masalah dan bug di tiap tahap pengembangan, dari desain sampai coding, untuk memastikan perangkat lunak yang dihasilkan benar-benar bekerja sesuai maksud
UI-nya agak membingungkan, karena tertulis “5 scan”, tetapi 1 scan berarti memantau terus-menerus branch default dari repositori
Hampir semua temuan berdampak tinggi akurat, dan saya terutama terkesan oleh kualitas dokumentasi serta usulan perbaikannya yang sempit dan tepat sasaran
Codex biasanya terbiasa menghasilkan kode jauh lebih banyak daripada yang diperlukan, tetapi usulan perbaikan dari model keamanan ini sering kali kurang dari 10 baris dan hanya menargetkan lokasi yang tepat
Setelah beta berakhir sepertinya harganya akan cukup mahal, tetapi dari sudut pandang perusahaan, ini terasa cukup bagus hingga ingin langsung diadopsi
Untuk kode, saya cenderung berpandangan bahwa makin sedikit makin baik, jadi tren ini cukup membuat frustrasi
Bagaimana cara menghindari jebakan ini?
Dengan konfigurasi ini, hasilnya cukup bagus
Saya kurang tahu bagaimana menyelaraskan pembaruan dari Anthropic dan sebagian reaksi yang terlalu panas di sini dengan penilaian terbaru dari maintainer curl, Daniel Steinberg
“Saya tidak melihat bukti bahwa setup ini [Mythos] menemukan isu pada tingkat yang secara khusus lebih tinggi atau lebih maju dibanding alat-alat lain sebelum Mythos. Model ini mungkin sedikit lebih baik, tetapi meski begitu tidak cukup lebih baik untuk menciptakan perubahan berarti dalam analisis kode.”
https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...
Namun laporan pemerintah Inggris juga merupakan data point, begitu juga laporan Firefox, dan keduanya memberi sinyal bahwa ini memang jauh lebih baik daripada model generasi saat ini
Mungkin saja curl adalah kode yang jauh lebih diperkeras dibanding kebanyakan proyek
Bagaimanapun itu tidak terlalu penting, karena seperti yang diakui Anthropic, model level berikutnya sedang datang dan Mythos hanyalah salah satunya
Model generasi saat ini pun sudah bagus dalam melacak aliran data pada sistem yang kompleks, dan tidak ada alasan untuk menganggap kemampuan itu sudah mentok
Dalam setahun, tampaknya besar kemungkinan akan ada beberapa model komersial yang bisa menemukan kerentanan dengan murah
Sebaliknya, untuk merancang solusi atas isu semacam ini, kemajuannya tampak jauh lebih sedikit
Secara umum alat-alat memang makin baik dalam menemukan bug keamanan, dan dari pengalaman penggunaan Daniel sendiri belum jelas apakah Mythos secara khusus merupakan lompatan besar, tetapi LLM generasi Mythos jelas demikian
Hanya saja Daniel menggunakan Mythos agak tidak langsung
Kesimpulan yang saya ambil dari perdebatan Mythos adalah, a) mungkin saja Anthropic terpaksa membatasi akses Mythos karena kekurangan GPU, dan itu juga memengaruhi perhitungan apakah akan dirilis ke publik, dan b) menemukan bug dengan Mythos atau model serupa masih mahal
Jika curl mendapat eksekusi Mythos senilai 20 ribu atau 100 ribu dolar, mungkin isu yang ditemukan akan setara dengan proyek lain seperti Firefox, tetapi Daniel tidak diberi akses seperti itu
Pembaruan umum yang ia unggah hari ini di LinkedIn memberi konteks yang lebih luas
https://www.linkedin.com/feed/update/urn:li:activity:7463481...
“Bahkan belum melewati setengah dari siklus rilis curl kali ini, sudah ada 11 kerentanan terkonfirmasi, 3 lagi masih menunggu evaluasi, dan laporan baru terus masuk dengan laju lebih dari 1 per hari.”
“Mengumumkan 11 CVE dalam satu rilis adalah rekor sejak audit keamanan pertama Cure 53 pada 2016.”
“Ini periode paling intens yang saya ingat dalam sejarah curl.”
Ini sama sekali bukan kasus yang tipikal, jadi tampaknya faktor-faktor seperti itu mungkin berperan
Tentu saya tidak bisa memastikan ada bias, dan bisa saja Daniel memang benar
Bisa jadi source code curl memang sejak awal cukup bersih
Saya tidak berharap curl menjadi kasus rata-rata bagi Mythos
Ada banyak sinisme terhadap Mythos, seolah-olah “ini cuma model publik lama yang pengamannya dilepas”, tetapi angka ini terlihat berbeda
“Sebanyak 1.752 kerentanan berperingkat tinggi atau kritis telah ditinjau dengan hati-hati oleh 6 perusahaan riset keamanan independen, atau dalam sejumlah kecil kasus melalui evaluasi internal kami. Dari jumlah itu, 90,6% (1.587) terbukti valid sebagai true positive, dan 62,4% (1.094) dikonfirmasi memiliki tingkat keparahan tinggi atau kritis.”
Siapa pun yang pernah melakukan pemindaian kerentanan dengan Opus, Codex, atau model open source akan tahu bahwa rasio true positive dan jumlah temuannya jelas merupakan perubahan tingkat[0]
Sebagian besar dari sekitar 50 mitra Glasswing sebelumnya juga sudah menjalankan harness dengan model lain, dan umumnya reaksinya adalah “wow, ini berbeda”
Sekarang pertanyaannya adalah seperti apa akses tahap 2 dan 3 nantinya, dan kelas sistem apa yang akan diprioritaskan untuk dilindungi lebih dulu
Router, firewall, SaaS, ERP, pengendali pabrik, SCADA, gateway VPN zero-trust, peralatan dan jaringan telekomunikasi, hingga perangkat medis, terlalu banyak yang harus dikerjakan
Karena itu saya rasa Mythos akan tetap tertutup untuk sementara waktu
Permukaan serangan yang harus dilindungi terlalu luas, dan terlalu banyak hal yang harus diklasifikasikan, diperbaiki, dan dideploy
Ini juga mungkin cocok bagi Anthropic, karena model tertutup tidak bisa didistilasi
Selain itu ada efek runaway pada peningkatan model dari data penemuan, klasifikasi, dan perbaikan
Ini mungkin sudah menjadi korpus data serangan yang paling kuat kurasinya yang pernah dikumpulkan sejauh ini, dan akan terus membaik
Saya sulit membayangkan perusahaan Tiongkok akan mendapat akses dalam waktu dekat, atau bahkan selamanya
Bisa jadi sebentar lagi CISA akan mewajibkan audit, dan jika ingin membeli gateway VPN atau router rumahan yang tahan terhadap Mythos, Anda harus membeli produk buatan AS[1]
[0] dibanding sekitar 30% pada alat audit umum
[1] atau buatan negara sekutu
Sulit dipercaya bahwa ini tidak bisa direplikasi
Sudah ada cukup banyak data beranotasi seperti CVE dan patch, dan Mythos justru menambah jumlah itu, jadi saya kira melakukan reinforcement learning sesuai skenario ini bisa meningkatkan performa deteksi kerentanan bahkan tanpa akses ke Mythos
OpenAI pertama kali membatasi akses model dengan alasan “umat manusia belum siap”, padahal model itu cuma cukup bagus menulis puisi atau semacamnya
Sejak itu saya tidak ingat ada pengumuman model dari OAI/Anthropic yang tidak memakai frasa serupa
Model yang katanya bocor itu marketing, yang katanya berbahaya itu marketing, dan yang katanya dunia belum siap itu juga marketing
Orang-orang yang mendapat akses lalu berkata “wow” juga, percaya atau tidak, adalah marketing
Anda sudah bisa mendapatkan hasil yang sama dengan 5–10 model teratas yang tersedia secara umum
Mythos adalah cara Anthropic menjual ide baru setelah ide sebelumnya terdemokratisasi
Sepertinya kita boleh menaruh harapan besar pada Sonnet 4.8
Jika Anda masih belum menerapkan analisis statis dan linter pada codebase, pertama-tama perlu ditanyakan kenapa justru ingin menerapkan alat LLM yang mahal
Ini bukan berarti alat seperti itu tidak bisa menangkap kerentanan yang tidak tertangkap alat statis, saya rasa bisa
Hanya saja kita sebenarnya sudah punya kemampuan untuk secara otomatis menangkap area luas dari kerentanan umum, tetapi selama ini memilih untuk tidak melakukannya karena alasan seperti biaya
Jika tim yang sudah menerapkan banyak lapis analisis dan linting ingin menambahkan ini di atasnya, saya sepenuhnya mendukung
Bahkan di FAANG pun, alat analisis statis kami tidak hebat dalam mengidentifikasi berapa banyak isu yang benar-benar dapat dijangkau
Idealnya, keduanya dipakai
Akan bagus jika model AI yang memiliki analisis statis sebagai bagian dari harness mengevaluasi tiap potensi temuan
Alat yang lebih cerdas bisa membantu agar waktu engineering yang terbatas tidak terbuang
Kebanyakan orang yang melakukan ini sekarang sebelumnya memang tidak memakai alat analisis statis karena menganggapnya tambahan yang tidak perlu
Kerentanan yang ingin saya lihat diperbaiki sekarang juga hanyalah yang ada di 3.800 repositori yang dicuri dari GitHub
Dibanding “kerentanan pada perangkat lunak yang membangun internet”, prioritas yang jujur lebih tinggi adalah “platform yang dipakai perangkat lunak pembangun internet untuk membuat rilis”
Jika orang yang membeli repositori internal itu berhasil menyusup ke GitHub untuk memotong rilis perangkat lunak, atau menemukan cara mencemari GitHub Actions dari jarak jauh, kita semua akan berada dalam situasi yang sangat buruk
Jangan lupa bahwa di antara 3.800 repositori itu kemungkinan besar ada npmjs.org itu sendiri
Dengan model frontier konsumen, kami telah mengembangkan apa yang dalam legal tech kami sebut “lexploits”, dan model-model itu luar biasa hebat dalam menemukan bug di seluruh pipeline terintegrasi
Mereka juga mengejutkan bagus dalam membuat mitigasi
Kerentanan keamanan memang penting, tetapi di bidang hukum kami mengusulkan konsep keamanan pengetahuan untuk melindungi kesetiaan konteks hukum milik agen
Bug perangkat lunak dikelola oleh software engineer sehingga tampak jauh lebih mudah ditangani, sedangkan “kerentanan” pipeline yang kami cari tidak demikian
Saya menulis sedikit di sini tentang satu jalur ketika dokumen hukum tidak seperti yang tampak: https://tritium.legal/blog/noroboto
Saat ini akan ada banyak domain pengetahuan yang terekspos seperti ini, dan itu lebih mengkhawatirkan karena sebagian besar kekurangan tenaga serta dikelola oleh orang nonteknis
Bahkan tidak perlu Mythos
Kalimat “Selanjutnya kami akan bekerja sama dengan mitra utama tambahan, termasuk pemerintah AS dan negara sekutu, untuk memperluas Project Glasswing ke lebih banyak mitra” terdengar seperti berarti mereka akan menghasilkan banyak uang sebelum rilis publik
Strategi yang bagus
Sulit dipercaya
Sebagian besar yang ditemukan alat ini memang salah, dan kadang dilaporkan sebagai benar padahal kemungkinan dieksploitasi sebagai kerentanan nyata tertutup oleh lapisan atas atau bawah kode
Ini juga soal trade-off antara performa dan keamanan, dan memang selalu begitu
Pemeriksaan tambahan dan tindakan lain memang harus dilakukan untuk tujuan keamanan yang sesungguhnya
Marketing selalu bagus, tetapi pandangan terlalu optimistis yang dimiliki banyak orang terasa meleset seperti vicarious fulfillment
Jadi ini bukan kerentanan yang tidak dapat dijangkau
“Bottleneck dalam memperbaiki bug seperti ini adalah kapasitas orang untuk mengklasifikasikan, melaporkan, serta merancang dan mendeploy patch. Berkat Mythos Preview, pekerjaan menemukan pertama kalinya kini jauh lebih sederhana.”
Ini memang selalu menjadi bottleneck
Alat otomatis suka menandai kerentanan, tetapi hampir semuanya false positive, dan manusia harus mengklasifikasikan serta mengevaluasinya
Namun itu tetap baik-baik saja
Saya lebih memilih menutup false positive setelah review yang cermat daripada melewatkan semuanya sama sekali
Tidak tepat menyebut manusia sebagai bottleneck
Manusia adalah elemen esensial dalam proses, dan Mythos akan menjadi katalis bagi proses itu
Membuktikan adanya kerentanan jauh lebih sulit daripada menyelesaikannya
Hari ini cukup menyenangkan
Saya menyuruh sub-agent deepseek-v4-flash membuat patch untuk mendapatkan hak root lewat Dirty Frag pada sistem dengan AF_ALG dimatikan dan nscd dinyalakan
Exploit publik aslinya tidak berhasil, tetapi versi yang dipatch bekerja sangat baik
Saya masih percaya bahwa 100 sub-agent dengan kecerdasan yang memadai bisa mencapai hasil yang sama seperti Mythos
Suatu hari saya siap memakai Mythos langsung dan membiarkan keyakinan ini dipatahkan, dan saya kira orang lain di sini juga ada yang sudah mencoba Mythos
Jadi pertanyaannya bukan “apakah model yang lebih bodoh juga bisa melakukan ini”, melainkan jika satu exploit ditemukan oleh penalaran Mythos dengan biaya 5.000 jam GPU, maka berapa jam GPU yang dibutuhkan model yang lebih bodoh untuk melakukan hal yang sama?