- SimpleFold adalah model prediksi pelipatan protein berbasis flow-matching pertama yang diumumkan Apple sekaligus framework open-source prediksi struktur protein
- Alih-alih desain khusus domain yang kompleks, model ini mencapai performa tinggi hanya dengan layer Transformer umum dan pelatihan generatif flow-matching
- Dilatih dengan 3B (3 miliar) parameter, menjadikannya salah satu yang terbesar sejauh ini, dan menunjukkan daya saing dengan model SOTA (state-of-the-art) pada benchmark publik
- Tanpa modul struktural yang rumit (triple attention, representasi pasangan, dan lain-lain), sehingga efisien dan lebih mudah diskalakan ke dataset besar
- Model dapat di-tuning dan dilatih ulang dengan data khusus pengguna, sehingga sangat berguna untuk berbagai penggunaan nyata seperti bioinformatika dan farmasi
Pengenalan dan makna penting SimpleFold
- SimpleFold adalah model prediksi pelipatan protein berbasis flow-matching pertama yang diperkenalkan Apple
- Berbeda dari model-model utama sebelumnya, model ini hanya menggunakan layer Transformer umum tanpa triangle attention yang kompleks maupun bias representasi pair
- Dilatih dengan objektif generatif flow-matching, sehingga menunjukkan performa kuat bukan hanya pada konfigurasi tunggal tetapi juga pada prediksi ensemble
- Diskalakan hingga 3B parameter, lalu dilatih secara besar-besaran dengan menggabungkan lebih dari 8,6 juta data protein dan data PDB berbasis eksperimen
- Ini merupakan model pelipatan protein terbesar yang pernah diumumkan hingga saat ini
Fitur utama dan keunggulan
- Generalis: dapat diterapkan ke beragam domain dan dataset tanpa batasan khusus
- Efisien: karena tidak memiliki komponen khusus domain yang rumit, model ini unggul dalam kecepatan pelatihan dan inferensi serta ukuran model
- Skalabilitas: menyediakan berbagai ukuran dari 100M hingga 3B parameter, serta mendukung GPU dan MLX (PyTorch/Apple hardware)
- Pelatihan generatif: mendukung prediksi ensemble yang menghasilkan beberapa hasil prediksi sekaligus
- Mendukung data pengguna: bebas untuk dilatih ulang, di-tuning, dan digunakan secara kustom dengan dataset sendiri
Contoh penggunaan dan dukungan
- Menyediakan contoh Jupyter Notebook (
sample.ipynb), sehingga prediksi struktur bisa langsung dijalankan dengan input sekuens protein nyata
- Inferensi performa tinggi: dari antarmuka baris perintah, pengguna dapat memilih ukuran model, menentukan backend inferensi (MLX, PyTorch), serta memperoleh file hasil dan metrik kepercayaan (pLDDT)
- Hasil dataset benchmark: menyediakan dan membuka hasil prediksi SimpleFold pada set evaluasi standar (CAMEO22, CASP14, dan lain-lain)
- Evaluasi: menyediakan skrip evaluasi yang terhubung dengan alat yang sudah ada seperti OpenStructure dan TMscore, sehingga memungkinkan berbagai evaluasi prediksi struktur
Pelatihan dan persiapan data
- Untuk data pelatihan, digunakan data eksperimen PDB serta lebih dari 8,6 juta struktur protein terkurasi seperti AFDB SwissProt/AFESM/AFESM-E
- Daftar data (target list) dan file sampel juga dibuka bersama-sama untuk mendukung peneliti membangun dataset yang disesuaikan
- Pra-pemrosesan file MMCIF, pemanfaatan Redis, dan file konfigurasi berbasis Hydra memungkinkan lingkungan eksperimen disiapkan dengan mudah
- Menyediakan skrip pelatihan contoh (
train.py, train_fsdp.py) dan konfigurasi
Open source dan sitasi
- Dirilis dengan lisensi MIT, sehingga dapat digunakan secara bebas untuk riset maupun komersial di mana saja
- Kode dan model mencakup kontribusi dari berbagai open source dan kolaborator, rincian lebih lanjut dapat dilihat di ACKNOWLEDGEMENTS
- Saat digunakan, mohon sitasi makalah arXiv (Arxiv:2509.18480)
Kesimpulan
- SimpleFold menghadirkan paradigma baru di industri dengan pendekatan yang sederhana namun kuat, menggantikan struktur kompleks yang selama ini diandalkan model prediksi struktur protein
- Khususnya, melalui kombinasi arsitektur Transformer umum dan pelatihan generatif, model ini menjanjikan beragam aplikasi kreatif dalam ilmu hayati, pengembangan obat, dan bioinformatika
1 komentar
Opini Hacker News
Hal yang mudah terlewat di sini adalah bahwa model yang "sederhana" ini sebenarnya tidak belajar pelipatan langsung dari struktur eksperimental. Sebagian besar data latihnya berasal dari prediksi bergaya AlphaFold, yang sendiri terdiri dari jutaan struktur protein yang dihasilkan oleh model besar berbasis MSA yang dirancang dengan kompleks. Artinya, kita tidak benar-benar bisa membuang semua inductive bias dan alat MSA; seseorang tetap harus membangun dan menjalankan model-model itu untuk membuat data pelatihan
Pelajaran yang saya ambil dari sini adalah kesederhanaan dan skalabilitas. Di bidang machine learning, sering kali muncul modul yang makin kompleks untuk mendorong performa, lalu tiba-tiba ada terobosan model sederhana yang bisa menyaingi model rumit. Fakta bahwa arsitektur "sederhana" seperti ini bisa bekerja sebaik itu sendiri juga berarti mungkin masih bisa melangkah lebih jauh lagi dengan menambahkan kembali kompleksitas. Sekarang saya jadi penasaran apakah MSA bisa dimasukkan lagi, dan sejauh apa itu bisa dibawa. Sejauh yang saya pahami, model generatif "kasar" menghasilkan beberapa tebakan yang cukup baik, lalu "validator" yang lebih formal memastikan hukum fisika/geometri tetap dipatuhi. AI memperkecil ruang pencarian yang besarnya sulit dibayangkan, sehingga simulasi mahal tidak terbuang di area yang tidak berguna. Kalau jaringan penebaknya membaik, seluruh proses jadi lebih cepat. Kalau melihat ke belakang, saya teringat recurrent network dengan transfer function yang makin rumit, rantai prapemrosesan rumit sebelum skip-forward layer, tujuan normalisasi kompleks sebelum ReLU, jaringan GAN dengan objective majemuk sebelum diffusion, model multipath kompleks sebelum fully convolutional network, dan sebagainya. Dalam konteks itu, saya sangat bersemangat dengan riset ini bukan karena ini arsitektur yang optimal, melainkan justru karena kemungkinan besar bukan
Saya tidak yakin ini sesuatu yang aneh. Hampir semua hal yang sederhana dulu pernah dianggap rumit. Itulah emergence, dan biasanya untuk menemukan rumus umum yang sederhana, kita memang harus melewati semua kerumitannya lebih dulu. Juga cukup jelas bahwa fenomena alam sebenarnya muncul dari aturan yang relatif sederhana. Mirip seperti mencoba menebak balik aturan dan nilai awal pada Game of Life. Siapa pun yang bilang itu mudah mungkin terlalu percaya diri. Tapi hampir tak ada orang yang sungguh percaya bahwa P=NP
AlphaFold adalah model yang divalidasi dengan pengamatan eksperimental protein terlipat melalui sinar-X
Betul. Sekadar untuk yang belum tahu, MSA dipakai untuk melakukan generalisasi dari struktur PDB yang sudah ada ke sekuens baru. Kalau Anda melatih pada hasil AlphaFold2, hasil generalisasi itu sudah ikut terkandung di dalamnya, sehingga model sekarang tidak lagi perlu memiliki kemampuan itu sendiri (praktis cukup menghafal). Kesimpulan sederhana ini tampaknya terlewat oleh para penulis makalah
Saya pertama kali mengenal pelipatan protein lewat proyek Folding@Home(https://foldingathome.org) saat tinggal di asrama kampus, ketika listrik nyaris gratis dan server media berlebih. Saya bukan ahli, tapi saya penasaran apakah di hardware masa kini pelipatan protein memang sudah jauh lebih disederhanakan dibanding dulu, atau ini hanya berlaku untuk masalah tertentu. Proyek Folding@Home juga tampaknya masih ada
Setahu saya Folding@Home adalah solver simulasi berbasis fisika, sedangkan AlphaFold dan turunannya (termasuk yang dibahas di sini) adalah metode statistik. Metode statistik jauh lebih murah secara komputasi, tetapi karena bertumpu pada pelipatan protein yang sudah ada, kemampuan prediksinya lemah jika proteinnya tidak mirip dengan yang ada di set pelatihan. Jadi ada trade-off antara kecepatan dan generalitas, tetapi performanya sudah naik cukup jauh sehingga struktur lipatan protein yang diinginkan kini umumnya bisa diperkirakan. Prediksi lipatan yang dulu nyaris mustahil sekarang sudah menjadi bagian dari workflow biasa
Saya juga menikmati SETI@Home, dan walaupun tidak 100% tahu hasilnya apa, efek visualisasinya sangat mencolok dan menyenangkan
Menurut posting blog F@H (tautan), mengetahui dinamika pelipatan, bukan hanya bentuk akhir yang terlipat, tetap penting. Protein yang diprediksi dengan ML juga masih menjadi target penting untuk validasi simulasi dan memahami mekanisme kerjanya
Folding@Home masih sangat aktif dan selama ini telah menghasilkan banyak penemuan hebat (tautan makalah/hasil)
Isi makalah ini adalah "cara kami lebih sederhana daripada model state of the art". Tapi mereka tidak terlalu menonjolkan bahwa "kami tertinggal cukup jauh dari state of the art pada semua metrik". Mungkin memang sulit menerbitkan makalah, tetapi kalau diunggah sebagai preprint dengan nama perusahaan besar, tampaknya lebih mudah menarik perhatian
Repositori GitHub yang ditautkan dari artikel ini benar-benar layak dibaca (tautan arXiv)
Bahkan dari abstraknya saja (kalau saya membacanya dengan benar), intinya adalah, "AI tetap dibutuhkan, tetapi jumlah AI yang diperlukan jauh lebih sedikit daripada metode lain"
Saya juga bagikan tautan GitHub-nya untuk yang tertarik (apple/ml-simplefold)
Saya penasaran kenapa Apple mengerjakan pelipatan protein
Apple juga punya grup riset ML. Mereka jelas tidak hanya mengerjakan riset yang khas Apple, tetapi juga berbagai tema seperti optimisasi umum dan riset dasar (Apple Machine Learning Research)
Saya juga tidak tahu. Tapi saya ingin melamar ke posisi R&D yang tidak harus diharapkan menghasilkan pendapatan langsung. Mungkin proyek seperti ini dipakai sebagai sarana uji untuk mengeksplorasi/menyempurnakan chip AI mereka sendiri
Saya rasa ini soal inferensi lokal. Apple tampaknya ingin mengecilkan model mutakhir seperti ini agar bisa melakukan inferensi cepat di desktop. Di makalahnya, hasil inferensi pada M2 Max 64GB juga muncul di Figure 1E. Sebenarnya ide ini sangat bagus. Perusahaan farmasi kecil pun bisa melewati banyak hambatan berkat kemampuan inferensi lokal yang cepat. Anda juga bisa bereksperimen dengan Bayesian optimization atau RL pada sekuens yang dihasilkan. Sebagai perbandingan, AlphaFold membutuhkan sumber daya yang cukup besar. Selain itu, penggunaan multiple sequence alignment sendiri agak dipaksakan, performanya menurun jika tidak ada protein serupa, dan prapemrosesannya juga sangat berat. ESM dari Meta (beberapa tahun lalu) juga sudah membuktikan bahwa tanpa alignment pun hasilnya bisa bagus. AlphaFold tidak punya sihir khusus; ini pada dasarnya hanya masalah seq2seq, jadi banyak pendekatan bisa bekerja baik. Termasuk attention-free SSMs.
Untuk menjual komputer? Dua puluh tahun lalu pun Apple pernah mengadakan sesi poster ilmiah di WWDC dan berupaya mem-porting PyMol ke Mac. Gambar protein dalam makalah itu dibuat dengan PyMol, dan selama 15 tahun terakhir lebih dari separuh gambar di makalah ilmiah dibuat dengan PyMol
Saya tidak tahu apakah itu alasan sebenarnya, tetapi cukup banyak proyek "ai for science" sebenarnya adalah pemasaran. Walaupun tidak memberi manfaat langsung pada produk perusahaan atau tidak menghasilkan dampak nyata, proyek seperti ini tetap sangat membantu "status merek"
Sejak AlphaFold dirilis, saya penasaran apakah simulasi molecular dynamics (MD) klasik sekarang jadi tidak berguna lagi di bidang pelipatan protein. Apakah riset dari tempat seperti DESRES masih langsung berkaitan dengan pelipatan protein, atau sebenarnya mereka meneliti hal yang sama sekali berbeda
MD mempelajari pergerakan atom, sedangkan AlphaFold hanya memberi snapshot hasil akhir. Jadi AlphaFold tidak menangani dinamika. Inti MD tetap pada gerakannya
Saya sempat mencari tahu karena penasaran bahwa parameter AlphaFold V3 hanya diberikan kepada organisasi tertentu (khusus penggunaan nonkomersial) dan tidak bisa diperoleh semua orang (parameter V3), sedangkan parameter AlphaFold V2 bisa diunduh siapa saja (parameter V2)
MD sejak awal memang bukan metode yang benar-benar cocok untuk prediksi struktur. Bukan jadi tidak berguna karena AlphaFold; sejak dulu MD lebih berguna untuk mempelajari pelipatan protein itu sendiri (proses sebelum struktur akhir terbentuk, atau gerakan sistematis setelah terlipat)
Saya penasaran gambar protein apa yang ada di makalah, lalu saya cari: "Figure 1 Prediksi SimpleFold… hasil aktual berwarna emerald terang, prediksi berwarna teal tua". Tapi saya malah jadi lebih penasaran kenapa mereka memilih kombinasi warna itu
Akan bagus kalau ada ahli yang menilai apa arti pendekatan ini bagi riset pelipatan protein. Risetnya tampak keren, tetapi saya tidak begitu tahu dampak nyatanya
Model ini sederhana dalam representasinya sehingga hanya memakai transformer. Berbagai teori dan alat yang sudah disesuaikan untuk transformer bisa langsung dipakai, dan yang terpenting model ini mudah diskalakan. Yang lebih penting lagi adalah bahwa ternyata tidak ada sihir di AlphaFold. Bukan detail arsitektur atau metode pelatihannya yang paling menentukan, melainkan pada akhirnya melatih model besar di atas dataset besar. Banyak orang yang bereksperimen dengan AlphaFold mengamati bahwa, mirip LLM, ia bekerja baik pada input yang serupa dengan dataset pelatihan, tetapi hampir tidak benar-benar melakukan generalisasi
Modelnya mungkin akan berubah di masa depan. Pendapat seseorang ini mungkin layak dibaca (SimpleFold dan masa depan prediksi struktur protein). Tetapi riset selalu butuh waktu, dan dampak nyata biasanya baru bisa dinilai setelah beberapa bulan atau beberapa tahun. Prediksi masa depan memang terbatas
Ini memang bukan hal yang sepenuhnya baru, tetapi sangat mengesankan melihat tren model pelipatan protein yang makin sederhana. Dari AF2 ke AF3 kompleksitas model juga menurun, dan riset ini melangkah satu tahap lebih jauh lagi dalam menerapkan 'bitter lesson'
Teknik flow-matching yang dibahas di makalah ini benar-benar menarik. Saya mengenalnya saat mempelajarinya dalam konteks AI generatif, dan rasanya luar biasa melihat teknik yang meminjam konsep termodinamika serta gerak Brown kembali dipakai dengan sangat pas untuk menyelesaikan masalah pelipatan protein ini