1 poin oleh GN⁺ 2025-06-27 | 2 komentar | Bagikan ke WhatsApp
  • Google DeepMind memperkenalkan model AI urutan DNA baru bernama AlphaGenome
  • Model ini meningkatkan presisi dalam memprediksi efek varian regulasi gen dan dapat memprediksi berbagai proses regulasi gen
  • Ciri utamanya adalah menerima masukan urutan DNA panjang hingga 1 juta pasangan basa dan memprediksi berbagai fenomena biologis dalam resolusi tinggi
  • Berbeda dari model sebelumnya, model ini dapat sekaligus mengevaluasi dampak varian pada berbagai jaringan biologis dan tipe sel
  • AlphaGenome diharapkan membantu peneliti memahami fungsi gen dan biologi penyakit, serta mempercepat penemuan terapi baru

Pengenalan AlphaGenome

  • Google DeepMind memperkenalkan model AI urutan DNA baru bernama AlphaGenome
  • Dengan memprediksi secara presisi efek varian tunggal atau mutasi yang memengaruhi regulasi gen, model ini menghadirkan titik balik penting bagi riset fungsi genom dan pemahaman penyakit
  • Sudah tersedia lebih awal untuk keperluan riset melalui API, dan modelnya juga direncanakan akan dirilis ke depan

Cara Kerja AlphaGenome

  • AlphaGenome menerima masukan urutan DNA panjang hingga 1 juta pasangan basa dan memprediksi berbagai karakteristik molekuler
  • Karakteristik yang dapat diprediksi mencakup ribuan hal seperti posisi gen, jumlah produksi RNA, aksesibilitas DNA, dan lokasi pengikatan protein
  • Model ini dilatih menggunakan data publik berskala besar seperti ENCODE, GTEx, 4D Nucleome, dan FANTOM5
  • Secara internal, model ini terlebih dahulu mendeteksi pola pendek dengan lapisan konvolusi, lalu menggabungkan informasi di seluruh urutan dengan transformer, sebelum menghasilkan beragam nilai prediksi
  • Pelatihan dibuat lebih efisien dengan memproses komputasi skala besar di lingkungan TPU terdistribusi
  • Sebagai pengembangan dari model Enformer sebelumnya, dan berbeda dari AlphaMissense yang khusus untuk wilayah pengode protein, model ini juga menganalisis secara menyeluruh wilayah non-coding (98% dari seluruh genom)

Keunggulan AlphaGenome

  • Analisis urutan jarak jauh dengan resolusi ultra-tinggi: menganalisis dalam satuan 1 juta pasangan basa dan memberikan hasil dengan presisi hingga tingkat satu basa
  • Memiliki efisiensi pelatihan yang lebih tinggi daripada model sebelumnya, sehingga dapat belajar lebih cepat dengan sumber daya lebih sedikit
  • Prediksi multimodal terintegrasi: memprediksi sekaligus informasi dari berbagai tahap regulasi gen dalam satu model
  • Skoring varian yang efisien: langsung membandingkan urutan bermutasi dan urutan normal untuk cepat menghitung dampak varian pada berbagai fenomena biologis
  • Pemodelan sambungan splicing yang inovatif: secara langsung memprediksi lokasi splicing gen dan tingkat ekspresinya, sehingga juga berkontribusi pada riset penyakit langka

Kinerja Mutakhir dan Hasil Benchmark

  • AlphaGenome mencapai kinerja yang melampaui atau setara dengan model-model terbaik eksternal pada 22 dari 24 benchmark prediksi genom, serta 24 dari 26 evaluasi efek regulasi varian
  • Dibanding model yang dioptimalkan untuk tugas individual, ini adalah satu-satunya model yang dapat memprediksi berbagai bentuk karakteristik biologis sekaligus dalam satu panggilan API

Keuntungan Model Terintegrasi

  • Karena dapat menangani banyak modalitas secara terpadu, ilmuwan dapat dengan cepat mengulang berbagai hipotesis dan eksperimen
  • Dengan mempelajari representasi umum dari urutan DNA, model ini memudahkan komunitas untuk melakukan pelatihan lanjutan dan optimasi tambahan
  • Menyediakan fleksibilitas dan skalabilitas yang dapat diperluas dengan penambahan data atau cakupan penerapan

Makna sebagai Alat Riset yang Kuat

  • Pemahaman penyakit: berpotensi digunakan untuk mengidentifikasi penyebab penyakit seperti varian langka dan mencari target terapi
  • Biologi sintetis: dapat dimanfaatkan untuk merancang DNA sintetis dengan fungsi tertentu
  • Riset dasar: mendukung pemetaan elemen fungsi inti genom dan penemuan elemen regulasi spesifik per sel
  • Dalam praktiknya, AlphaGenome memprediksi bahwa varian terkait T-ALL (leukemia limfoblastik akut) menyebabkan aktivasi gen TAL1 di sekitarnya melalui pembentukan motif pengikatan DNA MYB, sehingga berhasil mereplikasi mekanisme dampak varian tersebut terhadap gen penyakit

Keterbatasan Saat Ini

  • Memahami efek elemen regulasi yang sangat jauh yang berjarak lebih dari 100 ribu basa masih menjadi tantangan
  • Pengenalan pola spesifik sel dan jaringan juga masih memerlukan riset tambahan
  • Penggunaan untuk prediksi genom individual (diagnosis dan prediksi yang dipersonalisasi) saat ini belum dipertimbangkan
  • Hanya dapat melakukan prediksi pada tingkat molekuler dan belum sepenuhnya menjelaskan penyebab kompleks dari semua penyakit
  • Saat ini masih pada tahap publikasi untuk riset, sehingga evaluasi kelayakan klinis langsung maupun penerapan terapi belum dimungkinkan

Dukungan Komunitas dan Arah ke Depan

  • API dapat segera digunakan untuk riset nonkomersial, dan ada rencana meningkatkan pemanfaatan AlphaGenome melalui kolaborasi luas dengan komunitas riset
  • Umpan balik dan contoh penggunaan dikumpulkan melalui forum komunitas dan sarana lain
  • Model ini direncanakan berkembang menjadi versi yang diperluas dengan tambahan lebih banyak data, spesies, dan modalitas
  • Diharapkan dapat mendorong inovasi baru dalam riset medis dan ilmu hayati terkait interpretasi genom

Penutup

  • AlphaGenome adalah alat analisis genom berbasis AI baru yang dapat menafsirkan makna varian genetik dari berbagai sudut pandang sekaligus, serta mempercepat riset dasar maupun klinis
  • Dengan bekerja sama dengan kelompok pakar eksternal, ada rencana untuk menyebarluaskan inovasi berbasis data genom kepada sebanyak mungkin orang

2 komentar

 
galadbran 2025-06-27

Saya jadi penasaran, dalam konteks multimodalitas pada model AI yang menangani prediksi gen, modalitas apa saja yang dimaksud? Saat saya tanyakan ke o3, katanya hal-hal seperti tingkat transkripsi, posisi awal dan akhir transkripsi, splicing, dan sebagainya juga dianggap sebagai modalitas.

 
GN⁺ 2025-06-27
Komentar Hacker News
  • Terlihat sebagai sinyal bahwa tekanan dari korporasi makin besar: meski ini model yang bisa dijalankan di satu A100, mereka tidak membuka kode maupun parameternya dan hanya menjalankannya di balik API, sementara di halaman 31 makalah seluruh model ditempel sebagai pseudocode; harapannya kepada Google/Demis/Sergei setidaknya rilis parameternya saja. Rasanya model sekecil ini tidak mungkin menyembuhkan kanker kalau hanya ada di balik API, dan sepertinya juga tidak akan menghasilkan banyak pendapatan GCloud.

  • Ada harapan muncul terobosan di bidang simulasi sel, sehingga bisa terwujud simulasi yang berguna seperti dinamika molekuler namun tetap memungkinkan dijalankan di superkomputer modern. Ketidakmampuan melihat apa yang terjadi di dalam sel dinilai sebagai hambatan besar dalam riset ilmu hayati.

    • Arc sedang benar-benar mencoba mengerjakan ini; detailnya bisa dilihat di berita terkait di arcinstitute.org
    • Ada yang berpikir komputasi kuantum bisa menyelesaikan bagian ini, tetapi mungkin masih sekitar 10 tahun lagi; percepatan oleh AI sulit diprediksi
    • Harapannya ada lebih banyak upaya untuk membuat simulasi deterministik yang sesungguhnya; pendekatan yang menampakkan proses internal dianggap lebih penting daripada black box yang hanya menunjukkan hasil
  • Bukan hanya DeepMind yang mengerjakan riset aplikasi AI berdampak tinggi, tetapi menarik bahwa mereka sangat menonjol di bidang ini; muncul pertanyaan apakah itu karena marketing teknologinya sangat bagus atau ada alasan lain.

    • Makalah kali ini dinilai riset yang dibuat dengan baik, tetapi sulit disebut inovasi revolusioner karena upaya serupa sudah berlangsung lama
    • DeepMind sudah lama mengerjakan hal ini dan didukung sumber daya Google yang sangat besar; menurut perplexity, pembangunan basis data alphafold 2 membutuhkan “jutaan jam GPU”
    • Di bidang ilmu hayati, Arc Institute sedang mengerjakan riset yang sangat segar; di antara perusahaan farmasi, Genentech atau GSK juga menghasilkan capaian bagus lewat grup AI mereka
    • Karena ini organisasi di bawah Google, dukungan dari perusahaan bernilai 2 triliun dolar jelas memberi keuntungan lebih dari sekadar marketing
  • Menarik membayangkan ukuran input diperluas ke 3.2Gbp, sebesar genom manusia penuh, karena tampaknya akan muncul interaksi yang menarik; juga menarik bahwa U-net dan transformer menjadi pusat banyak riset.

    • Namun secara praktis rasanya tidak perlu lebih dari 2 megabase, karena genom bukan satu urutan kontinu; ia terpisah dan terorganisasi secara fisik pada tingkat kromosom dan topologically associated domain, dan sekitar 2 megabase sudah mencakup hampir seluruh rentang interaksi utama antara cis regulatory element dan effector gene
    • Menanggapi komentar bahwa “semuanya berputar di sekitar U-net dan transformer”, ada yang menyebut perspektif “orang yang hanya punya palu”
  • Di dalam perusahaan, kemungkinan juga akan muncul ide menggunakan data genom untuk meningkatkan efektivitas iklan; misalnya jika terlihat risiko kanker usus besar, tampilkan iklan “suplemen kesehatan usus besar”, atau analisis kecenderungan dari informasi genetik lalu membuat strategi pemasaran seperti “gen ini berkorelasi dengan kecenderungan menyukai humor gelap, promosikan film baru ke orang-orang yang punya gen ini”

  • Lompatan besar dalam performa prediksi RNA diperkirakan akan membuka peluang besar bagi lab mRNA.

    • (Balasan langsung berikutnya: menurut saya poin ini bisa terlihat lebih jelas di luar Amerika Serikat)
  • Tak lama setelah bergabung ke Google pada 2008, ada yang sudah mendorong investasi besar di bidang ilmu hayati. Ia yakin Google bisa menghasilkan capaian kelas dunia dalam pemrosesan data dan ML, lalu membantu agar metode itu bisa direplikasi oleh biolog lain juga. Lewat exacycle, mereka benar-benar menghasilkan hasil menarik dalam protein folding/desain, lalu melanjutkannya dengan peluncuran Cloud Genomics untuk layanan penyimpanan/analisis dataset skala besar. Pada akhirnya DeepMind mewujudkan tujuan yang dulu ia bayangkan dengan cara yang jauh lebih keren, dan makalah terbaru ini punya sangat banyak hal untuk dilihat sehingga komunitas mungkin butuh waktu untuk mencerna isinya.

    • Ada yang setuju bahwa Sundar bukan pemimpin yang menginspirasi sebagai CEO Google, tetapi sebelum masa jabatannya laba kuartalan ada di 3B pada 2015, lalu menjadi 35B pada kuartal 1 2025, berarti tumbuh 10 kali lipat; ia dianggap ahli bisnis iklan yang membawa profitabilitas saat ini. Transisi AI memang sedikit terlambat, tetapi dinilai tetap kompetitif lewat gemini dan lain-lain, dan DeepMind juga pencapaian besar; penilaian ringkasnya, “Sundar tidak terlalu hype, tapi eksekusinya luar biasa”
    • Ada yang merasa komentar “senang karena cita-cita lama akhirnya terwujud” terdengar cukup narsistis; banyak orang juga punya ide hebat, tetapi tetap terasa canggung jika berkata seperti “akhirnya! ideku hadir di dunia…”
    • Ada yang bertanya apakah dulu pernah mengobrol soal topik ini di shuttle Santa Cruz; percakapan waktu itu sangat menarik, dan kemunculan AlphaGenome masih terasa menggairahkan
    • Dari sudut pandang Googler saat ini, penilaian terhadap Sundar terasa sangat campur aduk; investasinya sejak awal pada infrastruktur dan alat untuk AI diakui, tetapi ada yang merasa Jeff Dean pantas mendapat lebih banyak kredit daripada Demis
  • Mengecewakan bahwa makalah ini mengabaikan salah satu masalah terbesar, yaitu membedakan varian yang benar-benar kausal dan yang tidak kausal di antara segmen DNA yang sangat berkorelasi satu sama lain—pekerjaan yang dalam genetika disebut fine mapping. Untuk target obat yang efektif, sangat penting mempersempit secara tepat area regulasi inti yang relevan. Sebuah makalah Nature terbaru memuat contoh masalah ini dan kasus yang tersambung sampai kandidat obat untuk regulasi fungsi makrofag pada autoimun.

    • Ada yang penasaran apakah hasil kali ini membuat kita lebih dekat ke arah itu; meski tidak terlalu ahli, rasanya jika prediksi fungsi membaik maka akan lebih mudah membedakan varian yang benar-benar penting dari yang tidak bermakna, dan langkah berikutnya kemungkinan adalah integrasi dengan metode statistical fine mapping yang tepat