- Google DeepMind memperkenalkan model AI urutan DNA baru bernama AlphaGenome
- Model ini meningkatkan presisi dalam memprediksi efek varian regulasi gen dan dapat memprediksi berbagai proses regulasi gen
- Ciri utamanya adalah menerima masukan urutan DNA panjang hingga 1 juta pasangan basa dan memprediksi berbagai fenomena biologis dalam resolusi tinggi
- Berbeda dari model sebelumnya, model ini dapat sekaligus mengevaluasi dampak varian pada berbagai jaringan biologis dan tipe sel
- AlphaGenome diharapkan membantu peneliti memahami fungsi gen dan biologi penyakit, serta mempercepat penemuan terapi baru
Pengenalan AlphaGenome
- Google DeepMind memperkenalkan model AI urutan DNA baru bernama AlphaGenome
- Dengan memprediksi secara presisi efek varian tunggal atau mutasi yang memengaruhi regulasi gen, model ini menghadirkan titik balik penting bagi riset fungsi genom dan pemahaman penyakit
- Sudah tersedia lebih awal untuk keperluan riset melalui API, dan modelnya juga direncanakan akan dirilis ke depan
Cara Kerja AlphaGenome
- AlphaGenome menerima masukan urutan DNA panjang hingga 1 juta pasangan basa dan memprediksi berbagai karakteristik molekuler
- Karakteristik yang dapat diprediksi mencakup ribuan hal seperti posisi gen, jumlah produksi RNA, aksesibilitas DNA, dan lokasi pengikatan protein
- Model ini dilatih menggunakan data publik berskala besar seperti ENCODE, GTEx, 4D Nucleome, dan FANTOM5
- Secara internal, model ini terlebih dahulu mendeteksi pola pendek dengan lapisan konvolusi, lalu menggabungkan informasi di seluruh urutan dengan transformer, sebelum menghasilkan beragam nilai prediksi
- Pelatihan dibuat lebih efisien dengan memproses komputasi skala besar di lingkungan TPU terdistribusi
- Sebagai pengembangan dari model Enformer sebelumnya, dan berbeda dari AlphaMissense yang khusus untuk wilayah pengode protein, model ini juga menganalisis secara menyeluruh wilayah non-coding (98% dari seluruh genom)
Keunggulan AlphaGenome
- Analisis urutan jarak jauh dengan resolusi ultra-tinggi: menganalisis dalam satuan 1 juta pasangan basa dan memberikan hasil dengan presisi hingga tingkat satu basa
- Memiliki efisiensi pelatihan yang lebih tinggi daripada model sebelumnya, sehingga dapat belajar lebih cepat dengan sumber daya lebih sedikit
- Prediksi multimodal terintegrasi: memprediksi sekaligus informasi dari berbagai tahap regulasi gen dalam satu model
- Skoring varian yang efisien: langsung membandingkan urutan bermutasi dan urutan normal untuk cepat menghitung dampak varian pada berbagai fenomena biologis
- Pemodelan sambungan splicing yang inovatif: secara langsung memprediksi lokasi splicing gen dan tingkat ekspresinya, sehingga juga berkontribusi pada riset penyakit langka
Kinerja Mutakhir dan Hasil Benchmark
- AlphaGenome mencapai kinerja yang melampaui atau setara dengan model-model terbaik eksternal pada 22 dari 24 benchmark prediksi genom, serta 24 dari 26 evaluasi efek regulasi varian
- Dibanding model yang dioptimalkan untuk tugas individual, ini adalah satu-satunya model yang dapat memprediksi berbagai bentuk karakteristik biologis sekaligus dalam satu panggilan API
Keuntungan Model Terintegrasi
- Karena dapat menangani banyak modalitas secara terpadu, ilmuwan dapat dengan cepat mengulang berbagai hipotesis dan eksperimen
- Dengan mempelajari representasi umum dari urutan DNA, model ini memudahkan komunitas untuk melakukan pelatihan lanjutan dan optimasi tambahan
- Menyediakan fleksibilitas dan skalabilitas yang dapat diperluas dengan penambahan data atau cakupan penerapan
Makna sebagai Alat Riset yang Kuat
- Pemahaman penyakit: berpotensi digunakan untuk mengidentifikasi penyebab penyakit seperti varian langka dan mencari target terapi
- Biologi sintetis: dapat dimanfaatkan untuk merancang DNA sintetis dengan fungsi tertentu
- Riset dasar: mendukung pemetaan elemen fungsi inti genom dan penemuan elemen regulasi spesifik per sel
- Dalam praktiknya, AlphaGenome memprediksi bahwa varian terkait T-ALL (leukemia limfoblastik akut) menyebabkan aktivasi gen TAL1 di sekitarnya melalui pembentukan motif pengikatan DNA MYB, sehingga berhasil mereplikasi mekanisme dampak varian tersebut terhadap gen penyakit
Keterbatasan Saat Ini
- Memahami efek elemen regulasi yang sangat jauh yang berjarak lebih dari 100 ribu basa masih menjadi tantangan
- Pengenalan pola spesifik sel dan jaringan juga masih memerlukan riset tambahan
- Penggunaan untuk prediksi genom individual (diagnosis dan prediksi yang dipersonalisasi) saat ini belum dipertimbangkan
- Hanya dapat melakukan prediksi pada tingkat molekuler dan belum sepenuhnya menjelaskan penyebab kompleks dari semua penyakit
- Saat ini masih pada tahap publikasi untuk riset, sehingga evaluasi kelayakan klinis langsung maupun penerapan terapi belum dimungkinkan
Dukungan Komunitas dan Arah ke Depan
- API dapat segera digunakan untuk riset nonkomersial, dan ada rencana meningkatkan pemanfaatan AlphaGenome melalui kolaborasi luas dengan komunitas riset
- Umpan balik dan contoh penggunaan dikumpulkan melalui forum komunitas dan sarana lain
- Model ini direncanakan berkembang menjadi versi yang diperluas dengan tambahan lebih banyak data, spesies, dan modalitas
- Diharapkan dapat mendorong inovasi baru dalam riset medis dan ilmu hayati terkait interpretasi genom
Penutup
- AlphaGenome adalah alat analisis genom berbasis AI baru yang dapat menafsirkan makna varian genetik dari berbagai sudut pandang sekaligus, serta mempercepat riset dasar maupun klinis
- Dengan bekerja sama dengan kelompok pakar eksternal, ada rencana untuk menyebarluaskan inovasi berbasis data genom kepada sebanyak mungkin orang
2 komentar
Saya jadi penasaran, dalam konteks multimodalitas pada model AI yang menangani prediksi gen, modalitas apa saja yang dimaksud? Saat saya tanyakan ke o3, katanya hal-hal seperti tingkat transkripsi, posisi awal dan akhir transkripsi, splicing, dan sebagainya juga dianggap sebagai modalitas.
Komentar Hacker News
Terlihat sebagai sinyal bahwa tekanan dari korporasi makin besar: meski ini model yang bisa dijalankan di satu A100, mereka tidak membuka kode maupun parameternya dan hanya menjalankannya di balik API, sementara di halaman 31 makalah seluruh model ditempel sebagai pseudocode; harapannya kepada Google/Demis/Sergei setidaknya rilis parameternya saja. Rasanya model sekecil ini tidak mungkin menyembuhkan kanker kalau hanya ada di balik API, dan sepertinya juga tidak akan menghasilkan banyak pendapatan GCloud.
Ada harapan muncul terobosan di bidang simulasi sel, sehingga bisa terwujud simulasi yang berguna seperti dinamika molekuler namun tetap memungkinkan dijalankan di superkomputer modern. Ketidakmampuan melihat apa yang terjadi di dalam sel dinilai sebagai hambatan besar dalam riset ilmu hayati.
Bukan hanya DeepMind yang mengerjakan riset aplikasi AI berdampak tinggi, tetapi menarik bahwa mereka sangat menonjol di bidang ini; muncul pertanyaan apakah itu karena marketing teknologinya sangat bagus atau ada alasan lain.
Menarik membayangkan ukuran input diperluas ke 3.2Gbp, sebesar genom manusia penuh, karena tampaknya akan muncul interaksi yang menarik; juga menarik bahwa U-net dan transformer menjadi pusat banyak riset.
Di dalam perusahaan, kemungkinan juga akan muncul ide menggunakan data genom untuk meningkatkan efektivitas iklan; misalnya jika terlihat risiko kanker usus besar, tampilkan iklan “suplemen kesehatan usus besar”, atau analisis kecenderungan dari informasi genetik lalu membuat strategi pemasaran seperti “gen ini berkorelasi dengan kecenderungan menyukai humor gelap, promosikan film baru ke orang-orang yang punya gen ini”
Lompatan besar dalam performa prediksi RNA diperkirakan akan membuka peluang besar bagi lab mRNA.
Tak lama setelah bergabung ke Google pada 2008, ada yang sudah mendorong investasi besar di bidang ilmu hayati. Ia yakin Google bisa menghasilkan capaian kelas dunia dalam pemrosesan data dan ML, lalu membantu agar metode itu bisa direplikasi oleh biolog lain juga. Lewat exacycle, mereka benar-benar menghasilkan hasil menarik dalam protein folding/desain, lalu melanjutkannya dengan peluncuran Cloud Genomics untuk layanan penyimpanan/analisis dataset skala besar. Pada akhirnya DeepMind mewujudkan tujuan yang dulu ia bayangkan dengan cara yang jauh lebih keren, dan makalah terbaru ini punya sangat banyak hal untuk dilihat sehingga komunitas mungkin butuh waktu untuk mencerna isinya.
Mengecewakan bahwa makalah ini mengabaikan salah satu masalah terbesar, yaitu membedakan varian yang benar-benar kausal dan yang tidak kausal di antara segmen DNA yang sangat berkorelasi satu sama lain—pekerjaan yang dalam genetika disebut fine mapping. Untuk target obat yang efektif, sangat penting mempersempit secara tepat area regulasi inti yang relevan. Sebuah makalah Nature terbaru memuat contoh masalah ini dan kasus yang tersambung sampai kandidat obat untuk regulasi fungsi makrofag pada autoimun.