AlphaEvolve: agen coding berbasis Gemini yang memperluas pengaruh ke berbagai bidang

(deepmind.google)

1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp

AlphaEvolve adalah agen coding berbasis Gemini yang berawal dari perancangan algoritme tingkat lanjut, lalu memperluas cakupan penerapannya ke masalah terbuka di matematika dan ilmu komputer, optimasi infrastruktur Google, serta tantangan sains dan industri
Dalam genomika, AlphaEvolve meningkatkan DeepConsensus dan mengurangi 30% kesalahan deteksi varian; di jaringan listrik, sistem ini turut meningkatkan tingkat penemuan solusi yang layak untuk masalah AC Optimal Power Flow dari 14% menjadi lebih dari 88%
Dalam ilmu kebumian, AlphaEvolve mengotomatisasi optimasi model Earth AI sehingga meningkatkan 5% akurasi keseluruhan prediksi risiko bencana alam di 20 kategori seperti kebakaran hutan, banjir, dan tornado; dalam fisika kuantum, sistem ini mengusulkan sirkuit kuantum di Willow quantum processor dengan tingkat kesalahan 10 kali lebih rendah dibanding baseline sebelumnya
Dalam matematika, AlphaEvolve berkontribusi bersama Terence Tao pada penyelesaian masalah Erdős, memperbaiki batas bawah untuk Traveling Salesman Problem dan Ramsey Numbers, serta digunakan untuk model neurosains yang dapat diinterpretasikan, mikroekonomi, kriptografi, data sintetis, dan mitigasi keselamatan AI
Dalam infrastruktur Google, AlphaEvolve digunakan untuk desain TPU generasi berikutnya, kebijakan penggantian cache, heuristik kompaksi LSM-tree di Google Spanner, serta optimasi compiler; dalam penerapan komersial, sistem ini mencapai kecepatan pelatihan 2x di Klarna, peningkatan efisiensi rute 10,4% di FM Logistic, dan peningkatan kecepatan sekitar 4x untuk pelatihan serta inferensi MLFF di Schrödinger

Dampak sosial dan keberlanjutan

Genomika
- AlphaEvolve digunakan untuk meningkatkan model koreksi kesalahan sekuensing DNA DeepConsensus yang dikembangkan Google Research, sehingga mengurangi 30% kesalahan deteksi varian
- Peningkatan ini membantu ilmuwan di PacBio menganalisis data genetik dengan lebih akurat dan biaya lebih rendah
- Aaron Wenger dari PacBio menyatakan bahwa solusi yang ditemukan AlphaEvolve secara bermakna meningkatkan akurasi peralatan sekuensing, dan memungkinkan peneliti menemukan mutasi penyebab penyakit yang sebelumnya tersembunyi berkat data berkualitas lebih tinggi
Optimasi jaringan listrik
- AlphaEvolve diterapkan pada AC Optimal Power Flow problem
- Model Graph Neural Network (GNN) yang dilatih dengan bantuannya turut meningkatkan tingkat keberhasilan menemukan solusi yang layak untuk masalah tersebut dari 14% menjadi lebih dari 88%
- Hasil ini secara signifikan mengurangi kebutuhan akan tahap pascapemrosesan yang mahal dalam jaringan listrik
Ilmu kebumian
- AlphaEvolve digunakan untuk mengubah data geospasial yang kompleks menjadi insight yang lebih andal dan dapat ditindaklanjuti
- Dengan mengotomatisasi optimasi model Earth AI, sistem ini meningkatkan 5% akurasi keseluruhan prediksi risiko bencana alam yang menggabungkan 20 kategori seperti kebakaran hutan, banjir, dan tornado

Kemajuan di garis depan riset

Fisika kuantum
- Optimasi AlphaEvolve memungkinkan pelaksanaan simulasi molekul kompleks di Willow quantum processor milik Google
- Sistem ini mengusulkan sirkuit kuantum dengan tingkat kesalahan 10 kali lebih rendah dibanding baseline optimasi konvensional, sehingga langsung berkontribusi pada demonstrasi eksperimen komputasi kuantum jenis pertama
- Pencapaian ini menunjukkan bahwa AlphaEvolve dapat membuka jalan menuju masa depan di mana ia menemukan algoritme yang melampaui kemampuan komputer klasik
Matematika
- AlphaEvolve berkontribusi bersama matematikawan seperti Terence Tao dalam penyelesaian masalah Erdős
- Terence Tao menyatakan bahwa alat seperti AlphaEvolve sangat membantu terutama pada masalah optimasi, karena dapat dengan cepat menguji kemungkinan kontra-contoh untuk pertidaksamaan potensial atau memverifikasi keyakinan terhadap objek ekstremal, sehingga sangat meningkatkan intuisi dan mempermudah pencarian bukti yang ketat
- AlphaEvolve memecahkan rekor dengan memperbaiki batas bawah untuk persoalan matematika klasik seperti Traveling Salesman Problem dan Ramsey Numbers
Bidang riset lain
- Kemampuan penemuan otonom AlphaEvolve mendorong inovasi paralel di berbagai bidang
- Sistem ini digunakan untuk penemuan model neurosains yang dapat diinterpretasikan, pembuktian batas pasar baru dalam mikroekonomi, serta kemajuan pada komponen jaringan saraf
- AlphaEvolve juga diterapkan pada kriptografi untuk privasi pengguna, pembuatan data sintetis, serta mitigasi keselamatan penting untuk model AI frontier
- Contoh ketika AlphaEvolve mengoptimalkan sebuah instans “Tammes problem” dan potensi solusi untuk masalah tambahan dapat dilihat di Gallery publik

Peningkatan infrastruktur AI

AlphaEvolve telah berkembang melampaui uji coba pilot dan menjadi komponen inti infrastruktur Google
Sistem ini digunakan sebagai alat reguler untuk mengoptimalkan desain generasi berikutnya dari TPU
AlphaEvolve menemukan kebijakan penggantian cache yang lebih efisien, menyelesaikan dalam dua hari pekerjaan yang sebelumnya memerlukan upaya intensif manusia selama berbulan-bulan
Jeff Dean menyatakan bahwa AlphaEvolve mulai mengoptimalkan lapisan perangkat keras paling rendah yang menjalankan stack AI, dan telah mengusulkan desain sirkuit yang efisien meski bertentangan dengan intuisi, yang kemudian langsung diintegrasikan ke silikon TPU generasi berikutnya
AlphaEvolve juga meningkatkan heuristik kompaksi Log-Structured Merge-tree di Google Spanner untuk meningkatkan efisiensi
Optimasi ini mengurangi 20% write amplification, yaitu rasio data yang ditulis ke penyimpanan dibanding permintaan awal
AlphaEvolve juga memberikan insight untuk strategi optimasi compiler baru yang mengurangi penggunaan ruang penyimpanan perangkat lunak hampir 9%

Perluasan penerapan komersial

Bersama Google Cloud, AlphaEvolve kini disediakan bagi perusahaan komersial di berbagai industri
Di sektor layanan keuangan, Klarna menggunakan AlphaEvolve untuk mengoptimalkan salah satu model transformer besar miliknya, meningkatkan kualitas model sekaligus menggandakan kecepatan pelatihan
Di sektor manufaktur semikonduktor, Substrate menerapkan AlphaEvolve pada framework computational lithography, meningkatkan kecepatan runtime beberapa kali lipat dan memungkinkan simulasi semikonduktor canggih berskala lebih besar
Di sektor logistik, FM Logistic mengoptimalkan persoalan rute kompleks seperti Traveling Salesman Problem, menghasilkan peningkatan efisiensi rute 10,4% dibanding solusi yang sebelumnya sudah sangat dioptimalkan, serta menghemat jarak tempuh tahunan lebih dari 15.000 km
Di sektor iklan dan pemasaran, WPP menggunakan AlphaEvolve untuk menyempurnakan komponen model AI dan menangani data kampanye berdimensi tinggi yang kompleks, sehingga meningkatkan akurasi 10% dibanding optimasi model manual yang kompetitif
Di bidang material komputasional dan ilmu hayati, Schrödinger menerapkan AlphaEvolve dan mencapai peningkatan kecepatan sekitar 4x baik pada pelatihan maupun inferensi Machine Learned Force Fields (MLFF)
Gabriel Marques dari Schrödinger menyatakan bahwa inferensi MLFF yang lebih cepat dapat mempersingkat siklus R&D dalam penemuan obat, desain katalis, dan pengembangan material, serta memberi dampak bisnis nyata dengan memungkinkan perusahaan menyaring kandidat molekul dalam hitungan hari, bukan berbulan-bulan

Arah ke depan

Dalam satu tahun terakhir, AlphaEvolve dengan cepat memantapkan diri sebagai sistem serbaguna untuk berbagai tujuan
Sistem ini menunjukkan bahwa terobosan berikutnya mungkin akan dipimpin oleh algoritme yang dapat belajar, berevolusi, dan mengoptimalkan dirinya sendiri
Google DeepMind ingin memperluas kemampuan AlphaEvolve dan menerapkannya pada tantangan eksternal yang lebih luas

1 komentar

GN⁺ 1 jam lalu

Opini Hacker News

Mengingatkan pada "Don't fall into the anti-AI hype" dari Antirez [0]
Jika diringkas dalam satu kalimat, model dasar seperti ini sangat kuat untuk mengoptimalkan ruang masalah yang sangat tingkat tinggi namun juga sangat terdefinisi dengan baik, seperti “buat perkalian matriks lebih cepat.” Dalam kasus Antirez, itu adalah “buat Redis lebih cepat”
Reaksinya terbagi antara “ini sama sekali tidak akan bekerja untuk pekerjaanku” dan “pekerjaan yang butuh beberapa bulan selesai dalam satu jam,” dan menurutku keduanya benar. Menyenangkan melihat Antirez terus menghasilkan hal setelah itu [1], tetapi menurutku masuk akal juga untuk menganggap bahwa pekerjaan kebanyakan orang—yang penuh pengetahuan implisit, berpusat pada sistem manusia, dan didefinisikan secara ambigu—sulit ditangani oleh LLM, atau memang sejak awal bukan untuk itu
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
- Sejujurnya, sekarang aku tidak terlalu percaya itu lagi. Model-model mulai cukup baik dalam menangani ambiguitas, dan Claude Code sekarang akan bertanya kepadaku jika ada bagian yang ambigu
  Sebentar lagi semua rapat akan direkam dan ditranskripsikan lalu disimpan di tempat yang terindeks rapi sehingga agen bisa mencarinya saat menghadapi ambiguitas. Jika sekarang ia bisa bertanya, maka di lingkungan seperti itu ia juga akan bisa mencari jawabannya sendiri. Sebenarnya, jika ada Notion/Confluence yang terdokumentasi dengan baik, itu sudah bisa dilakukan sekarang, hanya saja hampir tidak ada organisasi yang seperti itu
  Melatih penguatan untuk “mengidentifikasi ambiguitas” mungkin lebih sulit daripada melatih algoritma performa, tetapi bukan mustahil dan menurutku itu sudah berlangsung. Sekarang tinggal soal waktu
- Claude dan sejenisnya cukup bagus untuk mengimplementasikan algoritma yang kupikirkan dengan cepat. Tapi aku tetap harus banyak memberi pertanyaan kendali dan memeriksa kodenya
  Mereka lemah dalam menciptakan algoritma non-mainstream yang benar-benar baru, dan terlalu sering menyisipkan jalan pintas jangka pendek yang konyol. Untuk saat ini, mereka masih alat, belum menjadi perajin terampil yang mahir menggunakan alat. Ini akan berubah pelan-pelan, dan celah tempat algoritma langka bisa menang juga akan makin menyempit
- Pada akhirnya, hasilnya tampak seperti salah satu dari dua hal: “luar biasa, efisiensinya naik 1%” atau “bodohnya aku menghabiskan satu jam untuk debug API halusinasi”
  Sangat sulit menilai, secara rata-rata, mana yang akan menang
- Bagaimana jika riset berbantuan AI mendorong AI melampaui LLM? Apa kamu menganggap itu tidak mungkin terjadi?
- Pernyataan bahwa “LLM tidak bisa menangani pekerjaan yang penuh pengetahuan implisit, berpusat pada sistem manusia, dan didefinisikan secara ambigu” kemungkinan akan terlihat sangat picik sekitar 2030
Para CEO AI suka berpanjang lebar bahwa AI akan menyembuhkan kanker, tetapi tempat yang benar-benar aktif mengejar masalah riset semacam itu tampaknya hanya DeepMind
OpenAI dan Anthropic kelihatannya lebih banyak mengejar pendapatan enterprise dan pendapatan dari coding
- Google bisa membiayai dirinya sendiri dengan dana perang, tetapi OpenAI dan Anthropic harus mengulurkan tangan ke investor
Apakah para Googler puas menggunakan agen coding Gemini alih-alih Claude Code atau Codex? Bukan menyindir, aku benar-benar penasaran
- Ya. Modelnya bagus dan cepat, dan tool internalnya sekarang juga sudah menyusul
  Masih ada hal-hal yang sedang dibereskan di UI/UX/tooling, integrasi sistem kontrol versi, dan masalah lebih dalam yang sulit dibicarakan, tetapi menurutku kebanyakan keluhan lebih terkait kecepatan perubahan daripada kemampuan nyatanya
  Yang menarik, ada beberapa orang berpengaruh di internal yang sangat menegaskan bahwa mereka lebih suka model Flash daripada model Pro. Terlepas dari apakah itu benar, menarik bahwa kita sekarang sudah sampai di tahap di mana model yang “lebih baik” belum tentu lebih berguna, dan kombinasi model yang lebih cepat dengan perbaikan harness bisa menjadi kompromi yang lebih baik
- Jika yang dimaksud adalah Gemini VS Code Extension, itu payah dibanding Claude Code atau Codex. Aku tidak paham bagaimana ini bisa tetap dijalankan
  Ada timeout terus-menerus, mode kegagalan aneh, masalah harus memulai chat baru untuk mengganti mode, dan lain-lain. Tapi ini tampaknya lebih merupakan masalah ekstensi daripada masalah model Gemini itu sendiri
  Di luar sisi ekstensi VS Code, jika melihat pemecahan masalah yang sebenarnya, ketiga model premium itu semuanya agen coding yang hebat untuk kebutuhanku
- Coding bukan satu-satunya kegunaan Gemini atau model-model seperti ini. Artikel ini sendiri juga bukan tentang coding
  Gemini mungkin bukan agen coding terbaik, tetapi bisa sangat bagus untuk hal-hal lain
- Bulan lalu Steve Yegge mengisyaratkan sebaliknya: https://xcancel.com/Steve_Yegge/status/2043747998740689171
- Dari obrolanku dengan orang-orang di Google, kebanyakan tidak puas dengan agen Gemini internal dan merasa performanya memburuk cukup banyak belakangan ini
  Misalnya, ia benar-benar lupa cara melakukan pemanggilan tool, membuang banyak waktu, lalu akhirnya menyerah, atau sepenuhnya mengabaikan panduan gaya kode dalam file mirip AGENTS.md
  Pengalamanku menjalankan Gemma 4 secara lokal juga mirip. Setelah satu atau dua kali pemanggilan tool, ia mulai memanggil secara semaunya. Bahkan kemarin aku melihatnya mendefinisikan ulang tool seperti read_file(start, end) menjadi read_file(start, number_of_bytes), lalu bahkan tidak mau mengakui kemungkinan bahwa dirinya salah
Jika AI memperbaiki dirinya sendiri, atau setidaknya memperbaiki arsitektur tempat ia berjalan, maka singularitas memang terasa dekat seperti yang orang-orang katakan
Selain pembuatan data sintetis atau pengujian model, adakah contoh lain AI dipakai untuk meningkatkan LLM?
- Membuat AI lebih mampu sendiri dan mengoptimalkan perangkat lunak yang dipakai untuk pelatihan/inferensi AI itu bedanya seperti apel dan jeruk
  Transformer yang lebih efisien hanya menurunkan biaya menjalankannya
  Agar bisa disebut “AI memperbaiki AI,” satu generasi AI harus merancang generasi berikutnya yang secara mendasar lebih mampu daripada dirinya sendiri. Bukan sekadar membuatnya lebih cepat atau murah, tetapi setara dengan otak reptil yang secara otonom merancang otak mamalia
  Bahkan jika dihubungkan ke harness cerdas seperti AlphaEvolve, aku tidak melihat LLM punya kreativitas seperti itu. Pengecualiannya mungkin jika arsitektur generasi berikutnya sudah jelas tersembunyi sebagai kombinasi komponen yang bisa diarahkan untuk diprediksi oleh LLM
  Jalur yang lebih mungkin adalah setelah inovasi manusia menuju AGI melangkah beberapa tahap lagi, lalu muncul AI yang mampu melakukan inovasi otonom, bukan sekadar menghasilkan kombinasi berbasis prompt
- Ada. Saat AlphaEvolve dirilis tahun lalu, ia meningkatkan kernel yang dipakai model Gemini sebelumnya untuk melatih model generasi ini, dan membuat proses pelatihan berjalan 1% lebih cepat. Tidak besar, tapi tetap hasil juga
- Yang paling viral belakangan ini sepertinya https://github.com/karpathy/autoresearch
- Perbaikan diri tidak harus berarti singularitas, bukan?
  Bisa saja ada batasan kuat yang membuat singularitas mustahil, atau cakrawala waktunya terlalu panjang sehingga tidak praktis, bukan?
- Secara pribadi, kurasa 2027 adalah titik yang harus diperhatikan untuk “AI memperbaiki dirinya sendiri”
  Semua lab AI besar sedang mengerjakan proyek agen riset dalam skala besar, terutama agen untuk peningkatan AI, dan aku memperkirakan banyak di antaranya akan keluar dari tahap eksperimen tahun ini
  Tahun depan mereka akan benar-benar melakukan banyak hal, dan menurutku kita akan melihat perubahan arsitektur besar pertama yang valid dan diciptakan bersama oleh AI
Berapa kali lagi kita harus mendengar soal masalah Erdős? :) Awalnya terdengar seperti pencapaian luar biasa umat manusia, tapi lama-lama topik ini terus kembali lagi
- Tinggal sekitar 700 masalah Erdős terbuka, jadi begitu semuanya selesai, kita akhirnya bisa istirahat
Sementara itu Gemini CLI sudah rusak berbulan-bulan
https://github.com/google-gemini/gemini-cli/issues/22141
Aku berharap Google fokus merilis Gemini 3.x secara resmi, dan menyediakan kapasitas yang cukup sehingga kita tidak perlu terus berperang dengan error 429
Sering terasa seperti mereka tidak ingin orang membangun aplikasi pelanggan enterprise dengan Vertex API. Sangat disayangkan, mengingat modelnya benar-benar hebat untuk hal-hal seperti analisis dokumen
- Apakah ini dilakukan di tier gratis? Di tier gratis aku memang melihat 429 jauh lebih sering
Semua paper *Evolve hasilnya sangat mengesankan, tetapi setelah melihat informasi yang dipublikasikan, kesanku adalah perhatian orang tertarik ke sisi LLM dan AI
Padahal hasil yang dilaporkan hampir selalu merupakan hasil dari lingkungan yang dirancang sangat baik agar LLM dan algoritma evolusi bisa bekerja maksimal
Paper ini contoh yang bagus dan layak dibaca
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
Ini solusi yang sangat sederhana untuk peningkatan algoritma. Aku berharap hal seperti ini sudah ada beberapa tahun lalu saat aku mengerjakan activation engineering: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
Bagaimana cara mengakses AlphaEvolve?
- Ini cuma tulisan pamer. Artinya, jadi perusahaan miliaran dolar atau keluar sana
Masalah yang kurasakan di Claude sederhana saja: bahkan untuk tugas yang simpel, ia terlalu menggembungkan kode dan output, dan kadang malah tidak jalan
Gemini cukup bagus dalam memberi solusi yang bekerja dengan kode secukupnya dan kompleksitas minimum, jadi keseimbangannya lebih mudah dikelola
Akhir-akhir ini aku hanya mencari Claude untuk kode frontend, terutama HTML. Bahkan di sini pun ia menulis terlalu banyak CSS sampai kira-kira memakan 60% ukuran file, tapi tetap memberi kesan sedikit lebih polished, jadi aku masih menoleransi ukuran file yang lebih besar

AlphaEvolve: agen coding berbasis Gemini yang memperluas pengaruh ke berbagai bidang

Dampak sosial dan keberlanjutan

Genomika

Optimasi jaringan listrik

Ilmu kebumian

Kemajuan di garis depan riset

Fisika kuantum

Matematika

Bidang riset lain

Peningkatan infrastruktur AI

Perluasan penerapan komersial

Arah ke depan

Bacaan terkait

1 komentar

Opini Hacker News