AlphaEvolve: Agen coding perancang algoritme canggih berbasis Gemini

(deepmind.google)

3 poin oleh GN⁺ 2025-05-15 | 1 komentar | Bagikan ke WhatsApp

AlphaEvolve adalah agen pembuat algoritme evolusioner yang menggabungkan LLM dan evaluator otomatis
Terbukti menghasilkan dampak nyata di bidang matematika, komputasi, AI, dan desain perangkat keras, serta diterapkan di seluruh infrastruktur Google
Dengan menggabungkan Gemini Flash dan Gemini Pro, sistem ini menelusuri keluasan dan kedalaman ide secara bersamaan
Pada penjadwalan pusat data, desain TPU, dan optimasi kernel AI, sistem ini mewujudkan peningkatan kecepatan dan penghematan sumber daya
Juga menantang lebih dari 50 persoalan matematika sulit, mengusulkan algoritme baru dan pada beberapa kasus memperbaiki solusi yang ada

AlphaEvolve: agen evolusi algoritme berbasis Gemini

Gambaran umum

AlphaEvolve adalah agen coding berbasis large language model (LLM) yang dikembangkan oleh Google DeepMind
Pembuatan kode kreatif dilakukan oleh model Gemini, sementara verifikasi dilakukan oleh evaluator otomatis
Melalui algoritme evolusioner, sistem ini secara berulang menyempurnakan kandidat kode terbaik

Bidang penerapan nyata dan hasil

Optimasi infrastruktur komputasi Google

AlphaEvolve diterapkan di seluruh pusat data, perangkat keras, dan perangkat lunak Google
Peningkatan efisiensi memberi efek berantai yang berkelanjutan pada seluruh infrastruktur AI

Peningkatan penjadwalan pusat data

Mengusulkan heuristik baru untuk Borg, cluster manager milik Google
Sudah digunakan di layanan produksi selama lebih dari 1 tahun, dan berkontribusi pada pemulihan 0,7% sumber daya komputasi global
Kodenya dapat dipahami manusia sehingga mudah dipelihara

Dukungan desain perangkat keras

Mengusulkan optimasi rangkaian perkalian matriks yang ditulis dalam Verilog
Direncanakan akan diintegrasikan ke desain TPU Google di masa depan
Mendorong kolaborasi dengan insinyur perangkat keras

Mempercepat pelatihan dan inferensi AI

Membagi perkalian matriks menjadi masalah yang lebih kecil → kecepatan pelatihan Gemini meningkat 1%
Waktu optimasi kernel dipangkas dari hitungan minggu menjadi hitungan hari
Kernel FlashAttention mengalami peningkatan kecepatan hingga 32,5%
Bahkan di area yang sudah sangat dioptimalkan oleh compiler, peningkatan performa tambahan tetap dimungkinkan

Inovasi di bidang matematika dan algoritme

Menemukan algoritme perkalian matriks baru

Menemukan metode yang lebih baik dibanding algoritme Strassen (1969) yang sudah ada
Dapat memproses matriks kompleks 4x4 hanya dengan 48 perkalian skalar

Eksplorasi persoalan matematika sulit

Menguji lebih dari 50 masalah di analisis, geometri, kombinatorika, teori bilangan, dan bidang lain
- Pada 75% kasus, berhasil menemukan kembali solusi terbaik yang sudah ada
- Pada 20% kasus, menghasilkan hasil yang melampaui solusi yang ada
Contoh: menemukan batas bawah baru untuk masalah kissing number
- Di dimensi ke-11, memecahkan rekor sebelumnya dengan konfigurasi 593 bola

Cara kerja

Prompt sampler membuat input
Model Gemini Flash/Pro menghasilkan kode
Evaluator otomatis menilai akurasi dan kualitas secara kuantitatif
Kode dengan performa terbaik dievolusikan dengan pendekatan algoritme genetika
Kode optimal dapat digunakan ulang, diterapkan, dan diperluas

Rencana ke depan

Seiring kemampuan coding meningkat, AlphaEvolve juga akan terus disempurnakan
Sedang mengembangkan antarmuka pengguna bersama People + AI Research team
Akan dibuka untuk pengguna akademik melalui Early Access Program
Daftarkan minat

Kemungkinan penerapan

Dapat diterapkan ke semua bidang selama masalahnya bisa didefinisikan dan dievaluasi sebagai solusi algoritmik
Contoh: pengembangan material baru, penemuan obat, keberlanjutan, serta pemecahan masalah teknologi/bisnis

Tautan referensi

1 komentar

GN⁺ 2025-05-15

Komentar Hacker News

Menurut kutipan di makalah, jika algoritma Strassen diterapkan berulang kali, perkalian matriks 4x4 membutuhkan 49 kali perkalian, tetapi AlphaEvolve menemukan metode pertama yang dapat melakukan perkalian matriks kompleks 4x4 hanya dengan 48 kali perkalian. Jika matriks dikalikan secara langsung, terasa seperti ada perhitungan serupa yang diulang berkali-kali. Misalnya, saat menghitung ukuran gabungan dua himpunan, bagian yang tumpang tindih harus dikurangkan. Algoritma Strassen melacak perhitungan yang akan dibutuhkan pada tahap berikutnya, dan agak mirip dengan dynamic programming. Hal yang menarik adalah penghematan tambahan ini hanya muncul pada bilangan kompleks, jadi tampaknya ada semacam overcounting pada bidang kompleks dalam pendekatan yang sederhana
- Saat mencari di Google dengan kata kunci “4x4 matrices multiplication 48”, saya menemukan postingan di math.stackexchange. Pada 2019 sudah ada penyebutan bahwa perkalian matriks 4x4 bisa dilakukan hanya dengan 48 kali perkalian, beserta tautan ke disertasi doktoral. Saya rasa hasil ini mungkin sudah dikenal sebelumnya (meski saya belum memeriksa garis besar algoritmanya)
- Sepertinya ada salah paham tentang algoritma Strassen. Pertama, Strassen bukan dynamic programming melainkan contoh representatif dari teknik divide-and-conquer. Kedua, algoritma Strassen bekerja bukan hanya untuk bilangan kompleks, tetapi juga untuk bilangan real
Ada pernyataan bahwa AlphaEvolve mencapai peningkatan kecepatan hingga 32,5% pada kernel FlashAttention untuk model AI berbasis Transformer. Disebutkan bahwa dalam 75% kasus ia menemukan kembali solusi terbaik yang sudah ada, dan dalam 20% kasus bahkan memperbaiki rekor terbaik sebelumnya. Hasil ini benar-benar mengesankan, tetapi saya penasaran secara spesifik metode dan perbaikannya seperti apa. Saya juga ingin tahu apakah peningkatan 32,5% itu hanya muncul pada kasus ekstrem tertentu atau benar-benar terlihat dalam benchmark nyata
- GPU memiliki hierarki cache, jadi menyesuaikan ukuran blok secara optimal memberi keuntungan besar, tetapi dalam praktiknya juga melibatkan banyak kernel, GPU, dan upaya tuning yang beragam. Ada juga isu kernel fusion dan batas API. Hasil AlphaEvolve memang sangat mengesankan, tetapi bukan sihir atau trik murahan
- AlphaEvolve mempercepat kernel inti arsitektur Gemini sebesar 23% dengan cara membagi operasi perkalian matriks besar menjadi submasalah yang lebih mudah ditangani, dan mengurangi total waktu pelatihan Gemini sebesar 1%
- Angka-angka seperti ini belakangan tampak terlalu dibesar-besarkan. Jika FlashAttention benar-benar 32,5% lebih cepat, saya jadi bertanya-tanya kenapa tidak diajukan sebagai PR ke repositori Flash Attention. Akan bagus kalau ada penjelasan yang lebih rinci
Momen ini terasa penting. Kini ada bukti kuat bahwa sistem AI bisa menghasilkan riset baru yang membawa nilai nyata ke dunia. Penghematan 1% hanyalah permulaan, dan jika efek seperti ini terakumulasi, keuntungannya bisa sangat besar. Selain itu, proses ini sendiri juga dipakai untuk memajukan gemini 2.5 pro, sehingga mengarah pada semacam perbaikan diri bertahap. Memang belum sepenuhnya otomatis, tetapi arahnya mulai terlihat
- Sistem genetic programming telah lama memperbaiki algoritma selama bertahun-tahun. Belum jelas apakah genetic programming berbasis LLM akan menjadi perubahan revolusioner atau sekadar evolusi bertahap. Saya juga berhati-hati dengan konsep self-improvement. Ide “GP memperbaiki dirinya sendiri dengan GP!” sudah sangat lama, tetapi sampai sekarang belum benar-benar berhasil. Ada juga contoh perusahaan lain dan makalah terkait
- Saya ragu apakah hasil ini benar-benar baru. Ada juga referensi yang menyebut solusi 48 dan 46 perkalian sudah diketahui, dan terlihat antusiasme bahwa AI telah mencapai singularitas. Kalau ini benar-benar terobosan besar, kabarnya pasti akan menyebar lebih cepat daripada makalahnya
Saya penasaran seberapa bertahap perkembangan ini sebenarnya. Sebagai contoh saya memilih B.2 (ketaksamaan autokorelasi kedua) lalu mencari makalah sebelumnya (https://arxiv.org/pdf/0907.1379), dan penulisnya menyebut bahwa mereka menggunakan pencarian numerik dengan Mathematica untuk mendapatkan batas atas sebelumnya. Mereka juga mengatakan tidak melanjutkan perbaikan bagian itu karena manfaatnya kecil dibanding usaha yang dibutuhkan. Jadi, kemajuan AlphaEvolve kali ini juga cukup bertahap (meskipun tetap hasil yang keren)
- Sekarang “usaha” itu telah berkurang drastis, sehingga kita sampai pada titik di mana tidak bisa lagi berkata ‘tidak layak dikerjakan’. Itu sendiri penting
- Hal-hal yang bagi manusia tidak sebanding dengan nilai waktunya bisa, ketika diotomatisasi oleh AI, menumpuk menjadi sangat banyak ‘peluang’ dan menghasilkan perbedaan besar
- Ini benar-benar terasa seperti tanda bahwa AI yang sesungguhnya mulai lepas landas
Sulit untuk tidak mengambil sikap defensif terhadap klaim seberani ini. Jika memang benar seperti yang digambarkan, itu hampir sama dengan mengatakan bahwa ‘AI yang tak terkendali’ sudah selesai dibuat. Secara filosofis, jika penemuan baru dijelaskan langkah demi langkah kepada LLM lama, informasi itu tetap merupakan pengetahuan ‘baru’, dan pada akhirnya itu berarti kecerdasan manusia masuk secara tidak langsung
Ini memang keren, tetapi bukankah pada dasarnya mirip dengan Co-Scientist milik Google? Strukturnya adalah beberapa LLM saling bertukar konteks sambil saling memverifikasi. Dari sisi eksekusi memang mengesankan, tetapi secara fundamental rasanya tidak sepenuhnya baru. LLM jelas berguna untuk optimasi kode atau mendeteksi pola maupun redundansi yang luput dari manusia, tetapi kabar ini juga terasa seperti satu lagi postingan blog Google yang dibuat semegah mungkin. Dulu label ‘Alpha’ dipakai hanya untuk inovasi yang jelas seperti AlphaGo dan AlphaFold, tetapi sekarang tampaknya juga dipakai pada sistem dengan dampak yang relatif lebih kecil. Sebagai catatan, Co-Scientist juga punya metode evaluasi. ( https://research.google/blog/accelerating-scientific-breakth... lihat )
- Makalah AlphaEvolve membahas bagian ini. Jika AI Co-Scientist mengekspresikan hipotesis ilmiah dan evaluasi dalam bahasa alami, AlphaEvolve berevolusi melalui evolusi kode dan fungsi evaluasi yang bersifat programatik. Dengan begitu, halusinasi LLM bisa jauh lebih dihindari, dan prosedur evolusinya dapat berjalan terus-menerus selama banyak tahap
- Khas Google, rasanya perusahaan itu masih saja membuat produk dengan fungsi serupa secara bersamaan oleh tim-tim yang berbeda
- Saya tidak tahu apakah “Google's Co-Scientist” itu satu proyek atau nama untuk beberapa proyek
Orang-orang yang menunggu singularitas akan tertarik pada kalimat seperti ini. “AlphaEvolve mengusulkan modifikasi dalam bahasa standar yang digunakan para insinyur perancang chip, sehingga AI dan insinyur hardware dapat berkolaborasi”
- Mengutip bagian terkait dari makalah, AlphaEvolve menghilangkan bit yang tidak perlu dalam kode unit operasi di dalam unit matmul, dan perubahan ini diverifikasi kebenarannya oleh para perancang TPU. Penyebabnya mungkin karena bit-bit atas dari output sirkuit MAC tidak digunakan oleh akumulator bagian bawah dan seterusnya. Sebenarnya optimasi setara seperti ini juga biasanya dilakukan otomatis oleh tool sintesis lanjutan, dan ada klaim bahwa memangkas bit lebih awal di source RTL punya makna lebih besar dibanding optimasi pasca-sintesis. Namun tool sintesis menjamin bahwa makna sirkuit tidak berubah, sedangkan modifikasi source RTL tidak memberi jaminan seperti itu sehingga tetap memerlukan verifikasi manusia. Agak disayangkan juga bahwa hasil sintesis tidak bisa menandai bagian mana yang dioptimalkan kembali ke source. Evolusi kode berbasis LLM tampak bermakna untuk eksplorasi awal dalam desain hardware, tetapi saya merasa pencapaian nyata AlphaEvolve dibesar-besarkan
- Pada akhirnya ini berarti sistem tersebut bekerja di atas intermediate representation kompiler atau teks debug
- Pendekatan ini hanya dapat diterapkan pada masalah optimasi yang fungsi evaluasinya terdefinisi dengan baik atau bisa diukur. Tidak mungkin menulis fungsi evaluasi untuk ‘kecerdasan umum’
- Kalimat “AlphaEvolve meningkatkan efisiensi pusat data, desain chip, dan pelatihan AI Google — termasuk pelatihan LLM yang melahirkan AlphaEvolve sendiri” terdengar mengesankan. Rasanya seperti kita sedang memasuki kenyataan di mana AI memperbaiki dirinya sendiri lebih cepat daripada manusia
- Singularitas selalu berada di puncak rasa percaya diri yang berlebihan, dan AI pada kenyataannya hanyalah semacam ‘chair lift otomatis’, yaitu pseudo-intelligence
Menariknya, AlphaEvolve ternyata sudah digunakan sejak setahun lalu dan baru sekarang dipublikasikan. Menurut makalahnya, sistem ini berjalan di atas Gemini 2.0 (Pro dan Flash), sehingga muncul situasi unik di mana Gemini 2.0 dipakai untuk membantu melatih Gemini 2.5. Meski belum sampai menjadi ‘feedback loop self-improvement’ yang klasik, setidaknya ada nuansa ke arah sana. Saya jadi penasaran apakah selama setahun itu AlphaEvolve hanya dikembangkan, atau sudah benar-benar dibuat dan dipakai secara komersial. Ini juga memberi kesan bahwa hasil yang diperoleh dari riset AI memang tidak harus langsung dibagikan
- Jika seseorang memiliki cukup banyak otak, sumber daya komputasi, dan hardware, tampaknya tidak ada yang benar-benar bisa mencegah feedback loop yang sesungguhnya. Dalam hal ini DeepMind berada di posisi yang sangat unggul
- Proses menggunakan Gemini 2.0 untuk meningkatkan Gemini 2.5 mirip dengan strategi OpenAI sejak dulu saat memperkenalkan RLHF, yaitu menghasilkan data terstruktur dan model hasil distilasi
- Kuncinya adalah otonomi. Perubahan yang dibuat sendiri harus bisa berlangsung tanpa verifikasi manusia agar benar-benar bermakna. Jika solusi yang tak dapat dijelaskan terus bertambah, saya ragu itu benar-benar membantu. Malah bisa jadi hanya menumpuk kode yang rumit tanpa perlu. Kadang saya bertanya apakah itu memang tujuan akhirnya
Saya terkejut karena penjelasan tentang prosedur evolusi AlphaEvolve terlalu sedikit. Kalimat “algoritma yang terinspirasi oleh algoritma MAP elites dan island-based population model” mengisyaratkan bahwa kata “terinspirasi” mencakup banyak hal. Bagaimana dimensi mutasi dalam MAP-elites ditentukan, bagaimana kedua algoritma itu digabungkan, dan sejauh mana inspirasinya, semuanya kurang spesifik. Rasanya inti prosedur evolusinya pada dasarnya masih menjadi resep rahasia
- Makalah evolusi LLM berbasis island yang terbit di Nature pada 2023 (https://www.nature.com/articles/s41586-023-06924-6) membahasnya lebih rinci. Pengaturan ‘dimensi/fitur’ inti seperti ini memang penting. Whitepaper seperti ini justru bisa terasa mengecewakan dari sisi ilmiah
- Cara paling sederhana adalah meminta model menghasilkan kriteria evaluasi yang berbeda-beda, lalu memakai masing-masing sebagai dimensi
Penjelasan tentang bagian evolusionernya di makalah terasa kurang. Secara umum, algoritma evolusi mencakup elemen rekombinasi (crossover), dan jika itu tidak ada, maka lebih tepat diklasifikasikan sebagai hill climbing atau beam search
- Ada satu caption yang menyebut dibutuhkan 16 kali “mutasi”, dan saya penasaran seperti apa proses mutasi ini
- Ada juga algoritma ‘evolution strategies’ yang tanpa mutasi dan crossover biasa, menggunakan sekumpulan kandidat untuk mendekati landscape gradien
- Yang mengkhawatirkan adalah kemungkinan bahwa ini sebenarnya bukan algoritma evolusi, melainkan hanya metode lain yang kebetulan memakai nama yang mirip

AlphaEvolve: Agen coding perancang algoritme canggih berbasis Gemini

AlphaEvolve: agen evolusi algoritme berbasis Gemini

Gambaran umum

Bidang penerapan nyata dan hasil

Optimasi infrastruktur komputasi Google

Peningkatan penjadwalan pusat data

Dukungan desain perangkat keras

Mempercepat pelatihan dan inferensi AI

Inovasi di bidang matematika dan algoritme

Menemukan algoritme perkalian matriks baru

Eksplorasi persoalan matematika sulit

Cara kerja

Rencana ke depan

Kemungkinan penerapan

Tautan referensi

Bacaan terkait

1 komentar

Komentar Hacker News