1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • AlphaEvolve adalah agen coding berbasis Gemini yang berawal dari perancangan algoritme tingkat lanjut, lalu memperluas cakupan penerapannya ke masalah terbuka di matematika dan ilmu komputer, optimasi infrastruktur Google, serta tantangan sains dan industri
  • Dalam genomika, AlphaEvolve meningkatkan DeepConsensus dan mengurangi 30% kesalahan deteksi varian; di jaringan listrik, sistem ini turut meningkatkan tingkat penemuan solusi yang layak untuk masalah AC Optimal Power Flow dari 14% menjadi lebih dari 88%
  • Dalam ilmu kebumian, AlphaEvolve mengotomatisasi optimasi model Earth AI sehingga meningkatkan 5% akurasi keseluruhan prediksi risiko bencana alam di 20 kategori seperti kebakaran hutan, banjir, dan tornado; dalam fisika kuantum, sistem ini mengusulkan sirkuit kuantum di Willow quantum processor dengan tingkat kesalahan 10 kali lebih rendah dibanding baseline sebelumnya
  • Dalam matematika, AlphaEvolve berkontribusi bersama Terence Tao pada penyelesaian masalah Erdős, memperbaiki batas bawah untuk Traveling Salesman Problem dan Ramsey Numbers, serta digunakan untuk model neurosains yang dapat diinterpretasikan, mikroekonomi, kriptografi, data sintetis, dan mitigasi keselamatan AI
  • Dalam infrastruktur Google, AlphaEvolve digunakan untuk desain TPU generasi berikutnya, kebijakan penggantian cache, heuristik kompaksi LSM-tree di Google Spanner, serta optimasi compiler; dalam penerapan komersial, sistem ini mencapai kecepatan pelatihan 2x di Klarna, peningkatan efisiensi rute 10,4% di FM Logistic, dan peningkatan kecepatan sekitar 4x untuk pelatihan serta inferensi MLFF di Schrödinger

Dampak sosial dan keberlanjutan

  • Genomika

    • AlphaEvolve digunakan untuk meningkatkan model koreksi kesalahan sekuensing DNA DeepConsensus yang dikembangkan Google Research, sehingga mengurangi 30% kesalahan deteksi varian
    • Peningkatan ini membantu ilmuwan di PacBio menganalisis data genetik dengan lebih akurat dan biaya lebih rendah
    • Aaron Wenger dari PacBio menyatakan bahwa solusi yang ditemukan AlphaEvolve secara bermakna meningkatkan akurasi peralatan sekuensing, dan memungkinkan peneliti menemukan mutasi penyebab penyakit yang sebelumnya tersembunyi berkat data berkualitas lebih tinggi
  • Optimasi jaringan listrik

    • AlphaEvolve diterapkan pada AC Optimal Power Flow problem
    • Model Graph Neural Network (GNN) yang dilatih dengan bantuannya turut meningkatkan tingkat keberhasilan menemukan solusi yang layak untuk masalah tersebut dari 14% menjadi lebih dari 88%
    • Hasil ini secara signifikan mengurangi kebutuhan akan tahap pascapemrosesan yang mahal dalam jaringan listrik
  • Ilmu kebumian

    • AlphaEvolve digunakan untuk mengubah data geospasial yang kompleks menjadi insight yang lebih andal dan dapat ditindaklanjuti
    • Dengan mengotomatisasi optimasi model Earth AI, sistem ini meningkatkan 5% akurasi keseluruhan prediksi risiko bencana alam yang menggabungkan 20 kategori seperti kebakaran hutan, banjir, dan tornado

Kemajuan di garis depan riset

Peningkatan infrastruktur AI

  • AlphaEvolve telah berkembang melampaui uji coba pilot dan menjadi komponen inti infrastruktur Google
  • Sistem ini digunakan sebagai alat reguler untuk mengoptimalkan desain generasi berikutnya dari TPU
  • AlphaEvolve menemukan kebijakan penggantian cache yang lebih efisien, menyelesaikan dalam dua hari pekerjaan yang sebelumnya memerlukan upaya intensif manusia selama berbulan-bulan
  • Jeff Dean menyatakan bahwa AlphaEvolve mulai mengoptimalkan lapisan perangkat keras paling rendah yang menjalankan stack AI, dan telah mengusulkan desain sirkuit yang efisien meski bertentangan dengan intuisi, yang kemudian langsung diintegrasikan ke silikon TPU generasi berikutnya
  • AlphaEvolve juga meningkatkan heuristik kompaksi Log-Structured Merge-tree di Google Spanner untuk meningkatkan efisiensi
  • Optimasi ini mengurangi 20% write amplification, yaitu rasio data yang ditulis ke penyimpanan dibanding permintaan awal
  • AlphaEvolve juga memberikan insight untuk strategi optimasi compiler baru yang mengurangi penggunaan ruang penyimpanan perangkat lunak hampir 9%

Perluasan penerapan komersial

  • Bersama Google Cloud, AlphaEvolve kini disediakan bagi perusahaan komersial di berbagai industri
  • Di sektor layanan keuangan, Klarna menggunakan AlphaEvolve untuk mengoptimalkan salah satu model transformer besar miliknya, meningkatkan kualitas model sekaligus menggandakan kecepatan pelatihan
  • Di sektor manufaktur semikonduktor, Substrate menerapkan AlphaEvolve pada framework computational lithography, meningkatkan kecepatan runtime beberapa kali lipat dan memungkinkan simulasi semikonduktor canggih berskala lebih besar
  • Di sektor logistik, FM Logistic mengoptimalkan persoalan rute kompleks seperti Traveling Salesman Problem, menghasilkan peningkatan efisiensi rute 10,4% dibanding solusi yang sebelumnya sudah sangat dioptimalkan, serta menghemat jarak tempuh tahunan lebih dari 15.000 km
  • Di sektor iklan dan pemasaran, WPP menggunakan AlphaEvolve untuk menyempurnakan komponen model AI dan menangani data kampanye berdimensi tinggi yang kompleks, sehingga meningkatkan akurasi 10% dibanding optimasi model manual yang kompetitif
  • Di bidang material komputasional dan ilmu hayati, Schrödinger menerapkan AlphaEvolve dan mencapai peningkatan kecepatan sekitar 4x baik pada pelatihan maupun inferensi Machine Learned Force Fields (MLFF)
  • Gabriel Marques dari Schrödinger menyatakan bahwa inferensi MLFF yang lebih cepat dapat mempersingkat siklus R&D dalam penemuan obat, desain katalis, dan pengembangan material, serta memberi dampak bisnis nyata dengan memungkinkan perusahaan menyaring kandidat molekul dalam hitungan hari, bukan berbulan-bulan

Arah ke depan

  • Dalam satu tahun terakhir, AlphaEvolve dengan cepat memantapkan diri sebagai sistem serbaguna untuk berbagai tujuan
  • Sistem ini menunjukkan bahwa terobosan berikutnya mungkin akan dipimpin oleh algoritme yang dapat belajar, berevolusi, dan mengoptimalkan dirinya sendiri
  • Google DeepMind ingin memperluas kemampuan AlphaEvolve dan menerapkannya pada tantangan eksternal yang lebih luas

1 komentar

 
GN⁺ 1 jam lalu
Opini Hacker News
  • Mengingatkan pada "Don't fall into the anti-AI hype" dari Antirez [0]
    Jika diringkas dalam satu kalimat, model dasar seperti ini sangat kuat untuk mengoptimalkan ruang masalah yang sangat tingkat tinggi namun juga sangat terdefinisi dengan baik, seperti “buat perkalian matriks lebih cepat.” Dalam kasus Antirez, itu adalah “buat Redis lebih cepat”
    Reaksinya terbagi antara “ini sama sekali tidak akan bekerja untuk pekerjaanku” dan “pekerjaan yang butuh beberapa bulan selesai dalam satu jam,” dan menurutku keduanya benar. Menyenangkan melihat Antirez terus menghasilkan hal setelah itu [1], tetapi menurutku masuk akal juga untuk menganggap bahwa pekerjaan kebanyakan orang—yang penuh pengetahuan implisit, berpusat pada sistem manusia, dan didefinisikan secara ambigu—sulit ditangani oleh LLM, atau memang sejak awal bukan untuk itu
    [0] https://antirez.com/news/158
    [1] https://antirez.com/news/164

    • Sejujurnya, sekarang aku tidak terlalu percaya itu lagi. Model-model mulai cukup baik dalam menangani ambiguitas, dan Claude Code sekarang akan bertanya kepadaku jika ada bagian yang ambigu
      Sebentar lagi semua rapat akan direkam dan ditranskripsikan lalu disimpan di tempat yang terindeks rapi sehingga agen bisa mencarinya saat menghadapi ambiguitas. Jika sekarang ia bisa bertanya, maka di lingkungan seperti itu ia juga akan bisa mencari jawabannya sendiri. Sebenarnya, jika ada Notion/Confluence yang terdokumentasi dengan baik, itu sudah bisa dilakukan sekarang, hanya saja hampir tidak ada organisasi yang seperti itu
      Melatih penguatan untuk “mengidentifikasi ambiguitas” mungkin lebih sulit daripada melatih algoritma performa, tetapi bukan mustahil dan menurutku itu sudah berlangsung. Sekarang tinggal soal waktu
    • Claude dan sejenisnya cukup bagus untuk mengimplementasikan algoritma yang kupikirkan dengan cepat. Tapi aku tetap harus banyak memberi pertanyaan kendali dan memeriksa kodenya
      Mereka lemah dalam menciptakan algoritma non-mainstream yang benar-benar baru, dan terlalu sering menyisipkan jalan pintas jangka pendek yang konyol. Untuk saat ini, mereka masih alat, belum menjadi perajin terampil yang mahir menggunakan alat. Ini akan berubah pelan-pelan, dan celah tempat algoritma langka bisa menang juga akan makin menyempit
    • Pada akhirnya, hasilnya tampak seperti salah satu dari dua hal: “luar biasa, efisiensinya naik 1%” atau “bodohnya aku menghabiskan satu jam untuk debug API halusinasi”
      Sangat sulit menilai, secara rata-rata, mana yang akan menang
    • Bagaimana jika riset berbantuan AI mendorong AI melampaui LLM? Apa kamu menganggap itu tidak mungkin terjadi?
    • Pernyataan bahwa “LLM tidak bisa menangani pekerjaan yang penuh pengetahuan implisit, berpusat pada sistem manusia, dan didefinisikan secara ambigu” kemungkinan akan terlihat sangat picik sekitar 2030
  • Para CEO AI suka berpanjang lebar bahwa AI akan menyembuhkan kanker, tetapi tempat yang benar-benar aktif mengejar masalah riset semacam itu tampaknya hanya DeepMind
    OpenAI dan Anthropic kelihatannya lebih banyak mengejar pendapatan enterprise dan pendapatan dari coding

    • Google bisa membiayai dirinya sendiri dengan dana perang, tetapi OpenAI dan Anthropic harus mengulurkan tangan ke investor
  • Apakah para Googler puas menggunakan agen coding Gemini alih-alih Claude Code atau Codex? Bukan menyindir, aku benar-benar penasaran

    • Ya. Modelnya bagus dan cepat, dan tool internalnya sekarang juga sudah menyusul
      Masih ada hal-hal yang sedang dibereskan di UI/UX/tooling, integrasi sistem kontrol versi, dan masalah lebih dalam yang sulit dibicarakan, tetapi menurutku kebanyakan keluhan lebih terkait kecepatan perubahan daripada kemampuan nyatanya
      Yang menarik, ada beberapa orang berpengaruh di internal yang sangat menegaskan bahwa mereka lebih suka model Flash daripada model Pro. Terlepas dari apakah itu benar, menarik bahwa kita sekarang sudah sampai di tahap di mana model yang “lebih baik” belum tentu lebih berguna, dan kombinasi model yang lebih cepat dengan perbaikan harness bisa menjadi kompromi yang lebih baik
    • Jika yang dimaksud adalah Gemini VS Code Extension, itu payah dibanding Claude Code atau Codex. Aku tidak paham bagaimana ini bisa tetap dijalankan
      Ada timeout terus-menerus, mode kegagalan aneh, masalah harus memulai chat baru untuk mengganti mode, dan lain-lain. Tapi ini tampaknya lebih merupakan masalah ekstensi daripada masalah model Gemini itu sendiri
      Di luar sisi ekstensi VS Code, jika melihat pemecahan masalah yang sebenarnya, ketiga model premium itu semuanya agen coding yang hebat untuk kebutuhanku
    • Coding bukan satu-satunya kegunaan Gemini atau model-model seperti ini. Artikel ini sendiri juga bukan tentang coding
      Gemini mungkin bukan agen coding terbaik, tetapi bisa sangat bagus untuk hal-hal lain
    • Bulan lalu Steve Yegge mengisyaratkan sebaliknya: https://xcancel.com/Steve_Yegge/status/2043747998740689171
    • Dari obrolanku dengan orang-orang di Google, kebanyakan tidak puas dengan agen Gemini internal dan merasa performanya memburuk cukup banyak belakangan ini
      Misalnya, ia benar-benar lupa cara melakukan pemanggilan tool, membuang banyak waktu, lalu akhirnya menyerah, atau sepenuhnya mengabaikan panduan gaya kode dalam file mirip AGENTS.md
      Pengalamanku menjalankan Gemma 4 secara lokal juga mirip. Setelah satu atau dua kali pemanggilan tool, ia mulai memanggil secara semaunya. Bahkan kemarin aku melihatnya mendefinisikan ulang tool seperti read_file(start, end) menjadi read_file(start, number_of_bytes), lalu bahkan tidak mau mengakui kemungkinan bahwa dirinya salah
  • Jika AI memperbaiki dirinya sendiri, atau setidaknya memperbaiki arsitektur tempat ia berjalan, maka singularitas memang terasa dekat seperti yang orang-orang katakan
    Selain pembuatan data sintetis atau pengujian model, adakah contoh lain AI dipakai untuk meningkatkan LLM?

    • Membuat AI lebih mampu sendiri dan mengoptimalkan perangkat lunak yang dipakai untuk pelatihan/inferensi AI itu bedanya seperti apel dan jeruk
      Transformer yang lebih efisien hanya menurunkan biaya menjalankannya
      Agar bisa disebut “AI memperbaiki AI,” satu generasi AI harus merancang generasi berikutnya yang secara mendasar lebih mampu daripada dirinya sendiri. Bukan sekadar membuatnya lebih cepat atau murah, tetapi setara dengan otak reptil yang secara otonom merancang otak mamalia
      Bahkan jika dihubungkan ke harness cerdas seperti AlphaEvolve, aku tidak melihat LLM punya kreativitas seperti itu. Pengecualiannya mungkin jika arsitektur generasi berikutnya sudah jelas tersembunyi sebagai kombinasi komponen yang bisa diarahkan untuk diprediksi oleh LLM
      Jalur yang lebih mungkin adalah setelah inovasi manusia menuju AGI melangkah beberapa tahap lagi, lalu muncul AI yang mampu melakukan inovasi otonom, bukan sekadar menghasilkan kombinasi berbasis prompt
    • Ada. Saat AlphaEvolve dirilis tahun lalu, ia meningkatkan kernel yang dipakai model Gemini sebelumnya untuk melatih model generasi ini, dan membuat proses pelatihan berjalan 1% lebih cepat. Tidak besar, tapi tetap hasil juga
    • Yang paling viral belakangan ini sepertinya https://github.com/karpathy/autoresearch
    • Perbaikan diri tidak harus berarti singularitas, bukan?
      Bisa saja ada batasan kuat yang membuat singularitas mustahil, atau cakrawala waktunya terlalu panjang sehingga tidak praktis, bukan?
    • Secara pribadi, kurasa 2027 adalah titik yang harus diperhatikan untuk “AI memperbaiki dirinya sendiri”
      Semua lab AI besar sedang mengerjakan proyek agen riset dalam skala besar, terutama agen untuk peningkatan AI, dan aku memperkirakan banyak di antaranya akan keluar dari tahap eksperimen tahun ini
      Tahun depan mereka akan benar-benar melakukan banyak hal, dan menurutku kita akan melihat perubahan arsitektur besar pertama yang valid dan diciptakan bersama oleh AI
  • Berapa kali lagi kita harus mendengar soal masalah Erdős? :) Awalnya terdengar seperti pencapaian luar biasa umat manusia, tapi lama-lama topik ini terus kembali lagi

    • Tinggal sekitar 700 masalah Erdős terbuka, jadi begitu semuanya selesai, kita akhirnya bisa istirahat
  • Sementara itu Gemini CLI sudah rusak berbulan-bulan
    https://github.com/google-gemini/gemini-cli/issues/22141

  • Aku berharap Google fokus merilis Gemini 3.x secara resmi, dan menyediakan kapasitas yang cukup sehingga kita tidak perlu terus berperang dengan error 429
    Sering terasa seperti mereka tidak ingin orang membangun aplikasi pelanggan enterprise dengan Vertex API. Sangat disayangkan, mengingat modelnya benar-benar hebat untuk hal-hal seperti analisis dokumen

    • Apakah ini dilakukan di tier gratis? Di tier gratis aku memang melihat 429 jauh lebih sering
  • Semua paper *Evolve hasilnya sangat mengesankan, tetapi setelah melihat informasi yang dipublikasikan, kesanku adalah perhatian orang tertarik ke sisi LLM dan AI
    Padahal hasil yang dilaporkan hampir selalu merupakan hasil dari lingkungan yang dirancang sangat baik agar LLM dan algoritma evolusi bisa bekerja maksimal
    Paper ini contoh yang bagus dan layak dibaca
    Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
    https://arxiv.org/abs/2601.21096

  • Ini solusi yang sangat sederhana untuk peningkatan algoritma. Aku berharap hal seperti ini sudah ada beberapa tahun lalu saat aku mengerjakan activation engineering: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
    Bagaimana cara mengakses AlphaEvolve?

    • Ini cuma tulisan pamer. Artinya, jadi perusahaan miliaran dolar atau keluar sana
  • Masalah yang kurasakan di Claude sederhana saja: bahkan untuk tugas yang simpel, ia terlalu menggembungkan kode dan output, dan kadang malah tidak jalan
    Gemini cukup bagus dalam memberi solusi yang bekerja dengan kode secukupnya dan kompleksitas minimum, jadi keseimbangannya lebih mudah dikelola
    Akhir-akhir ini aku hanya mencari Claude untuk kode frontend, terutama HTML. Bahkan di sini pun ia menulis terlalu banyak CSS sampai kira-kira memakan 60% ukuran file, tapi tetap memberi kesan sedikit lebih polished, jadi aku masih menoleransi ukuran file yang lebih besar