- Data dalam jumlah sangat besar yang dihasilkan di Large Hadron Collider difilter secara real-time menggunakan model AI ultra-kecil yang diimplementasikan langsung di chip silikon, sehingga hanya peristiwa yang bermakna secara ilmiah yang dipilih
- Untuk memproses aliran data ratusan terabita per detik, digunakan perangkat keras berbasis FPGA dan ASIC alih-alih GPU atau TPU, dengan pengambilan keputusan pada latensi tingkat nanodetik
- Melalui alat HLS4ML, model PyTorch atau TensorFlow diubah menjadi kode C++ yang dapat disintesis untuk langsung diterapkan ke chip, dan dengan struktur berbasis lookup table dapat menghasilkan keluaran seketika tanpa operasi floating-point
- Level-1 Trigger di LHC terdiri dari sekitar 1.000 FPGA yang mengevaluasi data dalam waktu kurang dari 50 nanodetik, lalu pada tahap berikutnya 25.600 CPU dan 400 GPU melakukan penyaringan tambahan
- CERN sedang mengembangkan model AI ultra-kecil generasi berikutnya untuk menghadapi upgrade High-Luminosity LHC pada 2031, dan pendekatan ini berpotensi diperluas ke sistem otonom, pencitraan medis, dan bidang aplikasi ultra-latensi rendah lainnya
Ikhtisar
- CERN mengimplementasikan model kecerdasan buatan ultra-kecil langsung pada chip silikon untuk memfilter secara real-time data dalam jumlah sangat besar yang dihasilkan di Large Hadron Collider (LHC)
- Dari data tumbukan, hanya peristiwa yang bermakna secara ilmiah yang dipilih, sementara sisanya langsung dibuang
- Untuk menangani aliran data yang mencapai ratusan terabita per detik, CERN menggunakan perangkat keras kustom berbasis FPGA dan ASIC, bukan GPU atau TPU
- Model AI tertanam di perangkat keras ini mengambil keputusan pada tingkat detektor dengan latensi mikrodetik hingga nanodetik
- Proses seleksi real-time ini dinilai sebagai salah satu tugas dengan kebutuhan komputasi tertinggi dalam sains modern
Tantangan pemrosesan data
- LHC menghasilkan sekitar 40.000 eksabita data mentah per tahun, setara dengan sekitar seperempat dari total internet saat ini
- Berkas proton bergerak di dalam cincin 27 km pada kecepatan mendekati cahaya dan berpapasan setiap 25 nanodetik
- Tumbukan nyata jarang terjadi, tetapi satu kali tumbukan dapat menghasilkan data beberapa megabita
- Karena mustahil menyimpan atau memproses seluruh data, hanya sekitar 0,02% peristiwa yang dipertahankan
- Tahap penyaringan pertama, Level-1 Trigger, terdiri dari sekitar 1.000 FPGA dan mengevaluasi data dalam waktu kurang dari 50 nanodetik
- Algoritme AXOL1TL dijalankan langsung di atas chip ini untuk mengidentifikasi peristiwa yang menjanjikan secara ilmiah dan segera membuang sisanya
Pendekatan AI dan stack teknologi
- Model AI CERN dirancang dengan arsitektur ultra-kecil dan efisien tinggi, dan tidak seperti model industri berskala besar pada umumnya, model ini dioptimalkan untuk inferensi ultra-latensi rendah pada level detektor
- Melalui alat open source HLS4ML, model berbasis PyTorch atau TensorFlow diubah menjadi kode C++ yang dapat disintesis
- Kode hasil konversi kemudian diterapkan langsung ke FPGA, SoC, dan ASIC, sehingga dapat berjalan dengan daya dan luas silikon yang jauh lebih kecil dibanding GPU atau TPU
- Sebagian besar sumber daya chip digunakan bukan untuk lapisan jaringan saraf, melainkan untuk implementasi lookup table yang telah dihitung sebelumnya
- Tabel ini menyimpan lebih dulu hasil dari pola input umum, sehingga untuk sebagian besar sinyal detektor dapat menghasilkan keluaran seketika tanpa operasi floating-point
- Filosofi desain yang mendahulukan perangkat keras inilah yang memungkinkan latensi tingkat nanodetik
- Tahap penyaringan kedua, High-Level Trigger, berjalan pada computing farm yang terdiri dari 25.600 CPU dan 400 GPU
- Bahkan setelah Level-1 Trigger, sistem ini masih memproses beberapa terabita data per detik dan memadatkannya menjadi sekitar 1 petabita data ilmiah per hari
Rencana ke depan
- LHC sedang mempersiapkan upgrade High-Luminosity LHC (HL-LHC) yang dijadwalkan beroperasi pada 2031
- Jumlah data per tumbukan diperkirakan meningkat sekitar 10 kali lipat dibanding saat ini, dan ukuran peristiwa juga akan menjadi jauh lebih besar
- Untuk menghadapinya, CERN sedang mengembangkan model AI ultra-kecil generasi berikutnya serta optimalisasi implementasi FPGA dan ASIC
- Seluruh sistem trigger real-time dirancang untuk diperkuat agar tetap mempertahankan kinerja ultra-latensi rendah bahkan pada laju data yang jauh lebih tinggi
- Persiapan ini dipandang sebagai fondasi kunci untuk memungkinkan penemuan baru dalam fisika partikel secara berkelanjutan selama beberapa dekade ke depan
Makna dan dampak
- Di saat industri AI global berfokus pada perluasan model berskala besar, CERN justru mengembangkan model AI yang paling kecil, paling cepat, dan paling efisien
- Model-model ini diimplementasikan langsung pada FPGA dan ASIC, dan dinilai sebagai contoh penerapan nyata “Tiny AI”
- Dalam sistem trigger LHC, model-model ini mencapai tingkat performa yang tidak mungkin dicapai akselerator AI umum
- Di lingkungan ekstrem yang membutuhkan pengambilan keputusan pada skala nanodetik, pendekatan ini mewujudkan efisiensi maksimum dengan sumber daya minimum
- Pendekatan ini berpotensi diterapkan melampaui fisika partikel, ke bidang yang memerlukan inferensi real-time ultra-latensi rendah seperti sistem otonom, perdagangan frekuensi tinggi, pencitraan medis, dan dirgantara
- Di era ketika efisiensi energi dan penghematan sumber daya komputasi semakin penting, model CERN menawarkan alternatif berupa spesialisasi ekstrem dan optimalisasi di level perangkat keras, alih-alih sekadar memperbesar skala model
1 komentar
Komentar Hacker News
Saya adalah penulis dari salah satu dari dua model di makalah ini
Untuk meluruskan kesalahpahaman: model-model ini bukan diukir langsung ke silikon, melainkan ditempatkan di atas FPGA
Dalam kasus axol1tl, bobotnya memang di-hardwire ke fabric, tetapi tetap bisa diprogram ulang
Proyek seperti smartpixel CERN atau HG-Cal readout memang sedang diarahkan ke silikon sungguhan
Slide terkait: presentasi CERN
Proses persetujuan makalahnya panjang, tetapi versi yang lebih komprehensif akan keluar dalam beberapa bulan ke depan
Model ini awalnya berupa MLP berbasis VAE yang sederhana, lalu sejak v5 ditambahkan blok VICREG sehingga bisa berjalan pada 40MHz dalam 2 clock
Setelah itu model tersebut ditempatkan di FPGA melalui hls4ml-da4ml, makalah terkait
Model CICADA juga berbasis VAE, dan melakukan distilasi skor deteksi anomali secara supervised dengan arsitektur guru-murid
Slide referensi: materi presentasi CICADA
Riset saya berfokus pada QAT (quantization-aware training) dan deployment NN berbasis distributed arithmetic
Makalah terkait: arXiv:2405.00645, arXiv:2507.04535
Di awal PhD saya, saya juga pernah mengimplementasikan akselerator GNN di FPGA dan sempat berkolaborasi dengan pihak CERN/Fermilab
Sekarang saya beralih ke riset terkait HLS dan EDA, dan saya penasaran apa batasan utama saat mengimplementasikan sistem trigger ke perangkat keras saat ini
Bug pada tool HLS komersial, sulitnya debugging, dan waktu build yang panjang terasa seperti kendala besar
Saya ingin tahu apakah karena alasan-alasan ini tooling EDA menjadi bottleneck, atau justru ada faktor teknis lain yang lebih besar
Mereka memakai jaringan saraf berbasis autoencoder dengan convolution layer dan melatihnya dengan data eksperimen sebelumnya
makalah terkait
Artikelnya akan jauh lebih baik jika menjelaskan dengan jelas algoritme AI apa yang dipakai
Sebenarnya branch predictor pada CPU modern juga memakai perceptron
Bahkan pada era Delphi sudah ada makalah tentang ANN untuk seleksi Higgs, dan upaya-upaya itu berlanjut sampai LHC
Membagikan video terkait
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
halaman Tech Talk ScyllaDB
Proyek ini berjalan pada 40MHz, tetapi tool CflexHDL yang saya buat mampu menjalankan ray tracing real-time pada 148MHz
video demo
Tool ini didukung oleh Nlnet Foundation, dan integrasi dengan tool AI CERN juga sedang direncanakan
Saya ingin menekankan pentingnya toolchain open source
Ada sedikit hype AI di artikel ini
Pada dasarnya ini bisa dilihat sebagai chip yang berisi logika hardcoded yang diperoleh lewat machine learning
Pada praktiknya ini lebih dekat ke state machine khusus inferensi, dan jika lingkungannya berubah maka yang dibutuhkan bukan retraining melainkan hardware respin
Dalam situasi seperti ini, terasa jelas bahwa kata “AI” bukan sekadar kata hiasan
Hal yang menarik adalah, berbeda dari AI pada umumnya, di sini model harus membuktikan alasan keberadaannya dengan bertahan di bawah batasan perangkat keras
Dalam lingkungan seperti ini, bukan hanya latency yang penting, tetapi juga determinisme, anggaran daya, dan stabilitas di bawah beban ekstrem
Ungkapan “FPGA diukir ke silikon” terdengar aneh
Jika CERN melakukan tape-out ASIC, itu akan menjadi hal yang mengejutkan
materi presentasi terkait
Ini bukan LLM seperti yang biasa dimaksud orang sekarang, melainkan jaringan saraf yang diimplementasikan di FPGA
Saya juga ragu ASIC akan cocok untuk kasus ini
Terima kasih atas masukannya
Saya sudah merevisi isi artikel menjadi arsitektur AXOL1TL berbasis VAE dan menambahkan makalah arXiv terkait serta video presentasi Thea Aarrestad
CERN masih menggunakan GPU secara luas dan secara aktif memanfaatkan GPU/CPU COTS sesuai kebutuhan