CERN menyematkan model AI ultra-kecil ke FPGA untuk memfilter data LHC secara real-time

(theopenreader.org)

8 poin oleh GN⁺ 22 hari lalu | 1 komentar | Bagikan ke WhatsApp

Data dalam jumlah sangat besar yang dihasilkan di Large Hadron Collider difilter secara real-time menggunakan model AI ultra-kecil yang diimplementasikan langsung di chip silikon, sehingga hanya peristiwa yang bermakna secara ilmiah yang dipilih
Untuk memproses aliran data ratusan terabita per detik, digunakan perangkat keras berbasis FPGA dan ASIC alih-alih GPU atau TPU, dengan pengambilan keputusan pada latensi tingkat nanodetik
Melalui alat HLS4ML, model PyTorch atau TensorFlow diubah menjadi kode C++ yang dapat disintesis untuk langsung diterapkan ke chip, dan dengan struktur berbasis lookup table dapat menghasilkan keluaran seketika tanpa operasi floating-point
Level-1 Trigger di LHC terdiri dari sekitar 1.000 FPGA yang mengevaluasi data dalam waktu kurang dari 50 nanodetik, lalu pada tahap berikutnya 25.600 CPU dan 400 GPU melakukan penyaringan tambahan
CERN sedang mengembangkan model AI ultra-kecil generasi berikutnya untuk menghadapi upgrade High-Luminosity LHC pada 2031, dan pendekatan ini berpotensi diperluas ke sistem otonom, pencitraan medis, dan bidang aplikasi ultra-latensi rendah lainnya

Ikhtisar

CERN mengimplementasikan model kecerdasan buatan ultra-kecil langsung pada chip silikon untuk memfilter secara real-time data dalam jumlah sangat besar yang dihasilkan di Large Hadron Collider (LHC)
- Dari data tumbukan, hanya peristiwa yang bermakna secara ilmiah yang dipilih, sementara sisanya langsung dibuang
- Untuk menangani aliran data yang mencapai ratusan terabita per detik, CERN menggunakan perangkat keras kustom berbasis FPGA dan ASIC, bukan GPU atau TPU
Model AI tertanam di perangkat keras ini mengambil keputusan pada tingkat detektor dengan latensi mikrodetik hingga nanodetik
- Proses seleksi real-time ini dinilai sebagai salah satu tugas dengan kebutuhan komputasi tertinggi dalam sains modern

Tantangan pemrosesan data

LHC menghasilkan sekitar 40.000 eksabita data mentah per tahun, setara dengan sekitar seperempat dari total internet saat ini
- Berkas proton bergerak di dalam cincin 27 km pada kecepatan mendekati cahaya dan berpapasan setiap 25 nanodetik
- Tumbukan nyata jarang terjadi, tetapi satu kali tumbukan dapat menghasilkan data beberapa megabita
Karena mustahil menyimpan atau memproses seluruh data, hanya sekitar 0,02% peristiwa yang dipertahankan
- Tahap penyaringan pertama, Level-1 Trigger, terdiri dari sekitar 1.000 FPGA dan mengevaluasi data dalam waktu kurang dari 50 nanodetik
- Algoritme AXOL1TL dijalankan langsung di atas chip ini untuk mengidentifikasi peristiwa yang menjanjikan secara ilmiah dan segera membuang sisanya

Pendekatan AI dan stack teknologi

Model AI CERN dirancang dengan arsitektur ultra-kecil dan efisien tinggi, dan tidak seperti model industri berskala besar pada umumnya, model ini dioptimalkan untuk inferensi ultra-latensi rendah pada level detektor
- Melalui alat open source HLS4ML, model berbasis PyTorch atau TensorFlow diubah menjadi kode C++ yang dapat disintesis
- Kode hasil konversi kemudian diterapkan langsung ke FPGA, SoC, dan ASIC, sehingga dapat berjalan dengan daya dan luas silikon yang jauh lebih kecil dibanding GPU atau TPU
Sebagian besar sumber daya chip digunakan bukan untuk lapisan jaringan saraf, melainkan untuk implementasi lookup table yang telah dihitung sebelumnya
- Tabel ini menyimpan lebih dulu hasil dari pola input umum, sehingga untuk sebagian besar sinyal detektor dapat menghasilkan keluaran seketika tanpa operasi floating-point
- Filosofi desain yang mendahulukan perangkat keras inilah yang memungkinkan latensi tingkat nanodetik
Tahap penyaringan kedua, High-Level Trigger, berjalan pada computing farm yang terdiri dari 25.600 CPU dan 400 GPU
- Bahkan setelah Level-1 Trigger, sistem ini masih memproses beberapa terabita data per detik dan memadatkannya menjadi sekitar 1 petabita data ilmiah per hari

Rencana ke depan

LHC sedang mempersiapkan upgrade High-Luminosity LHC (HL-LHC) yang dijadwalkan beroperasi pada 2031
- Jumlah data per tumbukan diperkirakan meningkat sekitar 10 kali lipat dibanding saat ini, dan ukuran peristiwa juga akan menjadi jauh lebih besar
Untuk menghadapinya, CERN sedang mengembangkan model AI ultra-kecil generasi berikutnya serta optimalisasi implementasi FPGA dan ASIC
- Seluruh sistem trigger real-time dirancang untuk diperkuat agar tetap mempertahankan kinerja ultra-latensi rendah bahkan pada laju data yang jauh lebih tinggi
Persiapan ini dipandang sebagai fondasi kunci untuk memungkinkan penemuan baru dalam fisika partikel secara berkelanjutan selama beberapa dekade ke depan

Makna dan dampak

Di saat industri AI global berfokus pada perluasan model berskala besar, CERN justru mengembangkan model AI yang paling kecil, paling cepat, dan paling efisien
- Model-model ini diimplementasikan langsung pada FPGA dan ASIC, dan dinilai sebagai contoh penerapan nyata “Tiny AI”
Dalam sistem trigger LHC, model-model ini mencapai tingkat performa yang tidak mungkin dicapai akselerator AI umum
- Di lingkungan ekstrem yang membutuhkan pengambilan keputusan pada skala nanodetik, pendekatan ini mewujudkan efisiensi maksimum dengan sumber daya minimum
Pendekatan ini berpotensi diterapkan melampaui fisika partikel, ke bidang yang memerlukan inferensi real-time ultra-latensi rendah seperti sistem otonom, perdagangan frekuensi tinggi, pencitraan medis, dan dirgantara
- Di era ketika efisiensi energi dan penghematan sumber daya komputasi semakin penting, model CERN menawarkan alternatif berupa spesialisasi ekstrem dan optimalisasi di level perangkat keras, alih-alih sekadar memperbesar skala model

1 komentar

GN⁺ 22 hari lalu

Komentar Hacker News

Saya adalah penulis dari salah satu dari dua model di makalah ini
Untuk meluruskan kesalahpahaman: model-model ini bukan diukir langsung ke silikon, melainkan ditempatkan di atas FPGA
Dalam kasus axol1tl, bobotnya memang di-hardwire ke fabric, tetapi tetap bisa diprogram ulang
Proyek seperti smartpixel CERN atau HG-Cal readout memang sedang diarahkan ke silikon sungguhan
Slide terkait: presentasi CERN
Proses persetujuan makalahnya panjang, tetapi versi yang lebih komprehensif akan keluar dalam beberapa bulan ke depan
Model ini awalnya berupa MLP berbasis VAE yang sederhana, lalu sejak v5 ditambahkan blok VICREG sehingga bisa berjalan pada 40MHz dalam 2 clock
Setelah itu model tersebut ditempatkan di FPGA melalui hls4ml-da4ml, makalah terkait
Model CICADA juga berbasis VAE, dan melakukan distilasi skor deteksi anomali secara supervised dengan arsitektur guru-murid
Slide referensi: materi presentasi CICADA
Riset saya berfokus pada QAT (quantization-aware training) dan deployment NN berbasis distributed arithmetic
Makalah terkait: arXiv:2405.00645, arXiv:2507.04535
- Ini pekerjaan yang sangat menarik
  Di awal PhD saya, saya juga pernah mengimplementasikan akselerator GNN di FPGA dan sempat berkolaborasi dengan pihak CERN/Fermilab
  Sekarang saya beralih ke riset terkait HLS dan EDA, dan saya penasaran apa batasan utama saat mengimplementasikan sistem trigger ke perangkat keras saat ini
  Bug pada tool HLS komersial, sulitnya debugging, dan waktu build yang panjang terasa seperti kendala besar
  Saya ingin tahu apakah karena alasan-alasan ini tooling EDA menjadi bottleneck, atau justru ada faktor teknis lain yang lebih besar
Mereka memakai jaringan saraf berbasis autoencoder dengan convolution layer dan melatihnya dengan data eksperimen sebelumnya
makalah terkait
Artikelnya akan jauh lebih baik jika menjelaskan dengan jelas algoritme AI apa yang dipakai
- Sekarang ini, “model AI” kadang pada praktiknya hanya berarti regresi linear
- Karena sebagian besar implementasinya berbasis FPGA, ungkapan “diukir ke silikon” terasa berlebihan
- Ada kesan bahwa kalau bukan LLM maka tidak akan diperhatikan, jadi kata “AI” terasa seperti alat pemasaran
- Sangat menjengkelkan ketika artikel teknis menghilangkan algoritme intinya
- Setelah tahu bahwa pada akhirnya ini adalah masalah deteksi anomali (anomaly detection), jadi lebih mudah dipahami
Sebenarnya branch predictor pada CPU modern juga memakai perceptron
- Sebagai contoh, lihat artikel tentang NN di dalam chip Samsung Galaxy S7 dan makalah IEEE
- Saya tidak tahu bahwa struktur seperti ini ada; saya ingin tahu lebih banyak tentang bagaimana ia dirancang dan dilatih
- Sayangnya sekarang “AI” sering dipakai dengan makna seperti “kami tidak paham masalahnya jadi kami lempar black box”
- Perceptron pada akhirnya hanyalah prediktor linear, jadi cukup sederhana
- Di bidang HEP, FPGA sudah dipakai untuk trigger L0 sejak puluhan tahun lalu
  Bahkan pada era Delphi sudah ada makalah tentang ANN untuk seleksi Higgs, dan upaya-upaya itu berlanjut sampai LHC
Membagikan video terkait
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
halaman Tech Talk ScyllaDB
Proyek ini berjalan pada 40MHz, tetapi tool CflexHDL yang saya buat mampu menjalankan ray tracing real-time pada 148MHz
video demo
Tool ini didukung oleh Nlnet Foundation, dan integrasi dengan tool AI CERN juga sedang direncanakan
Saya ingin menekankan pentingnya toolchain open source
Ada sedikit hype AI di artikel ini
Pada dasarnya ini bisa dilihat sebagai chip yang berisi logika hardcoded yang diperoleh lewat machine learning
- ML sejak awal memang merupakan bagian dari AI, bukan konsep yang baru muncul setelah ChatGPT
- Bobot LLM pada akhirnya juga berisi logika yang dipelajari
- Istilah “AI” terdengar seperti untuk pemasaran
  Pada praktiknya ini lebih dekat ke state machine khusus inferensi, dan jika lingkungannya berubah maka yang dibutuhkan bukan retraining melainkan hardware respin
  Dalam situasi seperti ini, terasa jelas bahwa kata “AI” bukan sekadar kata hiasan
Hal yang menarik adalah, berbeda dari AI pada umumnya, di sini model harus membuktikan alasan keberadaannya dengan bertahan di bawah batasan perangkat keras
Dalam lingkungan seperti ini, bukan hanya latency yang penting, tetapi juga determinisme, anggaran daya, dan stabilitas di bawah beban ekstrem
Ungkapan “FPGA diukir ke silikon” terdengar aneh
Jika CERN melakukan tape-out ASIC, itu akan menjadi hal yang mengejutkan
- Faktanya CERN memang merancang ASIC kustom untuk keperluan lain
  materi presentasi terkait
- Mungkin saja produksinya disubkontrakkan ke vendor eksternal
- Sepertinya pada akhirnya judul artikelnya memang diperbaiki
Ini bukan LLM seperti yang biasa dimaksud orang sekarang, melainkan jaringan saraf yang diimplementasikan di FPGA
- Pemasaran dari perusahaan-perusahaan LLM memang begitu kuat, jadi awalnya saya juga langsung terpikir ke arah itu
- Kalau FPGA, maka ungkapan “diukir ke silikon” tidak akurat
  Saya juga ragu ASIC akan cocok untuk kasus ini
Terima kasih atas masukannya
Saya sudah merevisi isi artikel menjadi arsitektur AXOL1TL berbasis VAE dan menambahkan makalah arXiv terkait serta video presentasi Thea Aarrestad
- Namun, kalimat “CERN meninggalkan AI berbasis GPU/TPU” tidak sesuai fakta
  CERN masih menggunakan GPU secara luas dan secara aktif memanfaatkan GPU/CPU COTS sesuai kebutuhan

CERN menyematkan model AI ultra-kecil ke FPGA untuk memfilter data LHC secara real-time

Ikhtisar

Tantangan pemrosesan data

Pendekatan AI dan stack teknologi

Rencana ke depan

Makna dan dampak

Bacaan terkait

1 komentar

Komentar Hacker News