8 poin oleh GN⁺ 22 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Data dalam jumlah sangat besar yang dihasilkan di Large Hadron Collider difilter secara real-time menggunakan model AI ultra-kecil yang diimplementasikan langsung di chip silikon, sehingga hanya peristiwa yang bermakna secara ilmiah yang dipilih
  • Untuk memproses aliran data ratusan terabita per detik, digunakan perangkat keras berbasis FPGA dan ASIC alih-alih GPU atau TPU, dengan pengambilan keputusan pada latensi tingkat nanodetik
  • Melalui alat HLS4ML, model PyTorch atau TensorFlow diubah menjadi kode C++ yang dapat disintesis untuk langsung diterapkan ke chip, dan dengan struktur berbasis lookup table dapat menghasilkan keluaran seketika tanpa operasi floating-point
  • Level-1 Trigger di LHC terdiri dari sekitar 1.000 FPGA yang mengevaluasi data dalam waktu kurang dari 50 nanodetik, lalu pada tahap berikutnya 25.600 CPU dan 400 GPU melakukan penyaringan tambahan
  • CERN sedang mengembangkan model AI ultra-kecil generasi berikutnya untuk menghadapi upgrade High-Luminosity LHC pada 2031, dan pendekatan ini berpotensi diperluas ke sistem otonom, pencitraan medis, dan bidang aplikasi ultra-latensi rendah lainnya

Ikhtisar

  • CERN mengimplementasikan model kecerdasan buatan ultra-kecil langsung pada chip silikon untuk memfilter secara real-time data dalam jumlah sangat besar yang dihasilkan di Large Hadron Collider (LHC)
    • Dari data tumbukan, hanya peristiwa yang bermakna secara ilmiah yang dipilih, sementara sisanya langsung dibuang
    • Untuk menangani aliran data yang mencapai ratusan terabita per detik, CERN menggunakan perangkat keras kustom berbasis FPGA dan ASIC, bukan GPU atau TPU
  • Model AI tertanam di perangkat keras ini mengambil keputusan pada tingkat detektor dengan latensi mikrodetik hingga nanodetik
    • Proses seleksi real-time ini dinilai sebagai salah satu tugas dengan kebutuhan komputasi tertinggi dalam sains modern

Tantangan pemrosesan data

  • LHC menghasilkan sekitar 40.000 eksabita data mentah per tahun, setara dengan sekitar seperempat dari total internet saat ini
    • Berkas proton bergerak di dalam cincin 27 km pada kecepatan mendekati cahaya dan berpapasan setiap 25 nanodetik
    • Tumbukan nyata jarang terjadi, tetapi satu kali tumbukan dapat menghasilkan data beberapa megabita
  • Karena mustahil menyimpan atau memproses seluruh data, hanya sekitar 0,02% peristiwa yang dipertahankan
    • Tahap penyaringan pertama, Level-1 Trigger, terdiri dari sekitar 1.000 FPGA dan mengevaluasi data dalam waktu kurang dari 50 nanodetik
    • Algoritme AXOL1TL dijalankan langsung di atas chip ini untuk mengidentifikasi peristiwa yang menjanjikan secara ilmiah dan segera membuang sisanya

Pendekatan AI dan stack teknologi

  • Model AI CERN dirancang dengan arsitektur ultra-kecil dan efisien tinggi, dan tidak seperti model industri berskala besar pada umumnya, model ini dioptimalkan untuk inferensi ultra-latensi rendah pada level detektor
    • Melalui alat open source HLS4ML, model berbasis PyTorch atau TensorFlow diubah menjadi kode C++ yang dapat disintesis
    • Kode hasil konversi kemudian diterapkan langsung ke FPGA, SoC, dan ASIC, sehingga dapat berjalan dengan daya dan luas silikon yang jauh lebih kecil dibanding GPU atau TPU
  • Sebagian besar sumber daya chip digunakan bukan untuk lapisan jaringan saraf, melainkan untuk implementasi lookup table yang telah dihitung sebelumnya
    • Tabel ini menyimpan lebih dulu hasil dari pola input umum, sehingga untuk sebagian besar sinyal detektor dapat menghasilkan keluaran seketika tanpa operasi floating-point
    • Filosofi desain yang mendahulukan perangkat keras inilah yang memungkinkan latensi tingkat nanodetik
  • Tahap penyaringan kedua, High-Level Trigger, berjalan pada computing farm yang terdiri dari 25.600 CPU dan 400 GPU
    • Bahkan setelah Level-1 Trigger, sistem ini masih memproses beberapa terabita data per detik dan memadatkannya menjadi sekitar 1 petabita data ilmiah per hari

Rencana ke depan

  • LHC sedang mempersiapkan upgrade High-Luminosity LHC (HL-LHC) yang dijadwalkan beroperasi pada 2031
    • Jumlah data per tumbukan diperkirakan meningkat sekitar 10 kali lipat dibanding saat ini, dan ukuran peristiwa juga akan menjadi jauh lebih besar
  • Untuk menghadapinya, CERN sedang mengembangkan model AI ultra-kecil generasi berikutnya serta optimalisasi implementasi FPGA dan ASIC
    • Seluruh sistem trigger real-time dirancang untuk diperkuat agar tetap mempertahankan kinerja ultra-latensi rendah bahkan pada laju data yang jauh lebih tinggi
  • Persiapan ini dipandang sebagai fondasi kunci untuk memungkinkan penemuan baru dalam fisika partikel secara berkelanjutan selama beberapa dekade ke depan

Makna dan dampak

  • Di saat industri AI global berfokus pada perluasan model berskala besar, CERN justru mengembangkan model AI yang paling kecil, paling cepat, dan paling efisien
    • Model-model ini diimplementasikan langsung pada FPGA dan ASIC, dan dinilai sebagai contoh penerapan nyata “Tiny AI”
  • Dalam sistem trigger LHC, model-model ini mencapai tingkat performa yang tidak mungkin dicapai akselerator AI umum
    • Di lingkungan ekstrem yang membutuhkan pengambilan keputusan pada skala nanodetik, pendekatan ini mewujudkan efisiensi maksimum dengan sumber daya minimum
  • Pendekatan ini berpotensi diterapkan melampaui fisika partikel, ke bidang yang memerlukan inferensi real-time ultra-latensi rendah seperti sistem otonom, perdagangan frekuensi tinggi, pencitraan medis, dan dirgantara
    • Di era ketika efisiensi energi dan penghematan sumber daya komputasi semakin penting, model CERN menawarkan alternatif berupa spesialisasi ekstrem dan optimalisasi di level perangkat keras, alih-alih sekadar memperbesar skala model

1 komentar

 
GN⁺ 22 hari lalu
Komentar Hacker News
  • Saya adalah penulis dari salah satu dari dua model di makalah ini
    Untuk meluruskan kesalahpahaman: model-model ini bukan diukir langsung ke silikon, melainkan ditempatkan di atas FPGA
    Dalam kasus axol1tl, bobotnya memang di-hardwire ke fabric, tetapi tetap bisa diprogram ulang
    Proyek seperti smartpixel CERN atau HG-Cal readout memang sedang diarahkan ke silikon sungguhan
    Slide terkait: presentasi CERN
    Proses persetujuan makalahnya panjang, tetapi versi yang lebih komprehensif akan keluar dalam beberapa bulan ke depan
    Model ini awalnya berupa MLP berbasis VAE yang sederhana, lalu sejak v5 ditambahkan blok VICREG sehingga bisa berjalan pada 40MHz dalam 2 clock
    Setelah itu model tersebut ditempatkan di FPGA melalui hls4ml-da4ml, makalah terkait
    Model CICADA juga berbasis VAE, dan melakukan distilasi skor deteksi anomali secara supervised dengan arsitektur guru-murid
    Slide referensi: materi presentasi CICADA
    Riset saya berfokus pada QAT (quantization-aware training) dan deployment NN berbasis distributed arithmetic
    Makalah terkait: arXiv:2405.00645, arXiv:2507.04535

    • Ini pekerjaan yang sangat menarik
      Di awal PhD saya, saya juga pernah mengimplementasikan akselerator GNN di FPGA dan sempat berkolaborasi dengan pihak CERN/Fermilab
      Sekarang saya beralih ke riset terkait HLS dan EDA, dan saya penasaran apa batasan utama saat mengimplementasikan sistem trigger ke perangkat keras saat ini
      Bug pada tool HLS komersial, sulitnya debugging, dan waktu build yang panjang terasa seperti kendala besar
      Saya ingin tahu apakah karena alasan-alasan ini tooling EDA menjadi bottleneck, atau justru ada faktor teknis lain yang lebih besar
  • Mereka memakai jaringan saraf berbasis autoencoder dengan convolution layer dan melatihnya dengan data eksperimen sebelumnya
    makalah terkait
    Artikelnya akan jauh lebih baik jika menjelaskan dengan jelas algoritme AI apa yang dipakai

    • Sekarang ini, “model AI” kadang pada praktiknya hanya berarti regresi linear
    • Karena sebagian besar implementasinya berbasis FPGA, ungkapan “diukir ke silikon” terasa berlebihan
    • Ada kesan bahwa kalau bukan LLM maka tidak akan diperhatikan, jadi kata “AI” terasa seperti alat pemasaran
    • Sangat menjengkelkan ketika artikel teknis menghilangkan algoritme intinya
    • Setelah tahu bahwa pada akhirnya ini adalah masalah deteksi anomali (anomaly detection), jadi lebih mudah dipahami
  • Sebenarnya branch predictor pada CPU modern juga memakai perceptron

    • Sebagai contoh, lihat artikel tentang NN di dalam chip Samsung Galaxy S7 dan makalah IEEE
    • Saya tidak tahu bahwa struktur seperti ini ada; saya ingin tahu lebih banyak tentang bagaimana ia dirancang dan dilatih
    • Sayangnya sekarang “AI” sering dipakai dengan makna seperti “kami tidak paham masalahnya jadi kami lempar black box”
    • Perceptron pada akhirnya hanyalah prediktor linear, jadi cukup sederhana
    • Di bidang HEP, FPGA sudah dipakai untuk trigger L0 sejak puluhan tahun lalu
      Bahkan pada era Delphi sudah ada makalah tentang ANN untuk seleksi Higgs, dan upaya-upaya itu berlanjut sampai LHC
  • Membagikan video terkait
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    halaman Tech Talk ScyllaDB

  • Proyek ini berjalan pada 40MHz, tetapi tool CflexHDL yang saya buat mampu menjalankan ray tracing real-time pada 148MHz
    video demo
    Tool ini didukung oleh Nlnet Foundation, dan integrasi dengan tool AI CERN juga sedang direncanakan
    Saya ingin menekankan pentingnya toolchain open source

  • Ada sedikit hype AI di artikel ini
    Pada dasarnya ini bisa dilihat sebagai chip yang berisi logika hardcoded yang diperoleh lewat machine learning

    • ML sejak awal memang merupakan bagian dari AI, bukan konsep yang baru muncul setelah ChatGPT
    • Bobot LLM pada akhirnya juga berisi logika yang dipelajari
    • Istilah “AI” terdengar seperti untuk pemasaran
      Pada praktiknya ini lebih dekat ke state machine khusus inferensi, dan jika lingkungannya berubah maka yang dibutuhkan bukan retraining melainkan hardware respin
      Dalam situasi seperti ini, terasa jelas bahwa kata “AI” bukan sekadar kata hiasan
  • Hal yang menarik adalah, berbeda dari AI pada umumnya, di sini model harus membuktikan alasan keberadaannya dengan bertahan di bawah batasan perangkat keras
    Dalam lingkungan seperti ini, bukan hanya latency yang penting, tetapi juga determinisme, anggaran daya, dan stabilitas di bawah beban ekstrem

  • Ungkapan “FPGA diukir ke silikon” terdengar aneh
    Jika CERN melakukan tape-out ASIC, itu akan menjadi hal yang mengejutkan

    • Faktanya CERN memang merancang ASIC kustom untuk keperluan lain
      materi presentasi terkait
    • Mungkin saja produksinya disubkontrakkan ke vendor eksternal
    • Sepertinya pada akhirnya judul artikelnya memang diperbaiki
  • Ini bukan LLM seperti yang biasa dimaksud orang sekarang, melainkan jaringan saraf yang diimplementasikan di FPGA

    • Pemasaran dari perusahaan-perusahaan LLM memang begitu kuat, jadi awalnya saya juga langsung terpikir ke arah itu
    • Kalau FPGA, maka ungkapan “diukir ke silikon” tidak akurat
      Saya juga ragu ASIC akan cocok untuk kasus ini
  • Terima kasih atas masukannya
    Saya sudah merevisi isi artikel menjadi arsitektur AXOL1TL berbasis VAE dan menambahkan makalah arXiv terkait serta video presentasi Thea Aarrestad

    • Namun, kalimat “CERN meninggalkan AI berbasis GPU/TPU” tidak sesuai fakta
      CERN masih menggunakan GPU secara luas dan secara aktif memanfaatkan GPU/CPU COTS sesuai kebutuhan