23 poin oleh GN⁺ 2026-02-23 | 5 komentar | Bagikan ke WhatsApp
  • Taalas adalah startup yang langsung menanamkan model Llama 3.1 8B ke chip ASIC dan mencapai kecepatan inferensi 17.000 token per detik
  • Mengklaim 10x lebih murah, 10x lebih hemat daya, dan 10x lebih cepat dalam inferensi dibanding sistem berbasis GPU
  • Dengan arsitektur yang menanamkan bobot model langsung sebagai transistor silikon, perusahaan ini menghilangkan bottleneck memori pada GPU
  • Tanpa DRAM/HBM eksternal, hanya menggunakan SRAM di dalam chip untuk menangani cache KV dan adaptor LoRA
  • Pembuatan chip per model dilakukan dengan menyesuaikan hanya dua lapisan teratas, sehingga chip untuk Llama 3.1 selesai dalam 2 bulan

Gambaran umum chip Taalas

  • Taalas adalah perusahaan yang baru berdiri 2,5 tahun, dan chip ini merupakan produk pertamanya
  • Chip ini adalah ASIC berfungsi tetap, hanya bisa menyimpan satu model dan tidak dapat ditulis ulang
    • Memiliki struktur khusus untuk satu model seperti CD-ROM atau cartridge game

Inefisiensi inferensi LLM berbasis GPU

  • LLM terdiri dari banyak lapisan (layer); sebagai contoh, Llama 3.1 8B memiliki 32 lapisan
  • GPU berulang kali memuat matriks bobot tiap lapisan dari VRAM, menjalankan komputasi, lalu menyimpannya kembali
    • Proses ini harus diulang 32 kali untuk setiap token yang dihasilkan
  • Bolak-balik memori ini menyebabkan latensi dan konsumsi energi, dan disebut bottleneck bandwidth memori atau bottleneck Von Neumann

Pendekatan ‘hardwired’ Taalas

  • Taalas menanamkan 32 lapisan Llama 3.1 secara berurutan di atas silikon
    • Bobot model diimplementasikan sebagai transistor fisik
  • Saat vektor input masuk, ia melewati transistor di tiap lapisan dan diproses terus-menerus dalam bentuk sinyal listrik
    • Hasil antara tidak disimpan di VRAM, melainkan langsung diteruskan ke lapisan berikutnya melalui jalur kabel (pipeline registers)
  • Perusahaan menyatakan telah mengembangkan struktur ‘magic multiplier’ yang memungkinkan penyimpanan data 4-bit dan operasi perkalian dilakukan dengan satu transistor

Struktur memori

  • Tidak menggunakan DRAM/HBM eksternal; sebagai gantinya, chip dibekali sejumlah kecil SRAM di dalamnya
    • Karena sulit memproduksi campuran DRAM dan gerbang logika dalam satu proses
  • SRAM on-chip ini digunakan untuk menyimpan cache KV (memori sementara selama percakapan) dan adaptor LoRA

Cara pembuatan chip per model

  • Membuat chip baru untuk setiap model umumnya mahal
  • Taalas merancang struktur dasar chip yang sama, lalu hanya mengubah dua lapisan teratas (mask) agar sesuai dengan model tertentu
    • Jauh lebih cepat dibanding membuat chip yang benar-benar baru dari nol
  • Pengembangan chip untuk Llama 3.1 8B memakan waktu sekitar 2 bulan
    • Dalam standar industri AI ini terbilang lambat, tetapi sangat cepat untuk kecepatan pembuatan chip kustom

Harapan ke depan

  • Dari sudut pandang pengguna yang menjalankan model lokal tanpa GPU, ada harapan agar perangkat keras seperti ini bisa diproduksi massal

5 komentar

 
GN⁺ 2026-02-23
Komentar Hacker News
  • 8B koefisien (coefficients) dipaketkan ke dalam 53B transistor. Sekitar 6,5 transistor digunakan per koefisien
    Sepertinya menggunakan block quantization. Misalnya, untuk blok berisi 4 koefisien 3-bit, hanya diperlukan 330 blok berbeda
    Matriks Llama 3.1 berukuran 4096x4096, yaitu terdiri dari 16 juta koefisien, dan tampaknya ini bisa dikompresi menjadi 330 blok
    Dengan asumsi anggaran sekitar 250 ribu transistor per blok, hitungannya menjadi sekitar 5 transistor per koefisien. Ini tampak cukup layak bahkan pada level FP4

    • Saya berharap PyTorch punya fitur seperti model.toVHDL()
  • Yang justru mengejutkan adalah orang-orang terkejut bahwa hal seperti ini mungkin dilakukan
    Alasan GPU muncul pada akhirnya juga karena operasi perangkat lunak dipindahkan ke perangkat keras. LLM punya struktur matematika yang sama, jadi menurut saya arah ini adalah evolusi yang wajar

    • Alasan orang terkejut mungkin karena waktu ROI. Kapan tape-out chip khusus model mulai menjadi menguntungkan itulah pertanyaan utamanya. Arsitektur MoE sepertinya akan menghadirkan tantangan baru dalam proses ini
    • Ini bukan perbandingan CPU vs GPU, melainkan CPU/GPU vs ASIC. ASIC unggul dalam kecepatan, daya, dan biaya, tetapi sulit dirancang dan tidak bisa diprogram ulang. Untuk fungsi yang sensitif terhadap performa seperti LLM, ASIC cocok
    • Pendekatan membakar bobot langsung ke gerbang jelas merupakan pendekatan baru. Ungkapan “weights to gates” terasa pas
    • Namun masalahnya adalah fleksibilitas yang rendah. Sulit beradaptasi saat permintaan data center berubah atau model baru muncul. Meski begitu, untuk bidang seperti drone dan pertahanan, di mana efisiensi energi dan kecepatan penting, ini realistis
    • Saya yakin Nvidia juga sedang bereksperimen dengan hal seperti ini. Secara komersial mungkin masih terlalu dini, tetapi arus menuju hardware AI yang berfokus pada efisiensi jelas nyata
  • Dibanding form factor, inovasi sebenarnya adalah latensi (latency)
    Inferensi cloud punya overhead jaringan saja sebesar 50~200ms, sedangkan ASIC khusus yang dipasang di PCIe bisa mengeluarkan token pertama dalam hitungan mikrodetik
    Untuk generasi video real-time atau agen yang membutuhkan respons di bawah 100ms, ini sangat menentukan. Biayanya mungkin lebih tinggi daripada GPU, tetapi ini memungkinkan aplikasi real-time baru

    • Bukan hanya latensi, keandalan bandwidth dan kendali juga penting. Komputasi terpusat dan lokal selalu saling tarik-menarik. Perusahaan menginginkan kontrol, pengguna menginginkan otonomi. Pada akhirnya pasar akan selalu mempertahankan permintaan: “saya ingin sepenuhnya mengendalikan komputer saya sendiri”
    • Saya penasaran sebenarnya dari mana layanan AI disajikan. Misalnya saat memakai Claude di London, sulit mengetahui permintaannya pergi ke mana. Akan ideal jika ada edge network untuk LLM, dan mungkin ASIC bisa mewujudkannya
  • Masa depan di mana model seperti Gemma 5 Mini berjalan langsung di hardware lokal terasa menarik
    Seperti encoder H.264 atau AV1, bisa saja muncul “AI core” untuk model tertentu
    Berkat Structured ASIC platform yang bisa membuka kembali era ASIC terstruktur, biaya juga mungkin turun

    • Ada dua alasan mengapa perusahaan besar tampaknya kurang tertarik. Pertama, laju perkembangan AI terlalu cepat sehingga saat chip masuk produksi massal, ia bisa saja sudah usang. Kedua, model langganan cloud dan struktur bisnis yang berpusat pada pengumpulan data tidak cocok dengan chip offline
    • Saya rasa Apple seharusnya sudah memulai ini kemarin. Masa depan yang benar-benar saya inginkan adalah AI sepenuhnya lokal di ponsel atau MacBook saya. AI berbasis cloud terasa seperti sisa era AOL
    • ASIC yang dapat diprogram seperti Cerebras atau Groq sudah memberikan kecepatan beberapa kali lipat dibanding GPU, tetapi respons pasar masih minim
  • Ini membuat saya membayangkan chip yang hanya memuat satu model, seperti CD-ROM atau cartridge game. Cukup colokkan ke komputer untuk mengganti model

    • Slot itu pada praktiknya mungkin akan menjadi USB-C. Saya bisa membayangkan ASIC inferensi berbentuk power bank yang tinggal dicolok
    • Saya ingin perangkat model lokal yang diletakkan di bawah meja, seperti eGPU dulu. Sepenuhnya offline, sepenuhnya menjamin privasi pribadi
    • Hardware seperti ini akan mendorong model open-weight dan juga memperkuat privasi. Bahkan mungkin dimungkinkan hardware MoE, di mana robot mengganti cartridge model sesuai tugas
    • Cartridge khusus model tampaknya akan jauh lebih baik dalam efisiensi performa/daya. Namun saya ragu apakah secara ekonomi masuk akal untuk konsumen
    • Penggunaan daya adalah variabel penting. Untuk penggunaan rumahan, 170 token per detik pada 2,5W akan sangat keren. Perkembangan seperti ini suatu hari mungkin bisa menuju otak positronik
  • Jika ASIC bisa dicetak dengan murah, cara orang memakai model akan berubah total
    Model akan dijual dalam bentuk perangkat USB, dan untuk model dense di bawah 20 miliar parameter itu sudah cukup sebagai asisten pribadi
    Ini terasa seperti kelahiran kembali kartu grafis. Sekarang ketika model open-weight makin banyak, pasar besar bisa terbuka bahkan dengan biaya pembelian dan operasional yang rendah

  • Saya penasaran bagaimana ini akan bekerja pada arsitektur MoE
    LLM dense diuntungkan jika semua bobot diletakkan berdekatan, tetapi MoE berpusat pada akses memori, sehingga muncul ketidakseimbangan antara MAC dan memori. Pada akhirnya besar kemungkinan akan kembali ke pendekatan chiplet

    • TPUv4 Google menggunakan Optical Circuit Switch untuk membentuk struktur torus 3D dan melakukan rewiring dinamis sesuai pola komunikasi MoE. Ia menghubungkan 4.096 chip menjadi satu pod, dan menangani akses memori tidak kontigu dengan SparseCore. Ini memang cerita skala data center, tetapi menarik sebagai contoh skalabilitas
    • Jika setiap model Expert diukir ke silikon, kecepatannya akan luar biasa. Pada akhirnya biaya pencetakan ASIC akan menjadi kendala terbesar
  • Sepertinya suatu hari kartu ekspansi PCIe khusus AI akan menjadi arus utama
    Seperti kartu grafis atau kartu suara dulu, saat model baru muncul kita tinggal mengganti kartunya untuk meningkatkan “kecerdasan” PC

    • Saya rasa arah ini adalah evolusi yang hampir tak terelakkan. Pemerintah atau perusahaan besar akan lebih dulu menuntutnya, lalu pada akhirnya menyebar ke pasar konsumen.
      Komputasi selalu mengulang siklus lokal vs server, tetapi permintaan on-premise tidak akan pernah benar-benar hilang
  • Pada akhirnya mungkin akan muncul motherboard dengan slot chip AI, atau periferal AI yang dicolok ke port berkecepatan tinggi

  • Saya penasaran apakah produsen seperti Apple bisa menanamkan langsung chip seperti ini dalam 3 tahun ke depan. Saya mengharapkan performa lokal super cepat pada level model saat ini

    • Apakah model bisa diperbarui dengan diff memori modular? Saya penasaran seberapa besar penurunan performanya
    • Namun mungkin tidak ada artinya menjalankan model usang selama 3 tahun. Laju perkembangannya terlalu cepat
 
dolsangodkimchi 2026-03-04

Ini mengingatkan saya pada perbedaan antara melakukan kalkulus secara digital dan melakukan kalkulus secara analog.

 
chcv0313 2026-03-04

Akan bagus kalau ini dipakai untuk membuat model embedding teks, bukan model LLM.

 
bungker 2026-03-04

Benar juga, sekali dibuat bisa terus dipakai.

 
parkindani 2026-02-23

Kalau desain chip baru dan kecepatan pengembangannya dipercepat berkat AI, ini mungkin benar-benar bisa jadi masa depan. Jadi teringat juga masa sekitar 25 tahun lalu ketika performa hardware naik secara kompetitif.