- Taalas adalah startup yang langsung menanamkan model Llama 3.1 8B ke chip ASIC dan mencapai kecepatan inferensi 17.000 token per detik
- Mengklaim 10x lebih murah, 10x lebih hemat daya, dan 10x lebih cepat dalam inferensi dibanding sistem berbasis GPU
- Dengan arsitektur yang menanamkan bobot model langsung sebagai transistor silikon, perusahaan ini menghilangkan bottleneck memori pada GPU
- Tanpa DRAM/HBM eksternal, hanya menggunakan SRAM di dalam chip untuk menangani cache KV dan adaptor LoRA
- Pembuatan chip per model dilakukan dengan menyesuaikan hanya dua lapisan teratas, sehingga chip untuk Llama 3.1 selesai dalam 2 bulan
Gambaran umum chip Taalas
- Taalas adalah perusahaan yang baru berdiri 2,5 tahun, dan chip ini merupakan produk pertamanya
- Chip ini adalah ASIC berfungsi tetap, hanya bisa menyimpan satu model dan tidak dapat ditulis ulang
- Memiliki struktur khusus untuk satu model seperti CD-ROM atau cartridge game
Inefisiensi inferensi LLM berbasis GPU
- LLM terdiri dari banyak lapisan (layer); sebagai contoh, Llama 3.1 8B memiliki 32 lapisan
- GPU berulang kali memuat matriks bobot tiap lapisan dari VRAM, menjalankan komputasi, lalu menyimpannya kembali
- Proses ini harus diulang 32 kali untuk setiap token yang dihasilkan
- Bolak-balik memori ini menyebabkan latensi dan konsumsi energi, dan disebut bottleneck bandwidth memori atau bottleneck Von Neumann
Pendekatan ‘hardwired’ Taalas
- Taalas menanamkan 32 lapisan Llama 3.1 secara berurutan di atas silikon
- Bobot model diimplementasikan sebagai transistor fisik
- Saat vektor input masuk, ia melewati transistor di tiap lapisan dan diproses terus-menerus dalam bentuk sinyal listrik
- Hasil antara tidak disimpan di VRAM, melainkan langsung diteruskan ke lapisan berikutnya melalui jalur kabel (pipeline registers)
- Perusahaan menyatakan telah mengembangkan struktur ‘magic multiplier’ yang memungkinkan penyimpanan data 4-bit dan operasi perkalian dilakukan dengan satu transistor
Struktur memori
- Tidak menggunakan DRAM/HBM eksternal; sebagai gantinya, chip dibekali sejumlah kecil SRAM di dalamnya
- Karena sulit memproduksi campuran DRAM dan gerbang logika dalam satu proses
- SRAM on-chip ini digunakan untuk menyimpan cache KV (memori sementara selama percakapan) dan adaptor LoRA
Cara pembuatan chip per model
- Membuat chip baru untuk setiap model umumnya mahal
- Taalas merancang struktur dasar chip yang sama, lalu hanya mengubah dua lapisan teratas (mask) agar sesuai dengan model tertentu
- Jauh lebih cepat dibanding membuat chip yang benar-benar baru dari nol
- Pengembangan chip untuk Llama 3.1 8B memakan waktu sekitar 2 bulan
- Dalam standar industri AI ini terbilang lambat, tetapi sangat cepat untuk kecepatan pembuatan chip kustom
Harapan ke depan
- Dari sudut pandang pengguna yang menjalankan model lokal tanpa GPU, ada harapan agar perangkat keras seperti ini bisa diproduksi massal
5 komentar
Komentar Hacker News
8B koefisien (coefficients) dipaketkan ke dalam 53B transistor. Sekitar 6,5 transistor digunakan per koefisien
Sepertinya menggunakan block quantization. Misalnya, untuk blok berisi 4 koefisien 3-bit, hanya diperlukan 330 blok berbeda
Matriks Llama 3.1 berukuran 4096x4096, yaitu terdiri dari 16 juta koefisien, dan tampaknya ini bisa dikompresi menjadi 330 blok
Dengan asumsi anggaran sekitar 250 ribu transistor per blok, hitungannya menjadi sekitar 5 transistor per koefisien. Ini tampak cukup layak bahkan pada level FP4
model.toVHDL()Yang justru mengejutkan adalah orang-orang terkejut bahwa hal seperti ini mungkin dilakukan
Alasan GPU muncul pada akhirnya juga karena operasi perangkat lunak dipindahkan ke perangkat keras. LLM punya struktur matematika yang sama, jadi menurut saya arah ini adalah evolusi yang wajar
Dibanding form factor, inovasi sebenarnya adalah latensi (latency)
Inferensi cloud punya overhead jaringan saja sebesar 50~200ms, sedangkan ASIC khusus yang dipasang di PCIe bisa mengeluarkan token pertama dalam hitungan mikrodetik
Untuk generasi video real-time atau agen yang membutuhkan respons di bawah 100ms, ini sangat menentukan. Biayanya mungkin lebih tinggi daripada GPU, tetapi ini memungkinkan aplikasi real-time baru
Masa depan di mana model seperti Gemma 5 Mini berjalan langsung di hardware lokal terasa menarik
Seperti encoder H.264 atau AV1, bisa saja muncul “AI core” untuk model tertentu
Berkat Structured ASIC platform yang bisa membuka kembali era ASIC terstruktur, biaya juga mungkin turun
Ini membuat saya membayangkan chip yang hanya memuat satu model, seperti CD-ROM atau cartridge game. Cukup colokkan ke komputer untuk mengganti model
Jika ASIC bisa dicetak dengan murah, cara orang memakai model akan berubah total
Model akan dijual dalam bentuk perangkat USB, dan untuk model dense di bawah 20 miliar parameter itu sudah cukup sebagai asisten pribadi
Ini terasa seperti kelahiran kembali kartu grafis. Sekarang ketika model open-weight makin banyak, pasar besar bisa terbuka bahkan dengan biaya pembelian dan operasional yang rendah
Saya penasaran bagaimana ini akan bekerja pada arsitektur MoE
LLM dense diuntungkan jika semua bobot diletakkan berdekatan, tetapi MoE berpusat pada akses memori, sehingga muncul ketidakseimbangan antara MAC dan memori. Pada akhirnya besar kemungkinan akan kembali ke pendekatan chiplet
Sepertinya suatu hari kartu ekspansi PCIe khusus AI akan menjadi arus utama
Seperti kartu grafis atau kartu suara dulu, saat model baru muncul kita tinggal mengganti kartunya untuk meningkatkan “kecerdasan” PC
Komputasi selalu mengulang siklus lokal vs server, tetapi permintaan on-premise tidak akan pernah benar-benar hilang
Pada akhirnya mungkin akan muncul motherboard dengan slot chip AI, atau periferal AI yang dicolok ke port berkecepatan tinggi
Saya penasaran apakah produsen seperti Apple bisa menanamkan langsung chip seperti ini dalam 3 tahun ke depan. Saya mengharapkan performa lokal super cepat pada level model saat ini
Ini mengingatkan saya pada perbedaan antara melakukan kalkulus secara digital dan melakukan kalkulus secara analog.
Akan bagus kalau ini dipakai untuk membuat model embedding teks, bukan model LLM.
Benar juga, sekali dibuat bisa terus dipakai.
Kalau desain chip baru dan kecepatan pengembangannya dipercepat berkat AI, ini mungkin benar-benar bisa jadi masa depan. Jadi teringat juga masa sekitar 25 tahun lalu ketika performa hardware naik secara kompetitif.