- Taalas mengembangkan platform yang mengubah model AI menjadi chip silikon kustom, sehingga hanya membutuhkan dua bulan untuk mewujudkan model ke dalam perangkat keras
- Produk pertamanya, model hardwired Llama 3.1 8B, memproses 17K token per detik, 10 kali lebih cepat, 20 kali lebih murah, dan hanya mengonsumsi sepersepuluh daya dibanding pendekatan sebelumnya
- Pendekatan ini memungkinkan inferensi berdaya rendah, berbiaya rendah, dan berkecepatan tinggi, serta menghilangkan kompleksitas sistem berbasis GPU yang ada lewat arsitektur chip baru yang menyatukan memori dan komputasi
- Melalui pendekatan ini, Taalas mempercepat AI real-time dan demokratisasi AI, sekaligus memungkinkan pengembang bereksperimen dengan aplikasi baru dalam lingkungan berlatensi sangat rendah dan berbiaya sangat rendah
Keterbatasan AI saat ini dan kebutuhannya
- AI sudah melampaui manusia di area tertentu, tetapi latensi (latency) dan biaya (cost) masih dianggap sebagai hambatan terbesar untuk pemanfaatan massal
- Interaksi dengan model bahasa masih lebih lambat daripada kecepatan berpikir manusia, dan alat bantu coding membuat pengguna menunggu respons selama beberapa menit
- AI berbentuk agen otomatis membutuhkan respons dalam hitungan milidetik, tetapi sistem saat ini belum mampu memenuhinya
- Penerapan model terbaru memerlukan infrastruktur setingkat superkomputer besar dengan daya ratusan kW serta struktur pendinginan, packaging, dan memori yang kompleks
- Struktur ini meluas menjadi data center berskala kota dan jaringan satelit, sehingga memicu lonjakan biaya operasional
- Taalas menekankan bahwa seperti transisi dari ENIAC ke transistor di masa lalu, AI juga harus berevolusi menuju struktur yang efisien dan berbiaya rendah
Filosofi teknologi Taalas
- Dalam dua setengah tahun sejak didirikan, Taalas telah menyelesaikan platform yang mengubah model AI menjadi silikon kustom
- Setelah menerima model baru, hardwareisasi dalam 2 bulan dimungkinkan
- Hasil akhirnya, yaitu Hardcore Models, memberikan peningkatan sekitar 10 kali lipat dalam kecepatan, biaya, dan efisiensi daya dibanding pendekatan berbasis perangkat lunak yang ada
- Tiga prinsip inti yang diajukan
- Spesialisasi total (Total specialization)
- Membuat silikon yang dioptimalkan untuk setiap model AI guna mencapai efisiensi ekstrem
- Menyatukan penyimpanan dan komputasi (Merging storage and computation)
- Menghilangkan bottleneck akibat pemisahan antara DRAM dan chip komputasi, serta mewujudkan struktur terintegrasi dalam satu chip dengan tingkat densitas setara DRAM
- Penyederhanaan radikal (Radical simplification)
- Menghapus teknologi kompleks seperti HBM, 3D stacking, dan liquid cooling untuk menurunkan biaya sistem ke tingkat satu digit
Produk pertama: model hardwired Llama 3.1 8B
- Diperkenalkan sebagai platform inferensi tercepat, termurah, dan paling hemat daya di dunia
- Dengan mengimplementasikan model Llama 3.1 8B langsung ke silikon, platform ini mampu memproses 17K token per detik, 10 kali lebih cepat, 20 kali lebih murah untuk diproduksi, dan mengonsumsi daya 10 kali lebih rendah
- Berbasis model open source untuk memastikan kepraktisan dan kemudahan pengembangan
- Mendukung penyesuaian ukuran context window dan fine-tuning berbasis LoRA
- Chip generasi pertama menggunakan kuantisasi campuran 3-bit dan 6-bit, sehingga ada sedikit penurunan kualitas dibanding GPU
- Silikon generasi kedua (HC2) mengadopsi format floating point 4-bit standar untuk meningkatkan kualitas dan efisiensi
Roadmap model berikutnya
- Model kedua adalah LLM penalaran berukuran menengah, yang dijadwalkan selesai di lab pada musim semi lalu diintegrasikan ke layanan inferensi
- Model ketiga adalah LLM kelas frontier berbasis platform HC2, yang menawarkan densitas dan kecepatan lebih tinggi, dan dijadwalkan dirilis pada musim dingin
Aksesibilitas pengembang dan struktur tim
- Model Llama yang saat ini dibuka sebagai layanan beta disediakan agar pengguna dapat merasakan lingkungan berlatensi sangat rendah dan berbiaya sangat rendah
- Taalas menyelesaikan produk pertamanya dengan tim beranggotakan 24 orang dan biaya 30 juta dolar AS, yang disajikan sebagai hasil dari penetapan sasaran yang presisi dan eksekusi yang terfokus
- Tim ini terdiri dari kelompok kecil para ahli yang telah berkolaborasi selama lebih dari 20 tahun, dengan penekanan pada kualitas, presisi, dan craftsmanship
Kesimpulan: AI real-time dan demokratisasi AI
- Teknologi Taalas menghadirkan lompatan bertahap dalam performa, efisiensi daya, dan biaya
- Menawarkan filosofi arsitektur sistem AI baru yang berbeda dari struktur lama yang berpusat pada GPU
- Dengan menghilangkan hambatan latensi dan biaya, Taalas memberi pengembang lingkungan untuk memanfaatkan AI secara real-time
- Ke depan, pendekatan ini akan berkembang ke model yang lebih kuat untuk mewujudkan aksesibilitas AI yang universal
2 komentar
Entah seberapa berarti ini. Karena pasar suka hype, pendanaannya mungkin akan lancar, tetapi ketika model-model baru terus bermunculan saling berlomba, dalam 2 bulan saja rasanya sudah terasa sangat lama.
Komentar Hacker News
Chip ini bukan untuk tujuan umum, melainkan desain yang dioptimalkan untuk inferensi berkecepatan tinggi dan latensi rendah
Dengan basis 8B dense 3bit quant (Llama 3.1), ia memproses 15k token per detik, dibuat pada proses 6nm dengan die 880mm², 53B transistor, konsumsi sekitar 200W, biaya produksi 20 kali lebih murah, dan energi per token 10 kali lebih hemat
Tim pendirinya berasal dari AMD dan Nvidia dengan pengalaman 25 tahun, serta telah mengamankan pendanaan VC sebesar 200 juta dolar
Jika dihitung sekitar 0,2 dolar per 1mm², maka biayanya setara sekitar 20 dolar per 1 miliar parameter, meski die besar punya yield yang lebih rendah
Detail lebih lanjut ada di wawancara pendiri
Cocok untuk aplikasi ultra-latensi rendah di bawah 10k token, dan saat rilis musim semi nanti kemungkinan besar akan menarik banyak dana VC
Nvidia H200 ada di kisaran 12k tok/s, tetapi itu untuk batch processing sehingga latensi token pertama jauh lebih besar
Taalas merespons dalam hitungan milidetik sehingga cocok untuk pembuatan suara dan video real-time
Namun, produksi chip dalam 2 bulan terasa terlalu optimistis. Meski begitu, versi v3 diharapkan akan cukup matang untuk menangani permintaan API nyata
Token memang akan lebih banyak terpakai, tetapi jika token murah maka ini bisa menguntungkan untuk peningkatan akurasi
Karena ukuran die yang besar menurunkan yield, ada yang mempertanyakan apakah beberapa bit error mungkin sebenarnya bukan masalah besar
Banyak komentar membahas akurasi model, tetapi tampaknya mereka tidak memahami bahwa ini adalah model Llama 3.1 8B
Intinya bukan modelnya, melainkan kinerja hardware khusus
Jika dipasangkan dengan model terbaru seperti GLM-5, hasilnya mungkin akan sangat mengesankan
Responsnya terasa seketika, seperti keluar tepat saat tombol enter ditekan
Namun, fakta bahwa hardware harus diganti total saat model diganti bisa memengaruhi daya jualnya di pasar
Ini tampak seperti kebijakan harga eksploratif untuk melihat respons pasar
Mereka memilih maksimalisasi kecepatan alih-alih fleksibilitas, tetapi disebutkan tetap mendukung fine-tuning berbasis LoRA
Ini akan sangat berguna untuk data tagging sederhana atau pemrosesan paralel skala besar
Ada yang mencoba demo ChatJimmy dan kaget karena jawabannya muncul secepat kedipan mata
chatjimmy.ai
Isinya ternyata cukup spesifik dan berguna
Rasanya seperti membuka cara pengembangan yang benar-benar baru
Banyak yang skeptis, tetapi tetap ada permintaan besar untuk model non-frontier
Bahkan hanya dari grafik aktivitas Llama 3.1, pertumbuhan mingguannya terlihat 22%
Jika latensi turun, LLM bisa dipakai bahkan pada tingkat kecepatan muat halaman web
Chip ini mengubah LLM menjadi antarmuka real-time
Ada yang bercanda bahwa mereka belum pernah melihat jawaban salah secepat ini, tetapi teknologinya dinilai sangat menjanjikan
Model 8B memang kecil, tetapi dalam jangka panjang ini bisa menjadi pasar besar
Saat ini mungkin belum berguna, tetapi memberikan sensasi teknologi yang benar-benar baru
Untuk pekerjaan nyata, model frontier tidak selalu dibutuhkan
Di atas 80B, perbedaannya mulai minim
Ada yang membayangkan memasang kartu seperti ini di PC pribadi untuk menggantikan Claude Code
Dengan 17k token per detik, banyak pipeline agen bisa dijalankan bersamaan
Tiap agen bisa menangani peran edit kode dan verifikasi, lalu memperbaiki hasil secara iteratif dengan cepat
Mereka penasaran apakah hasil yang lebih baik bisa dicapai dengan memutar model kelas menengah berkali-kali, meski bukan model terbaik
Jika output token cepat digabungkan dengan tooling yang baik, kesenjangan dengan model frontier bisa diperkecil
Menurut informasi yang telah dikoreksi, struktur nyatanya adalah chip tunggal dengan model yang diukir ke silikon
Tampaknya berupa model Llama 8B q3 yang diukir dengan konteks 1k, dan membutuhkan 10 chip (total 2,4kW)
Karena model tidak bisa diganti, ini hanya cocok untuk tugas yang tetap dalam jangka panjang
17k token per detik bukan sekadar efisiensi deployment, tetapi kecepatan yang mengubah cara evaluasi itu sendiri
Benchmark statis seperti MMLU dibuat berdasarkan kecepatan manusia, tetapi pada throughput seperti ini pengujian interaktif puluhan ribu kali menjadi mungkin
Ini menunjukkan bahwa semakin tinggi kecepatannya, semakin tidak memadai evaluasi lama
Ada yang mencoba chatbot-nya dan terkejut karena jawaban panjang keluar seketika pada 15k tok/s
Mereka ingin ada versi model frontier untuk coding lokal
Ada juga reaksi negatif, tetapi aplikasi yang membutuhkan model berlatensi rendah itu sangat banyak
Misalnya, mengubah pencarian input bebas menjadi kueri terstruktur sebelumnya tidak memungkinkan karena latensi model yang ada
Chip seperti ini memungkinkan respons AI yang terasa instan bagi pengguna