Jalan Menuju AI yang Universal (17K token per detik)

(taalas.com)

5 poin oleh GN⁺ 2026-02-21 | 2 komentar | Bagikan ke WhatsApp

Taalas mengembangkan platform yang mengubah model AI menjadi chip silikon kustom, sehingga hanya membutuhkan dua bulan untuk mewujudkan model ke dalam perangkat keras
Produk pertamanya, model hardwired Llama 3.1 8B, memproses 17K token per detik, 10 kali lebih cepat, 20 kali lebih murah, dan hanya mengonsumsi sepersepuluh daya dibanding pendekatan sebelumnya
Pendekatan ini memungkinkan inferensi berdaya rendah, berbiaya rendah, dan berkecepatan tinggi, serta menghilangkan kompleksitas sistem berbasis GPU yang ada lewat arsitektur chip baru yang menyatukan memori dan komputasi
Melalui pendekatan ini, Taalas mempercepat AI real-time dan demokratisasi AI, sekaligus memungkinkan pengembang bereksperimen dengan aplikasi baru dalam lingkungan berlatensi sangat rendah dan berbiaya sangat rendah

Keterbatasan AI saat ini dan kebutuhannya

AI sudah melampaui manusia di area tertentu, tetapi latensi (latency) dan biaya (cost) masih dianggap sebagai hambatan terbesar untuk pemanfaatan massal
- Interaksi dengan model bahasa masih lebih lambat daripada kecepatan berpikir manusia, dan alat bantu coding membuat pengguna menunggu respons selama beberapa menit
- AI berbentuk agen otomatis membutuhkan respons dalam hitungan milidetik, tetapi sistem saat ini belum mampu memenuhinya
Penerapan model terbaru memerlukan infrastruktur setingkat superkomputer besar dengan daya ratusan kW serta struktur pendinginan, packaging, dan memori yang kompleks
- Struktur ini meluas menjadi data center berskala kota dan jaringan satelit, sehingga memicu lonjakan biaya operasional
Taalas menekankan bahwa seperti transisi dari ENIAC ke transistor di masa lalu, AI juga harus berevolusi menuju struktur yang efisien dan berbiaya rendah

Filosofi teknologi Taalas

Dalam dua setengah tahun sejak didirikan, Taalas telah menyelesaikan platform yang mengubah model AI menjadi silikon kustom
- Setelah menerima model baru, hardwareisasi dalam 2 bulan dimungkinkan
- Hasil akhirnya, yaitu Hardcore Models, memberikan peningkatan sekitar 10 kali lipat dalam kecepatan, biaya, dan efisiensi daya dibanding pendekatan berbasis perangkat lunak yang ada
Tiga prinsip inti yang diajukan
1. Spesialisasi total (Total specialization)
  - Membuat silikon yang dioptimalkan untuk setiap model AI guna mencapai efisiensi ekstrem
2. Menyatukan penyimpanan dan komputasi (Merging storage and computation)
  - Menghilangkan bottleneck akibat pemisahan antara DRAM dan chip komputasi, serta mewujudkan struktur terintegrasi dalam satu chip dengan tingkat densitas setara DRAM
3. Penyederhanaan radikal (Radical simplification)
  - Menghapus teknologi kompleks seperti HBM, 3D stacking, dan liquid cooling untuk menurunkan biaya sistem ke tingkat satu digit

Produk pertama: model hardwired Llama 3.1 8B

Diperkenalkan sebagai platform inferensi tercepat, termurah, dan paling hemat daya di dunia
- Dengan mengimplementasikan model Llama 3.1 8B langsung ke silikon, platform ini mampu memproses 17K token per detik, 10 kali lebih cepat, 20 kali lebih murah untuk diproduksi, dan mengonsumsi daya 10 kali lebih rendah
Berbasis model open source untuk memastikan kepraktisan dan kemudahan pengembangan
- Mendukung penyesuaian ukuran context window dan fine-tuning berbasis LoRA
Chip generasi pertama menggunakan kuantisasi campuran 3-bit dan 6-bit, sehingga ada sedikit penurunan kualitas dibanding GPU
- Silikon generasi kedua (HC2) mengadopsi format floating point 4-bit standar untuk meningkatkan kualitas dan efisiensi

Roadmap model berikutnya

Model kedua adalah LLM penalaran berukuran menengah, yang dijadwalkan selesai di lab pada musim semi lalu diintegrasikan ke layanan inferensi
Model ketiga adalah LLM kelas frontier berbasis platform HC2, yang menawarkan densitas dan kecepatan lebih tinggi, dan dijadwalkan dirilis pada musim dingin

Aksesibilitas pengembang dan struktur tim

Model Llama yang saat ini dibuka sebagai layanan beta disediakan agar pengguna dapat merasakan lingkungan berlatensi sangat rendah dan berbiaya sangat rendah
- Tersedia melalui demo chatjimmy.ai dan layanan API
Taalas menyelesaikan produk pertamanya dengan tim beranggotakan 24 orang dan biaya 30 juta dolar AS, yang disajikan sebagai hasil dari penetapan sasaran yang presisi dan eksekusi yang terfokus
Tim ini terdiri dari kelompok kecil para ahli yang telah berkolaborasi selama lebih dari 20 tahun, dengan penekanan pada kualitas, presisi, dan craftsmanship

Kesimpulan: AI real-time dan demokratisasi AI

Teknologi Taalas menghadirkan lompatan bertahap dalam performa, efisiensi daya, dan biaya
Menawarkan filosofi arsitektur sistem AI baru yang berbeda dari struktur lama yang berpusat pada GPU
Dengan menghilangkan hambatan latensi dan biaya, Taalas memberi pengembang lingkungan untuk memanfaatkan AI secara real-time
Ke depan, pendekatan ini akan berkembang ke model yang lebih kuat untuk mewujudkan aksesibilitas AI yang universal

2 komentar

colus001 2026-02-21

Entah seberapa berarti ini. Karena pasar suka hype, pendanaannya mungkin akan lancar, tetapi ketika model-model baru terus bermunculan saling berlomba, dalam 2 bulan saja rasanya sudah terasa sangat lama.

GN⁺ 2026-02-21

Komentar Hacker News

Chip ini bukan untuk tujuan umum, melainkan desain yang dioptimalkan untuk inferensi berkecepatan tinggi dan latensi rendah
Dengan basis 8B dense 3bit quant (Llama 3.1), ia memproses 15k token per detik, dibuat pada proses 6nm dengan die 880mm², 53B transistor, konsumsi sekitar 200W, biaya produksi 20 kali lebih murah, dan energi per token 10 kali lebih hemat
Tim pendirinya berasal dari AMD dan Nvidia dengan pengalaman 25 tahun, serta telah mengamankan pendanaan VC sebesar 200 juta dolar
Jika dihitung sekitar 0,2 dolar per 1mm², maka biayanya setara sekitar 20 dolar per 1 miliar parameter, meski die besar punya yield yang lebih rendah
Detail lebih lanjut ada di wawancara pendiri
Cocok untuk aplikasi ultra-latensi rendah di bawah 10k token, dan saat rilis musim semi nanti kemungkinan besar akan menarik banyak dana VC
- Perhitungan matematisnya berguna. 16k token per detik adalah kecepatan yang luar biasa, dan ini bisa dianggap sebagai kategori produk baru
  Nvidia H200 ada di kisaran 12k tok/s, tetapi itu untuk batch processing sehingga latensi token pertama jauh lebih besar
  Taalas merespons dalam hitungan milidetik sehingga cocok untuk pembuatan suara dan video real-time
  Namun, produksi chip dalam 2 bulan terasa terlalu optimistis. Meski begitu, versi v3 diharapkan akan cukup matang untuk menangani permintaan API nyata
- Ada yang bercanda bahwa jika harga die-nya 20 dolar, mungkin bisa dijual seperti kartrid Game Boy per model
- Ada yang bertanya apakah Recursive Language Model(tautan paper) bisa membantu mengatasi keterbatasan konteks
  Token memang akan lebih banyak terpakai, tetapi jika token murah maka ini bisa menguntungkan untuk peningkatan akurasi
- 880mm² lebih besar daripada M1 Ultra dan bahkan lebih besar dari H100
  Karena ukuran die yang besar menurunkan yield, ada yang mempertanyakan apakah beberapa bit error mungkin sebenarnya bukan masalah besar
- Menarik membayangkan bagaimana chip seperti ini akan mendorong perkembangan robot cerdas
Banyak komentar membahas akurasi model, tetapi tampaknya mereka tidak memahami bahwa ini adalah model Llama 3.1 8B
Intinya bukan modelnya, melainkan kinerja hardware khusus
Jika dipasangkan dengan model terbaru seperti GLM-5, hasilnya mungkin akan sangat mengesankan
Responsnya terasa seketika, seperti keluar tepat saat tombol enter ditekan
Namun, fakta bahwa hardware harus diganti total saat model diganti bisa memengaruhi daya jualnya di pasar
- Informasi harga ada di gambar ini
  Ini tampak seperti kebijakan harga eksploratif untuk melihat respons pasar
  Mereka memilih maksimalisasi kecepatan alih-alih fleksibilitas, tetapi disebutkan tetap mendukung fine-tuning berbasis LoRA
  Ini akan sangat berguna untuk data tagging sederhana atau pemrosesan paralel skala besar
- Secara pribadi ada yang merasa Cerebras masih jauh lebih unggul. Membandingkan tok/s dianggap kurang tepat
Ada yang mencoba demo ChatJimmy dan kaget karena jawabannya muncul secepat kedipan mata
chatjimmy.ai
- Saat diminta merancang kapal selam untuk kucing, jawabannya langsung muncul
  Isinya ternyata cukup spesifik dan berguna
- Dengan kecepatan seperti ini, generasi kode berulang otomatis sampai lolos tes menjadi mungkin
  Rasanya seperti membuka cara pengembangan yang benar-benar baru
- Jika jadi investor, mungkin lebih baik berinvestasi di ChatJimmy daripada OpenAI
- Namun, fitur lampiran file tidak berfungsi, dan pemahaman konteksnya sedikit meleset
- Ada yang takjub setelah mengaku melihat sendiri 16.000 token per detik
Banyak yang skeptis, tetapi tetap ada permintaan besar untuk model non-frontier
Bahkan hanya dari grafik aktivitas Llama 3.1, pertumbuhan mingguannya terlihat 22%
Jika latensi turun, LLM bisa dipakai bahkan pada tingkat kecepatan muat halaman web
- Mungkin tetap ada pasar untuk model frontier juga. Misalnya, jika Anthropic mengukir Opus 4.6 ke dalam chip, biaya inferensi bisa ditekan
- Model lama masih kuat untuk pekerjaan kreatif. Model terbaru lebih banyak di-tuning untuk kode dan penalaran sehingga kreativitasnya berkurang
- Ini ideal untuk tugas seperti ekstraksi konten terstruktur atau konversi markdown
  Chip ini mengubah LLM menjadi antarmuka real-time
- Juga cocok untuk bidang seperti robotika yang membutuhkan latensi rendah dan jalur kerja sempit
Ada yang bercanda bahwa mereka belum pernah melihat jawaban salah secepat ini, tetapi teknologinya dinilai sangat menjanjikan
Model 8B memang kecil, tetapi dalam jangka panjang ini bisa menjadi pasar besar
- Ada yang bilang model itu tidak bisa menjawab pertanyaannya, tetapi gagal menjawabnya dengan kecepatan yang sulit dipercaya
  Saat ini mungkin belum berguna, tetapi memberikan sensasi teknologi yang benar-benar baru
- Jika tersedia untuk Qwen 2.5, ada yang bilang akan langsung membelinya
  Untuk pekerjaan nyata, model frontier tidak selalu dibutuhkan
- Model 7~9B pun sudah cukup bagus. Yang penting adalah melakukan query ke beberapa model sekaligus untuk meningkatkan akurasi berbasis konsensus
  Di atas 80B, perbedaannya mulai minim
- Ada juga yang menanggapi dengan humor sambil menunjuk typo
Ada yang membayangkan memasang kartu seperti ini di PC pribadi untuk menggantikan Claude Code
Dengan 17k token per detik, banyak pipeline agen bisa dijalankan bersamaan
Tiap agen bisa menangani peran edit kode dan verifikasi, lalu memperbaiki hasil secara iteratif dengan cepat
Mereka penasaran apakah hasil yang lebih baik bisa dicapai dengan memutar model kelas menengah berkali-kali, meski bukan model terbaik
- Bukan modelnya semata, tetapi alat dan harness yang menentukan kualitas hasil
  Jika output token cepat digabungkan dengan tooling yang baik, kesenjangan dengan model frontier bisa diperkecil
- Namun, model tidak bisa memperbaiki dirinya sendiri hanya berdasarkan outputnya sendiri. Diperlukan pembelajaran berbasis realitas
Menurut informasi yang telah dikoreksi, struktur nyatanya adalah chip tunggal dengan model yang diukir ke silikon
Tampaknya berupa model Llama 8B q3 yang diukir dengan konteks 1k, dan membutuhkan 10 chip (total 2,4kW)
Karena model tidak bisa diganti, ini hanya cocok untuk tugas yang tetap dalam jangka panjang
- Ideal untuk masalah singkat di bawah 100 token seperti data tagging
- Tampaknya juga memungkinkan desain model yang lebih banyak melakukan RAG atau pencarian bergaya agen
- Dengan siklus pergantian model yang sekarang sangat cepat, produksi chip yang memakan waktu lebih dari 6 bulan terasa sulit secara realistis
- Bisa diterapkan ke berbagai tugas NLP
- Mungkin juga cocok sebagai chip untuk NPC video game
17k token per detik bukan sekadar efisiensi deployment, tetapi kecepatan yang mengubah cara evaluasi itu sendiri
Benchmark statis seperti MMLU dibuat berdasarkan kecepatan manusia, tetapi pada throughput seperti ini pengujian interaktif puluhan ribu kali menjadi mungkin
Ini menunjukkan bahwa semakin tinggi kecepatannya, semakin tidak memadai evaluasi lama
Ada yang mencoba chatbot-nya dan terkejut karena jawaban panjang keluar seketika pada 15k tok/s
Mereka ingin ada versi model frontier untuk coding lokal
- Teks yang butuh 2 menit untuk dibaca dihasilkan dalam kurang dari 1 detik, dan itu terasa seperti pemandangan yang tidak masuk akal
- Ini mengingatkan pada lelucon bahwa kita tidak menemukan peradaban alien karena mereka beroperasi pada skala waktu yang berbeda
- Jika kecepatan seperti ini diterapkan ke loop inferensi atau harness generasi kode, inovasi AI bisa benar-benar terjadi
Ada juga reaksi negatif, tetapi aplikasi yang membutuhkan model berlatensi rendah itu sangat banyak
Misalnya, mengubah pencarian input bebas menjadi kueri terstruktur sebelumnya tidak memungkinkan karena latensi model yang ada
Chip seperti ini memungkinkan respons AI yang terasa instan bagi pengguna