Tinybox – Mesin AI offline yang mendukung 120B parameter

(tinygrad.org)

6 poin oleh GN⁺ 2026-03-22 | 1 komentar | Bagikan ke WhatsApp

tinygrad adalah framework jaringan saraf yang menggabungkan kesederhanaan dan performa, memungkinkan implementasi model kompleks dengan struktur operasi yang minimal
Berdasarkan itu, tinybox adalah komputer AI offline berperforma tinggi untuk pelatihan dan inferensi deep learning, tersedia dalam tiga model: red, green, dan exa
Model kelas atas green v2 blackwell menghasilkan performa 3086 TFLOPS dengan 4 GPU RTX PRO 6000, dan tersedia untuk pengiriman segera dengan harga $65,000
Model tertinggi exabox menargetkan performa sekitar 1 EXAFLOP, dijadwalkan rilis pada 2027, dengan kisaran harga sekitar $10M
Pembuatnya, tiny corp, menargetkan komersialisasi petaflop dan mewujudkan AI untuk semua

Ikhtisar tinygrad

tinygrad adalah framework jaringan saraf yang berfokus pada kesederhanaan dan performa, serta merupakan proyek yang berkembang pesat
Jaringan yang kompleks dibangun hanya dengan 3 jenis OpType: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps menjalankan operasi per-elemen pada 1 hingga 3 tensor, termasuk SQRT, LOG2, ADD, MUL, WHERE, dan lainnya
- ReduceOps menerima satu tensor sebagai input dan mengembalikan tensor yang lebih kecil, seperti SUM dan MAX
- MovementOps adalah operasi virtual yang memindahkan data tanpa penyalinan, menggunakan ShapeTracker untuk melakukan RESHAPE, PERMUTE, EXPAND, dan lainnya
Implementasi operasi CONV atau MATMUL dapat dilihat langsung di dalam kode

Lini produk tinybox

tinybox adalah komputer berperforma tinggi untuk deep learning, terdiri dari tiga model: red, green, dan exa
Spesifikasi utama masing-masing model adalah sebagai berikut
- red v2
  - GPU: 4x 9070XT
  - Performa FP16(FP32 acc): 778 TFLOPS
  - RAM GPU: 64GB, bandwidth 2560 GB/s
  - CPU: AMD EPYC 32-core
  - RAM sistem: 128GB, bandwidth 204.8 GB/s
  - Disk: 2TB NVMe, kecepatan baca 7.3 GB/s
  - Jaringan: 2x 1GbE + OCP3.0
  - Daya: 1600W
  - Kebisingan: di bawah 50dB
  - Harga: $12,000, tersedia untuk pengiriman segera
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - Performa FP16(FP32 acc): 3086 TFLOPS
  - RAM GPU: 384GB, bandwidth 7168 GB/s
  - CPU: AMD GENOA 32-core
  - RAM sistem: 192GB, bandwidth 460.8 GB/s
  - Disk: 4TB RAID + 1TB untuk boot, kecepatan baca 59.3 GB/s
  - Jaringan: 2x 10GbE + OCP3.0
  - Daya: 2x 1600W
  - Kebisingan: 65dB (pada jarak 10m)
  - Harga: $65,000, tersedia untuk pengiriman segera
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - Performa FP16(FP32 acc): sekitar 1 EXAFLOP
  - RAM GPU: 25,920GB, bandwidth 1244 TB/s
  - CPU: 120x AMD GENOA 32-core
  - RAM sistem: 23,040GB, bandwidth 55.2 TB/s
  - Disk: 480TB RAID, kecepatan baca 7.1 TB/s
  - Jaringan: mendukung ekspansi PCIe5 3.2 TB/s
  - Daya: 600kW
  - Ukuran: 20x8x8.5 ft, berat 20,000 lbs
  - Rilis dijadwalkan: 2027, estimasi harga sekitar $10M
  - Semua model menggunakan sistem operasi Ubuntu 24.04 dan dapat dipasang sebagai standalone atau rack-mount
  - Pembaruan produk dan stok disediakan melalui mailing list

FAQ

Ikhtisar tinybox
- Komputer berperforma tinggi untuk deep learning** yang** menawarkan nilai performa terhadap harga yang sangat tinggi
  - Diuji dalam benchmark MLPerf Training 4.0 dibandingkan dengan sistem yang 10 kali lebih mahal
  - Dapat digunakan bukan hanya untuk pelatihan, tetapi juga inferensi (inference)
Pemesanan dan pengiriman
- Dapat dipesan melalui situs web, dengan pengiriman dalam 1 minggu setelah pembayaran
- Mendukung pengambilan di lokasi San Diego atau pengiriman ke seluruh dunia
Kustomisasi dan pembayaran
- Kustomisasi tidak tersedia demi menjaga harga dan kualitas
  - Pembayaran hanya melalui wire transfer
  - Formulir W-9 tersedia di tautan unduhan
Penggunaan tinygrad
- Digunakan di openpilot untuk menjalankan model mengemudi berbasis GPU Snapdragon 845
- Menggantikan Qualcomm SNPE, dengan performa lebih cepat serta mendukung pemuatan ONNX, pelatihan, dan fitur attention
Fitur dan performa
- Bukan hanya untuk inferensi, dan mendukung forward/backward pass berbasis autodiff
- Menyediakan API mirip PyTorch, tetapi dengan struktur yang lebih sederhana
- Masih dalam versi alpha, sehingga stabilitasnya rendah, meski belakangan relatif lebih stabil
- Tahap alpha akan diakhiri ketika sudah memungkinkan reproduksi paper 2x lebih cepat daripada PyTorch
- Faktor peningkatan kecepatan
  - Optimalisasi per bentuk melalui kompilasi kernel kustom untuk tiap operasi
  - Fusion operasi yang agresif melalui struktur lazy tensor
  - Backend yang ringkas sehingga optimasi kernel meningkatkan performa keseluruhan
Pengembangan dan komunitas
- Pengembangan berlangsung di GitHub dan Discord
- Kontribusi tinygrad (PR) dianggap sebagai jalur utama untuk rekrutmen dan partisipasi investasi
- Tujuan tiny corp adalah mengkomersialkan petaflop dan mewujudkan AI untuk semua

1 komentar

GN⁺ 2026-03-22

Komentar Hacker News

Ada ironi karena situs web ini terasa seperti dibuat oleh tangan manusia, bukan AI
Desain dan nada tulisannya sangat manusiawi
Meski begitu, idenya bagus, dan saya rasa model yang dilatih secara lokal seperti ini bisa menjadi masa depan yang mengurangi ketergantungan pada model milik perusahaan besar
Hanya saja, akan lebih baik kalau bisa langsung dihubungkan ke sirkuit 240V. Harus mencari dua sirkuit 120V itu cukup merepotkan
- Di antara tulisan tentang AI, yang benar-benar dihormati umumnya hampir tidak menunjukkan jejak ditulis AI
  Saya rasa karena orang-orang di industri ini sensitif dalam membedakan sinyal dan noise
- Saya heran mereka membuka kontribusi kode secara publik dengan slogan “Invest with your PRs”, tapi tidak punya kebijakan soal kode buatan AI
  Mungkin volume PR-nya cukup kecil sehingga PR berkualitas rendah bisa diabaikan dengan sopan, jadi cara pembuatannya tidak terlalu penting
- Bagi orang yang membeli perangkat seharga 65 ribu dolar, mencari dua sirkuit mungkin terasa masalah sepele
- Sebenarnya sirkuit 240V di AS itu gabungan dari dua jalur 120V, jadi rewiring-nya tidak sulit
Model dasar seharga 12 ribu dolar terasa terlalu mahal
Saya menjalankan model 120B parameter di Apple M3 Max (RAM 128GB) pada daya 80W dengan kecepatan 15~20 token per detik
Memang tidak sempurna, tapi rasanya masih lebih baik daripada perangkat seharga 12 ribu dolar
- Performa tflops M3 Max terlalu kecil untuk dibandingkan dengan box 12k
- Perangkat seperti ini buat orang bodoh. Tahun lalu saya membeli 160GB VRAM seharga 1 ribu dolar, dan 96GB VRAM P40 juga di bawah 1 ribu dolar
  Dengan itu saya bisa menjalankan gpt-oss-120b Q8 di sekitar 30 token per detik
Tidak mungkin red v2 bisa menjalankan model 120B dengan layak
Saya sendiri membangun dual A100 AI homelab dengan 80GB VRAM yang digabung lewat NVLink
Model 120B tidak mungkin tanpa kuantisasi berat, dan pada tingkat itu model jadi tidak stabil
Ruang untuk cache KV juga tidak cukup, jadi sekitar konteks 4k akan kena OOM
Sekarang saja menjalankan model 70B sudah pas-pasan. Perangkat saya punya VRAM 16GB lebih banyak daripada red v2
Selain itu saya tidak paham kenapa ukurannya 12U. Rig saya 4U
green v2 punya GPU yang lebih baik, tapi kalau harganya 65 ribu dolar, CPU dan RAM-nya juga seharusnya jauh lebih baik
Saya senang produk seperti ini ada, tapi jujur saja rasio konfigurasinya sulit dimengerti
- Performanya lumayan, tapi bukan level gila
  Saya menjalankan gpt-oss-120b Q4 di box Epyc Milan dengan pembagian antara RAM dan GPU, dan hasilnya sekitar 30~50 token per detik
  Konfigurasi 64G VRAM/128G RAM itu tidak efisien. Model MoE juga hanya butuh sekitar 20B untuk router, dan sisanya di VRAM jadi terbuang
- Alasan 12U mungkin karena mereka memakai satu SKU casing yang sama
  Jawabannya mungkin semacam, “untuk menekan harga dan menjaga kualitas, kami tidak menyediakan kustomisasi ukuran server”
- Jujur saja, dua RTX 8000 tampaknya akan memberi ROI yang lebih baik daripada red v2
  Saya memakai server 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), dan untuk inferensi dasar 8000 saja sudah cukup
  Model green mungkin lebih cepat, tapi tambahan biaya 25 ribu dolar terasa sulit dibenarkan
- Saya penasaran apakah itu benar-benar lebih murah daripada Blackwell 6000
  Empat Blackwell 6000 harganya 32~36 ribu dolar, jadi saya tidak tahu ke mana 30 ribu dolar sisanya pergi
- Saya berpikir, kalau KV dioffload ke RAM sistem atau storage, bukankah konteks yang lebih panjang bisa dipakai
  Beberapa framework AI lokal mendukung kebijakan LRU yang hanya memakai sebagian VRAM untuk cache, jadi overhead-nya mungkin masih bisa ditoleransi
exabox menarik
Saya penasaran siapa pelanggannya. Setelah melihat video peluncuran Vera Rubin, saya bahkan tidak bisa membayangkan ada yang mau bersaing dengan NVIDIA di pasar hyperscale
Mungkin mereka menargetkan startup ML yang sangat peduli cost-performance
Setelah melihat harganya, Vera Rubin memang setengah harga pada level GPU RAM yang mirip
Meski tentu tidak akan menyamai kualitas interconnect NV
Saya tetap tidak tahu siapa yang akan membeli ini. NV sudah mulai pengiriman
- Infrastruktur perusahaan besar sering kali berumur lebih dari 5 tahun, jadi biaya upgrade-nya terlalu besar dan tidak mudah diganti
  Kalau menargetkan celah itu, persaingan masih mungkin. Kalau pangsa pasarnya di bawah 0,01%, perusahaan besar pun mungkin tidak peduli
- Sebagai candaan atas komentar “exabox menarik”, ada respons, “bisa buat jalanin Crysis nggak”
Ini terasa seperti mesin penambang kripto generasi baru
Dulu mereka menjual hardware untuk mining, sekarang rasanya dijual untuk AI
- Mirip, tapi bedanya tidak ada reward blok
Tinybox memang keren, tapi pasar tampaknya lebih menginginkan produk dengan jaminan performa yang eksplisit, seperti “bisa menjalankan Kimi 2.5 pada 50 token per detik”
Mengingatkan pada konsep Decoy effect
Saya penasaran bagaimana perangkat ini menangani pendinginan
Soal syarat tinygrad bahwa mereka akan keluar dari alpha saat “2x lebih cepat dari pytorch”
Perlu penjelasan yang lebih spesifik tentang workload seperti apa yang membuat pytorch lebih dari 2x lebih lambat dibanding kemampuan hardwarenya
Sebagian besar paper memakai komponen standar, dan pytorch sendiri sudah ada di level mampu mengeluarkan lebih dari 50% performa GPU
Kalau ini kasus khusus yang baru kencang jika harus menulis kernel kustom, itu masalah yang berbeda
Saya tidak paham kenapa konfigurasi 6 GPU dihentikan
Konfigurasi 4 GPU (9070, RTX6000) memakai desain 2-slot sehingga bahkan bisa dibangun dengan motherboard biasa
6 GPU memang butuh riser, PCIe retimer, dual PSU, dan casing kustom sehingga lebih rumit
Tapi justru karena itu saya rasa value for money-nya lebih baik

Tinybox – Mesin AI offline yang mendukung 120B parameter

Ikhtisar tinygrad

Lini produk tinybox

red v2

green v2 blackwell

exabox

FAQ

Ikhtisar tinybox

Komputer berperforma tinggi untuk deep learning** yang** menawarkan nilai performa terhadap harga yang sangat tinggi

Pemesanan dan pengiriman

Kustomisasi dan pembayaran

Kustomisasi tidak tersedia demi menjaga harga dan kualitas

Penggunaan tinygrad

Fitur dan performa

Pengembangan dan komunitas

Bacaan terkait

1 komentar

Komentar Hacker News

Komputer berperforma tinggi untuk deep learning yang menawarkan nilai performa terhadap harga yang sangat tinggi