6 poin oleh GN⁺ 2026-03-22 | 1 komentar | Bagikan ke WhatsApp
  • tinygrad adalah framework jaringan saraf yang menggabungkan kesederhanaan dan performa, memungkinkan implementasi model kompleks dengan struktur operasi yang minimal
  • Berdasarkan itu, tinybox adalah komputer AI offline berperforma tinggi untuk pelatihan dan inferensi deep learning, tersedia dalam tiga model: red, green, dan exa
  • Model kelas atas green v2 blackwell menghasilkan performa 3086 TFLOPS dengan 4 GPU RTX PRO 6000, dan tersedia untuk pengiriman segera dengan harga $65,000
  • Model tertinggi exabox menargetkan performa sekitar 1 EXAFLOP, dijadwalkan rilis pada 2027, dengan kisaran harga sekitar $10M
  • Pembuatnya, tiny corp, menargetkan komersialisasi petaflop dan mewujudkan AI untuk semua

Ikhtisar tinygrad

  • tinygrad adalah framework jaringan saraf yang berfokus pada kesederhanaan dan performa, serta merupakan proyek yang berkembang pesat
  • Jaringan yang kompleks dibangun hanya dengan 3 jenis OpType: ElementwiseOps, ReduceOps, MovementOps
    • ElementwiseOps menjalankan operasi per-elemen pada 1 hingga 3 tensor, termasuk SQRT, LOG2, ADD, MUL, WHERE, dan lainnya
    • ReduceOps menerima satu tensor sebagai input dan mengembalikan tensor yang lebih kecil, seperti SUM dan MAX
    • MovementOps adalah operasi virtual yang memindahkan data tanpa penyalinan, menggunakan ShapeTracker untuk melakukan RESHAPE, PERMUTE, EXPAND, dan lainnya
  • Implementasi operasi CONV atau MATMUL dapat dilihat langsung di dalam kode

Lini produk tinybox

  • tinybox adalah komputer berperforma tinggi untuk deep learning, terdiri dari tiga model: red, green, dan exa
  • Spesifikasi utama masing-masing model adalah sebagai berikut
    • red v2

      • GPU: 4x 9070XT
      • Performa FP16(FP32 acc): 778 TFLOPS
      • RAM GPU: 64GB, bandwidth 2560 GB/s
      • CPU: AMD EPYC 32-core
      • RAM sistem: 128GB, bandwidth 204.8 GB/s
      • Disk: 2TB NVMe, kecepatan baca 7.3 GB/s
      • Jaringan: 2x 1GbE + OCP3.0
      • Daya: 1600W
      • Kebisingan: di bawah 50dB
      • Harga: $12,000, tersedia untuk pengiriman segera
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • Performa FP16(FP32 acc): 3086 TFLOPS
      • RAM GPU: 384GB, bandwidth 7168 GB/s
      • CPU: AMD GENOA 32-core
      • RAM sistem: 192GB, bandwidth 460.8 GB/s
      • Disk: 4TB RAID + 1TB untuk boot, kecepatan baca 59.3 GB/s
      • Jaringan: 2x 10GbE + OCP3.0
      • Daya: 2x 1600W
      • Kebisingan: 65dB (pada jarak 10m)
      • Harga: $65,000, tersedia untuk pengiriman segera
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • Performa FP16(FP32 acc): sekitar 1 EXAFLOP
      • RAM GPU: 25,920GB, bandwidth 1244 TB/s
      • CPU: 120x AMD GENOA 32-core
      • RAM sistem: 23,040GB, bandwidth 55.2 TB/s
      • Disk: 480TB RAID, kecepatan baca 7.1 TB/s
      • Jaringan: mendukung ekspansi PCIe5 3.2 TB/s
      • Daya: 600kW
      • Ukuran: 20x8x8.5 ft, berat 20,000 lbs
      • Rilis dijadwalkan: 2027, estimasi harga sekitar $10M
      • Semua model menggunakan sistem operasi Ubuntu 24.04 dan dapat dipasang sebagai standalone atau rack-mount
      • Pembaruan produk dan stok disediakan melalui mailing list

FAQ

  • Ikhtisar tinybox

    • Komputer berperforma tinggi untuk deep learning** yang** menawarkan nilai performa terhadap harga yang sangat tinggi

      • Diuji dalam benchmark MLPerf Training 4.0 dibandingkan dengan sistem yang 10 kali lebih mahal
      • Dapat digunakan bukan hanya untuk pelatihan, tetapi juga inferensi (inference)
  • Pemesanan dan pengiriman

    • Dapat dipesan melalui situs web, dengan pengiriman dalam 1 minggu setelah pembayaran
    • Mendukung pengambilan di lokasi San Diego atau pengiriman ke seluruh dunia
  • Kustomisasi dan pembayaran

    • Kustomisasi tidak tersedia demi menjaga harga dan kualitas

      • Pembayaran hanya melalui wire transfer
      • Formulir W-9 tersedia di tautan unduhan
  • Penggunaan tinygrad

    • Digunakan di openpilot untuk menjalankan model mengemudi berbasis GPU Snapdragon 845
    • Menggantikan Qualcomm SNPE, dengan performa lebih cepat serta mendukung pemuatan ONNX, pelatihan, dan fitur attention
  • Fitur dan performa

    • Bukan hanya untuk inferensi, dan mendukung forward/backward pass berbasis autodiff
    • Menyediakan API mirip PyTorch, tetapi dengan struktur yang lebih sederhana
    • Masih dalam versi alpha, sehingga stabilitasnya rendah, meski belakangan relatif lebih stabil
    • Tahap alpha akan diakhiri ketika sudah memungkinkan reproduksi paper 2x lebih cepat daripada PyTorch
    • Faktor peningkatan kecepatan
      • Optimalisasi per bentuk melalui kompilasi kernel kustom untuk tiap operasi
      • Fusion operasi yang agresif melalui struktur lazy tensor
      • Backend yang ringkas sehingga optimasi kernel meningkatkan performa keseluruhan
  • Pengembangan dan komunitas

    • Pengembangan berlangsung di GitHub dan Discord
    • Kontribusi tinygrad (PR) dianggap sebagai jalur utama untuk rekrutmen dan partisipasi investasi
    • Tujuan tiny corp adalah mengkomersialkan petaflop dan mewujudkan AI untuk semua

1 komentar

 
GN⁺ 2026-03-22
Komentar Hacker News
  • Ada ironi karena situs web ini terasa seperti dibuat oleh tangan manusia, bukan AI
    Desain dan nada tulisannya sangat manusiawi
    Meski begitu, idenya bagus, dan saya rasa model yang dilatih secara lokal seperti ini bisa menjadi masa depan yang mengurangi ketergantungan pada model milik perusahaan besar
    Hanya saja, akan lebih baik kalau bisa langsung dihubungkan ke sirkuit 240V. Harus mencari dua sirkuit 120V itu cukup merepotkan

    • Di antara tulisan tentang AI, yang benar-benar dihormati umumnya hampir tidak menunjukkan jejak ditulis AI
      Saya rasa karena orang-orang di industri ini sensitif dalam membedakan sinyal dan noise
    • Saya heran mereka membuka kontribusi kode secara publik dengan slogan “Invest with your PRs”, tapi tidak punya kebijakan soal kode buatan AI
      Mungkin volume PR-nya cukup kecil sehingga PR berkualitas rendah bisa diabaikan dengan sopan, jadi cara pembuatannya tidak terlalu penting
    • Bagi orang yang membeli perangkat seharga 65 ribu dolar, mencari dua sirkuit mungkin terasa masalah sepele
    • Sebenarnya sirkuit 240V di AS itu gabungan dari dua jalur 120V, jadi rewiring-nya tidak sulit
  • Model dasar seharga 12 ribu dolar terasa terlalu mahal
    Saya menjalankan model 120B parameter di Apple M3 Max (RAM 128GB) pada daya 80W dengan kecepatan 15~20 token per detik
    Memang tidak sempurna, tapi rasanya masih lebih baik daripada perangkat seharga 12 ribu dolar

    • Performa tflops M3 Max terlalu kecil untuk dibandingkan dengan box 12k
    • Perangkat seperti ini buat orang bodoh. Tahun lalu saya membeli 160GB VRAM seharga 1 ribu dolar, dan 96GB VRAM P40 juga di bawah 1 ribu dolar
      Dengan itu saya bisa menjalankan gpt-oss-120b Q8 di sekitar 30 token per detik
  • Tidak mungkin red v2 bisa menjalankan model 120B dengan layak
    Saya sendiri membangun dual A100 AI homelab dengan 80GB VRAM yang digabung lewat NVLink
    Model 120B tidak mungkin tanpa kuantisasi berat, dan pada tingkat itu model jadi tidak stabil
    Ruang untuk cache KV juga tidak cukup, jadi sekitar konteks 4k akan kena OOM
    Sekarang saja menjalankan model 70B sudah pas-pasan. Perangkat saya punya VRAM 16GB lebih banyak daripada red v2
    Selain itu saya tidak paham kenapa ukurannya 12U. Rig saya 4U
    green v2 punya GPU yang lebih baik, tapi kalau harganya 65 ribu dolar, CPU dan RAM-nya juga seharusnya jauh lebih baik
    Saya senang produk seperti ini ada, tapi jujur saja rasio konfigurasinya sulit dimengerti

    • Performanya lumayan, tapi bukan level gila
      Saya menjalankan gpt-oss-120b Q4 di box Epyc Milan dengan pembagian antara RAM dan GPU, dan hasilnya sekitar 30~50 token per detik
      Konfigurasi 64G VRAM/128G RAM itu tidak efisien. Model MoE juga hanya butuh sekitar 20B untuk router, dan sisanya di VRAM jadi terbuang
    • Alasan 12U mungkin karena mereka memakai satu SKU casing yang sama
      Jawabannya mungkin semacam, “untuk menekan harga dan menjaga kualitas, kami tidak menyediakan kustomisasi ukuran server”
    • Jujur saja, dua RTX 8000 tampaknya akan memberi ROI yang lebih baik daripada red v2
      Saya memakai server 8 GPU (5 RTX 8000, 3 RTX 6000 Ada), dan untuk inferensi dasar 8000 saja sudah cukup
      Model green mungkin lebih cepat, tapi tambahan biaya 25 ribu dolar terasa sulit dibenarkan
    • Saya penasaran apakah itu benar-benar lebih murah daripada Blackwell 6000
      Empat Blackwell 6000 harganya 32~36 ribu dolar, jadi saya tidak tahu ke mana 30 ribu dolar sisanya pergi
    • Saya berpikir, kalau KV dioffload ke RAM sistem atau storage, bukankah konteks yang lebih panjang bisa dipakai
      Beberapa framework AI lokal mendukung kebijakan LRU yang hanya memakai sebagian VRAM untuk cache, jadi overhead-nya mungkin masih bisa ditoleransi
  • exabox menarik
    Saya penasaran siapa pelanggannya. Setelah melihat video peluncuran Vera Rubin, saya bahkan tidak bisa membayangkan ada yang mau bersaing dengan NVIDIA di pasar hyperscale
    Mungkin mereka menargetkan startup ML yang sangat peduli cost-performance
    Setelah melihat harganya, Vera Rubin memang setengah harga pada level GPU RAM yang mirip
    Meski tentu tidak akan menyamai kualitas interconnect NV
    Saya tetap tidak tahu siapa yang akan membeli ini. NV sudah mulai pengiriman

    • Infrastruktur perusahaan besar sering kali berumur lebih dari 5 tahun, jadi biaya upgrade-nya terlalu besar dan tidak mudah diganti
      Kalau menargetkan celah itu, persaingan masih mungkin. Kalau pangsa pasarnya di bawah 0,01%, perusahaan besar pun mungkin tidak peduli
    • Sebagai candaan atas komentar “exabox menarik”, ada respons, “bisa buat jalanin Crysis nggak
  • Ini terasa seperti mesin penambang kripto generasi baru
    Dulu mereka menjual hardware untuk mining, sekarang rasanya dijual untuk AI

    • Mirip, tapi bedanya tidak ada reward blok
  • Tinybox memang keren, tapi pasar tampaknya lebih menginginkan produk dengan jaminan performa yang eksplisit, seperti “bisa menjalankan Kimi 2.5 pada 50 token per detik”

  • Mengingatkan pada konsep Decoy effect

  • Saya penasaran bagaimana perangkat ini menangani pendinginan

  • Soal syarat tinygrad bahwa mereka akan keluar dari alpha saat “2x lebih cepat dari pytorch”
    Perlu penjelasan yang lebih spesifik tentang workload seperti apa yang membuat pytorch lebih dari 2x lebih lambat dibanding kemampuan hardwarenya
    Sebagian besar paper memakai komponen standar, dan pytorch sendiri sudah ada di level mampu mengeluarkan lebih dari 50% performa GPU
    Kalau ini kasus khusus yang baru kencang jika harus menulis kernel kustom, itu masalah yang berbeda

  • Saya tidak paham kenapa konfigurasi 6 GPU dihentikan
    Konfigurasi 4 GPU (9070, RTX6000) memakai desain 2-slot sehingga bahkan bisa dibangun dengan motherboard biasa
    6 GPU memang butuh riser, PCIe retimer, dual PSU, dan casing kustom sehingga lebih rumit
    Tapi justru karena itu saya rasa value for money-nya lebih baik