13 poin oleh GN⁺ 2025-04-18 | 4 komentar | Bagikan ke WhatsApp
  • Peneliti Microsoft mengembangkan BitNet b1.58 2B4T, sebuah model AI yang sangat efisien
  • Melalui kuantisasi 1-bit, model ini mencapai kecepatan tinggi dan penggunaan memori rendah, sehingga dapat berjalan di CPU dan dirilis dengan lisensi MIT
  • Dapat berjalan bahkan pada CPU seperti Apple M2 dan beroperasi tanpa GPU
  • BitNet b1.58 2B4T yang memiliki 2 miliar parameter menunjukkan kinerja lebih baik daripada model Meta, Google, dan Alibaba
  • Namun, model ini harus menggunakan framework bitnet.cpp milik Microsoft, dan masalah kompatibilitas dengan GPU masih tetap ada

BitNet b1.58 2B4T, model AI 1-bit ultra-ringan dari Microsoft

Konsep model ultra-ringan BitNet

  • BitNet adalah model AI yang menerapkan kuantisasi 1-bit, merepresentasikan parameter hanya dengan tiga nilai: -1, 0, 1
  • Model kuantisasi konvensional umumnya direpresentasikan dalam 8-bit atau 4-bit, tetapi BitNet hanya menggunakan 1-bit sehingga memiliki efisiensi memori yang sangat unggul
  • Pendekatan ini memberi keuntungan besar pada perangkat keras berspesifikasi rendah, khususnya lingkungan CPU tanpa GPU

Fitur BitNet b1.58 2B4T

  • Jumlah parameter: 2 miliar
  • Data pelatihan: 4 triliun token (sekitar setara 33 juta buku)
  • Dirilis sebagai open source dengan lisensi MIT
  • Dapat berjalan pada CPU umum seperti Apple M2 CPU

Perbandingan performa dan hasil benchmark

  • BitNet b1.58 2B4T menunjukkan performa lebih baik dalam beberapa benchmark dibanding model berikut:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • Benchmark utama yang digunakan:
    • GSM8K: evaluasi soal matematika tingkat sekolah dasar
    • PIQA: evaluasi kemampuan penalaran akal sehat fisik
  • Dalam beberapa pengujian, kecepatannya hingga 2x lebih cepat, dengan penggunaan memori jauh lebih rendah

Keterbatasan dan masalah kompatibilitas

  • Performa BitNet bergantung pada framework khusus Microsoft, bitnet.cpp
  • Saat ini bitnet.cpp hanya mendukung CPU tertentu dan belum mendukung GPU
  • Karena itu, kurangnya kompatibilitas dengan lingkungan GPU yang menjadi standar infrastruktur AI dianggap sebagai kekurangan

4 komentar

 
cartwheel8815 2025-04-21

> BitNet adalah model AI yang menerapkan kuantisasi 1-bit, dan merepresentasikan parameter hanya dengan tiga nilai: -1, 0, 1

Nilainya ada 3 tapi 1-bit? Saya merasa aneh, jadi saya melihat beberapa komentar HN,

> https://compilade.net/blog/ternary-packing

Karena ini diperlakukan sebagai 5 digit ternary yang merepresentasikan 3 nilai, alih-alih 8 bit yang merepresentasikan 2 nilai per byte, maka secara ketat ini bukan model 1-bit, melainkan model 1.5849... bit, karena log(3) / log(2) = 1.5849.... Melihat nama modelnya yang menyertakan b1.58, sepertinya ini memang benar.

 
cartwheel8815 2025-04-21

Sepertinya baris ke-4 perlu diperbaiki dari 200 juta parameter menjadi 2 miliar parameter.

 
GN⁺ 2025-04-18
Komentar Hacker News
  • BitNet dari Microsoft lebih efisien dari sisi biaya dalam hal latensi, memori, throughput, dan konsumsi energi, sambil menggunakan ukuran model dan token pelatihan yang sama dengan Transformer LLM berpresisi seperti FP16 atau BF16
    • Informasi lebih lanjut tersedia melalui tautan GitHub dan makalah arXiv
  • "Jumlah parameter" model AI sama seperti "GHz" pada model AI
    • Semua model yang dibandingkan memiliki 1-2 miliar parameter, tetapi ukuran nyatanya bisa berbeda lebih dari 10 kali lipat
  • Sebagian besar LLM gratis dapat dijalankan di CPU
    • Klaimnya adalah model ini berjalan cukup cepat untuk berguna di CPU
    • Karena tidak diketahui kecepatan jalannya di GPU, sulit yakin sepenuhnya terhadap akurasi klaim ini
  • Model BitNet b1.58 2B4T lebih cepat dan menggunakan memori lebih sedikit dibanding model lain dengan ukuran yang sama
    • Ukuran modelnya lebih dari 1GB, dan sudah banyak model 1-2GB yang berjalan baik bahkan di CPU modern
  • NVidia sedang terburu-buru mengunci ekosistem di level perangkat lunak melalui CUDA
    • Jika tidak, sahamnya bisa bernasib seperti Zoom
  • Disebut "1-bit", tetapi sebenarnya menggunakan {-1, 0, 1}
    • Bagian ini bisa membingungkan
  • Ada yang penasaran apakah sudah ada library untuk mendistilasi model yang lebih besar menjadi BitNet
  • Tersedia secara publik di bawah lisensi MIT, dan bisa dijalankan di CPU termasuk Apple M2
    • M2 sendiri sudah bisa dengan mudah menjalankan model LLama dan Mistral berukuran 7GB atau 13GB
  • Karena seri M dan MacBook sudah sangat tersebar luas, orang bisa lupa betapa lemahnya CPU rata-rata (i3 atau i5)
  • Perang harga akan terus berlanjut hingga menyentuh titik terendah
  • Ini adalah teknologi yang sudah berusia lebih dari 1 tahun, dan tidak semua orang beralih ke teknologi ini
    • Kalau melihat alasannya, teknologi ini memang benar-benar memengaruhi metrik, dan beberapa pengaruhnya lebih besar daripada yang lain
    • Ini bukan solusi serba bisa
 
cartwheel8815 2025-04-21

Baris ke-4 semua model yang dibandingkan memiliki 100-200 juta -> semua model yang dibandingkan memiliki 1-2 miliar
Terjemahan billion pada AI terasa janggal.