17 poin oleh GN⁺ 2026-03-13 | 1 komentar | Bagikan ke WhatsApp
  • bitnet.cpp dari Microsoft adalah framework inferensi resmi untuk large language model (LLM) 1-bit, yang mendukung inferensi cepat tanpa kehilangan akurasi di CPU dan GPU
  • Mencapai peningkatan kecepatan 1.37~5.07x dan penghematan energi 55.4~70% pada CPU ARM, serta peningkatan kecepatan 2.37~6.17x dan penghematan energi 71.9~82.2% pada CPU x86
  • Menambahkan implementasi kernel paralel dan kuantisasi embedding untuk memberikan peningkatan performa tambahan 1.15~2.1x dibanding sebelumnya
  • Model BitNet b1.58 dapat dijalankan pada satu CPU dengan kecepatan 5~7 token per detik, memperluas kemungkinan menjalankan model sangat besar di lingkungan lokal
  • Dikembangkan berbasis llama.cpp dan T-MAC, serta berkontribusi pada perluasan ekosistem open source untuk efisiensi inferensi LLM low-bit

Ikhtisar bitnet.cpp

  • bitnet.cpp adalah framework inferensi resmi untuk LLM 1-bit (misalnya BitNet b1.58), yang menyediakan kernel yang dioptimalkan untuk CPU dan GPU
    • Dukungan NPU direncanakan akan ditambahkan di masa mendatang
  • Rilis pertama mendukung inferensi CPU dan telah membuktikan peningkatan kecepatan serta efisiensi energi pada arsitektur ARM maupun x86
    • CPU ARM: peningkatan kecepatan 1.37~5.07x, penghematan energi 55.4~70%
    • CPU x86: peningkatan kecepatan 2.37~6.17x, penghematan energi 71.9~82.2%
  • Model BitNet b1.58 100B parameter dapat dijalankan pada satu CPU dengan kecepatan 5~7 token per detik

Optimalisasi terbaru

  • Fitur implementasi kernel paralel, konfigurasi tiling, dan kuantisasi embedding telah ditambahkan, menghasilkan peningkatan kecepatan tambahan 1.15~2.1x dibanding sebelumnya
  • Peningkatan performa telah dikonfirmasi pada berbagai platform hardware dan workload
  • Detail teknis tersedia dalam dokumen optimization guide

Demo dan model resmi

  • Tersedia demo yang menjalankan model BitNet b1.58 3B di Apple M2
  • Sebagai model resmi, BitNet-b1.58-2B-4T telah dirilis di Hugging Face dan didukung pada CPU x86 maupun ARM
  • Model yang didukung mencakup bitnet_b1_58-large(0.7B), bitnet_b1_58-3B(3.3B), Llama3-8B-1.58, Falcon3, dan seri Falcon-E

Instalasi dan build

  • Persyaratan: Python 3.9 atau lebih baru, CMake 3.22 atau lebih baru, Clang 18 atau lebih baru
    • Pengguna Windows perlu menginstal Visual Studio 2022
    • Pengguna Debian/Ubuntu disediakan skrip instalasi otomatis
  • Disarankan menggunakan environment Conda, dan environment model dapat dikonfigurasi dengan setup_env.py
  • Setelah mengunduh model dari Hugging Face, model dapat dijalankan dari path lokal

Cara penggunaan dan benchmark

  • Jalankan inferensi model terkuantisasi dengan run_inference.py
    • Argumen utama: path model(-m), prompt(-p), jumlah thread(-t), ukuran konteks(-c), temperature(-temp)
  • Dengan skrip e2e_benchmark.py, performa dapat diukur dengan menentukan jumlah token, panjang prompt, dan jumlah thread
  • Jika tidak ada model publik yang tersedia, benchmark dapat dijalankan setelah membuat dummy model dengan generate-dummy-bitnet-model.py

Konversi model dan FAQ

  • Tersedia skrip untuk mengonversi checkpoint .safetensors ke format gguf
  • Pada FAQ dijelaskan cara mengatasi error build llama.cpp (terkait std::chrono) dan prosedur konfigurasi environment clang di Windows
    • Inisialisasi environment diperlukan melalui Visual Studio Developer Command Prompt atau PowerShell

1 komentar

 
GN⁺ 2026-03-13
Komentar Hacker News
  • Microsoft sebenarnya menggunakan 2 bit, bukan 1,58 bit
    Dalam kasus ini, empat nilai dapat direpresentasikan: -1, 0, 1, 2
    Mengingat sinaps inhibitor menyumbang 20~30%, menurut saya struktur seperti ini cukup selaras dengan struktur otak biologis

    • Saya penasaran apakah bagian kalimat ketiga, yaitu “sinaps inhibitor menyumbang 20~30%”, bisa dijelaskan lebih lanjut
  • Saya sering bertanya-tanya seperti apa bentuk “LLM dengan kemampuan minimum
    Maksudnya, model yang hanya punya informasi minimum dan tetap bisa memberikan jawaban yang cukup masuk akal dengan melengkapi sisanya lewat pencarian Google
    Kalau tempat seperti Encyclopedia Britannica menjual datanya ke LLM dan menyediakan layanan verifikasi hasil, rasanya itu bisa membuat perbedaan besar
    Wikipedia juga bagus, tetapi disayangkan ada banyak kesalahan dan bias manusia

    • Video singkat Andrej Karpathy membahas topik ini
      LLM kecil memang sudah berkembang ke arah ini; pengetahuan umum mereka masih kurang, tetapi kemampuan menggunakan alat (misalnya pencarian Google) terus membaik
      Hanya saja, tetap sulit bagi mereka untuk membedakan dengan jelas apa yang mereka tahu dan apa yang tidak mereka tahu
    • Yang saya bayangkan bukan “LLM dengan kemampuan minimum”, melainkan LLM yang hanya benar-benar paham bahasa tetapi hampir tidak punya pengetahuan
      Seperti insinyur yang tidak mengenal perangkat tertentu: punya kemampuan memecahkan masalah, tetapi tidak punya pengetahuan detail
      Saya ragu model seperti ini bisa menyelesaikan semuanya hanya dengan pencarian Google atau wiki, tetapi arsitektur edge LLM tampaknya akan menjadi standar di masa depan
    • Kemampuan penalaran pada akhirnya bergantung pada jumlah informasi selama pelatihan
      Semakin banyak informasi itu tercakup dalam data latih, semakin mudah pencarian dan interpretasinya
      Karena itu, pelatihan yang lebih mengandalkan memori eksternal (seperti pencarian) daripada hafalan internal mungkin lebih praktis
    • Rasanya kontradiktif jika khawatir soal kesalahan dan bias Wikipedia, tetapi pada saat yang sama menganggap LLM dengan akses web akan lebih baik
      Saya justru berpikir sebaliknya
    • Hasilnya tampaknya akan berbeda tergantung seberapa konkret tingkat yang dimaksud dengan istilah “jawaban yang masuk akal”
  • Menurut makalah asli (pdf), model ini membutuhkan sekitar 4~5 kali lebih banyak parameter dibanding model fp16
    Bisa saja membangunnya sendiri, tetapi karena harus dilatih dari awal, pilihannya terbatas
    Meski begitu, kecepatan inferensi kemungkinan tetap akan lebih tinggi daripada model kuantisasi 4 bit atau 8 bit terbaru

  • Inti sebenarnya adalah efek penghematan energi
    Disebutkan bahwa inferensi CPU bisa menghemat 70~82%
    Jika model 1 bit menjadi cukup bagus, LLM bisa dijalankan di perangkat keras umum tanpa GPU, dan itu akan mengubah peta aksesibilitas

  • bitnet.cpp disebut sebagai kerangka inferensi resmi untuk 1-bit LLM (BitNet b1.58 dan sejenisnya),
    tetapi ada kebingungan soal “1 bit atau 1 trit”

    • “1-bit LLM” lebih mirip istilah pemasaran; pada praktiknya ia memakai 3 keadaan (-1, 0, 1) sehingga setara dengan 1,58 bit
    • Karena log₂(3)≈1,58, ini bukan model 2-keadaan (1 bit), melainkan model 3-keadaan (1,58 bit)
      Mencampur kedua konsep itu terasa membingungkan
  • Senang melihat proyek ini terus dikembangkan
    Tahun lalu saya membaca tulisan terkait dan merasa ada potensinya, tetapi sayang tidak muncul model baru

    • Namun pendekatan ini pada akhirnya hanyalah kuantisasi model presisi; inferensinya memang lebih cepat, tetapi pelatihannya tidak menjadi lebih cepat
      Yang benar-benar menarik adalah arah melatih model biner secara langsung tanpa operasi floating-point
      Makalah terkait ada di NeurIPS 2024
  • Pernyataan “bisa menjalankan 100B BitNet” tidak berarti modelnya benar-benar ada, melainkan bahwa kerangka inferensinya memungkinkan

    • Sepertinya yang dipakai sebenarnya model dummy
      Bahkan jika mencari “1-bit 100b model”, tidak ada model yang bisa diunduh
  • Kualitas keluaran model lebih mirip ocehan setingkat GPT-2, dan paragraf yang sama diulang begitu saja
    Bahkan ia terus mendaur ulang kutipan palsu seperti (Jenkins, 2010)

    • Namun ini adalah model dasar 3B parameter yang sudah berusia 2 tahun, versi riset yang hanya dilatih dengan 100B token
  • Judulnya menyesatkan
    Yang ada sebenarnya bukan model 100B terlatih, melainkan kerangka inferensi yang mampu menanganinya
    Saya menjalankan model kuantisasi 70B di M2 Max 96GB dengan llama.cpp + LiteLLM, dan bandwidth memori menjadi bottleneck
    Pendekatan 1,58 bit ini punya struktur yang mengubah perkalian matriks menjadi penjumlahan, sehingga pola komputasinya pada CPU secara fundamental berbeda
    Jika model kelas 100B bisa dijalankan pada satu inti CPU dengan kecepatan 5~7 token per detik, itu akan menjadi titik balik inferensi on-device
    Kerangkanya sudah siap, sekarang tinggal ada yang benar-benar melatih modelnya

    • Jika Microsoft sendiri tidak melatih model itu selama 2 tahun, saya rasa sulit mempercayai klaim mereka begitu saja
    • Disebut “model baru”, tetapi bobot yang diunggah ke Hugging Face ternyata dari 11 bulan lalu dan hanya di kisaran 2B parameter
      Hasil nyatanya terasa minim dibanding promosinya
    • Operasi 2 bit sangat murah untuk diimplementasikan di perangkat keras, jadi jika membuat chip khusus, inferensi yang kuat mungkin bisa dilakukan tanpa GPU
      Untuk pelatihan GPU tetap dibutuhkan, tetapi perangkat keras khusus inferensi bisa menjadi jauh lebih sederhana
    • Kecepatan 5~7 token per detik lebih lambat daripada kecepatan baca manusia
      Saya pernah memakai model yang menghasilkan 7 token/detik, dan rasanya seperti berjalan di belakang orang yang lambat
      Di lingkungan lokal, target minimal seharusnya di atas 10 token/detik
    • Saya ragu dengan klaim bahwa “profil komputasinya di CPU secara fundamental berbeda”
      Instruksi FMA (Fused Multiply-Add) pada CPU modern punya throughput yang hampir sama dengan penjumlahan biasa
  • Saya penasaran kapan PC dengan NPU bawaan benar-benar mulai menunjukkan hasil besar
    AMD mendapatkan hasil yang bagus dengan kernel inferensi hibrida NPU/iGPU
    Jika model besar seperti ini bisa berjalan di NPU, efisiensi daya akan jauh lebih baik dibanding CPU

    • Baru-baru ini saya menjalankan Whisper dari OpenAI di CPU, lalu mencoba versi yang dioptimalkan untuk Intel NPU, dan hasilnya 6 kali lebih cepat serta jauh lebih senyap
      Sejak itu saya jadi penggemar NPU. Memang tidak setara RTX 5090, tetapi jauh lebih efisien daripada CPU
    • Bahkan di NPU milik SBC Rockchip RK3588, LLM kecil sudah bisa dijalankan
      Ekosistem perangkat lunaknya memang masih tidak stabil, tetapi ia berjalan dengan penggunaan CPU/GPU nyaris 0
    • Meski begitu, saya masih ragu apakah NPU benar-benar sekuat itu
      Setahu saya desainnya lebih berfokus pada daya rendah