1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Model open baru dari Z.ai, GLM-5.2, menonjol sebagai contoh menjalankan model besar secara lokal dengan 744B parameter, 40B parameter aktif, dan jendela konteks 1M
  • Unsloth menyediakan jalur menjalankan secara lokal lewat Dynamic GGUF, dan quant 2-bit UD-IQ2_M yang direkomendasikan memerlukan disk 239GB serta lingkungan dengan RAM minimal sekitar 245GB
  • Dynamic 1-bit menunjukkan sekitar 76.2% top-1 accuracy dengan pengurangan ukuran 86%, sementara Dynamic 2-bit menunjukkan sekitar 82% accuracy dengan pengurangan ukuran 84%, sehingga tidak sama dengan tafsir “kinerjanya memburuk sebesar rasio ukurannya mengecil”
  • Cara menjalankannya terbagi dua, yaitu Unsloth Studio dan llama.cpp; Studio mendukung pencarian, pengunduhan, dan eksekusi model, RAM offloading, serta deteksi multiGPU di MacOS, Windows, dan Linux
  • Untuk benar-benar memakai konteks panjang, penggunaan memori perlu dikurangi dengan KV cache quantization di llama.cpp; q4_0 memungkinkan konteks sekitar 3.5x lebih panjang, dan q4_1 sekitar 3.2x lebih panjang

Gambaran model GLM-5.2

  • GLM-5.2 adalah model open baru dari Z.ai, dan dapat dijalankan di hardware lokal melalui Unsloth Dynamic GGUF
  • Spesifikasi modelnya adalah sebagai berikut
    • Total parameter: 744B
    • Parameter aktif: 40B
    • Jendela konteks maksimum: 1,048,576
  • Model ini diperkenalkan sebagai penyedia performa SOTA untuk long-horizon coding, reasoning, dan agentic tasks
  • Menurut Artificial Analysis dan beberapa benchmark, model ini dikatakan menunjukkan performa setara Claude 4.8 Opus, GPT-5.5, dan Gemini 3.1 Pro
  • Unsloth menyatakan telah menerima day-zero access dari Z.ai
  • File model GGUF untuk GLM-5.2 bisa diunduh dari Hugging Face di GLM-5.2-GGUF

Quant yang direkomendasikan dan kebutuhan memori

  • Untuk keseimbangan aksesibilitas dan akurasi, disarankan memakai 2-bit dynamic quant UD-IQ2_M
    • Penggunaan disk: 239GB
    • Muat langsung pada Mac dengan 256GB unified memory
    • Dengan MoE offloading, model ini juga dikatakan berjalan baik pada 1x24GB GPU + 256GB RAM
  • Quant 1-bit muat dalam 223GB RAM, sedangkan 8-bit memerlukan 810GB RAM
  • Dalam tabel kebutuhan hardware inferensi, total memori berarti RAM + VRAM atau unified memory
    • Angka total memori yang ditampilkan: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
  • Untuk performa optimal, total memori yang tersedia dari VRAM dan RAM sistem harus cukup jauh melebihi quantized model file size

Mode Thinking dan pengaturan sampling

  • GLM-5.2 menyediakan 3 thinking mode
    • non-thinking
    • thinking High
    • thinking Max
  • Untuk tugas kompleks, disarankan menggunakan Max Thinking
  • Di Unsloth Studio, High/Max Thinking dan non-Thinking dapat di-toggle melalui UI
  • Pengaturan untuk sebagian besar use case adalah sebagai berikut
    • temperature = 1.0
    • top_p = 0.95
    • Pada mode lain, top_p = 1.0
  • Secara default GLM-5.2 menggunakan reasoning, dan reasoning_effort dapat dipilih sebagai "high", "max", atau dinonaktifkan
  • Contoh menonaktifkan thinking adalah sebagai berikut
    • Shell biasa: --chat-template-kwargs '{"enable_thinking":false}'
    • Windows PowerShell: --chat-template-kwargs "{\"enable_thinking\":false}"
  • Di llama.cpp, Anda juga dapat menggunakan --reasoning on atau --reasoning off
  • Contoh pengaturan reasoning effort adalah sebagai berikut
    • --chat-template-kwargs '{"reasoning_effort":"max"}'
    • --chat-template-kwargs '{"reasoning_effort":"high"}'
    • --chat-template-kwargs '{"enable_thinking":false}'

Akurasi Dynamic GGUF dan interpretasi KLD

  • Unsloth menggunakan benchmark KLD(KL Divergence) untuk mengevaluasi akurasi quantization GLM-5.2-GGUF
  • Dynamic 4-bit UD-Q4_K_XL dan Dynamic 5-bit UD-Q5_K_XL diinformasikan sebagai hampir lossless dalam sebagian besar kasus
  • Quant yang lebih kecil pun bekerja dengan pendekatan penempatan presisi dinamis, yaitu menjaga layer penting pada presisi lebih tinggi dan layer yang kurang penting pada bit rendah
  • Angka berdasarkan pure top-1% accuracy adalah sebagai berikut
    • Dynamic 1-bit: sekitar 76.2% accuracy, pengurangan ukuran 86%
    • Dynamic 2-bit: sekitar 82% accuracy, pengurangan ukuran 84%
    • Perbandingan akurasi: {b:76,82}
  • Ukuran 86% lebih kecil tidak berarti 86% lebih buruk; untuk Dynamic 1-bit, diberi interpretasi sekitar 24% lebih rendah akurasinya dibanding model penuh 1.5TB
  • “76% accuracy” bukan berarti pada pertanyaan seperti “The capital of France is” model memilih Paris 76% dan Sydney 24%
    • Dalam contoh itu, Paris dikatakan tetap 100% dan Sydney 0%
    • Angka 76% tersebut juga mencakup perubahan distribusi filler words dan stop words di seluruh corpus
  • Untuk prompt seperti “Create a novel”, di mana ada banyak awal yang sama-sama benar, distribusi token antara model baseline dan model yang di-quantize bisa berbeda
    • Baseline bisa memilih [I] 100%, sementara model quantized membagi distribusi seperti [I] 76% dan [The] 24%
    • Angka ini tidak berarti ada peluang 24% menghasilkan gibberish atau output yang salah
  • KLD adalah jarak antara probabilitas baseline BF16 atau Q8_0 dan probabilitas versi quantized
    • Tujuan quantization adalah meminimalkan rata-rata KL divergence antara f(q(W)) dan f(W)
    • f adalah forward language model, q adalah operasi quantization, dan W adalah parameter atau weights model
    • Jika KLD bernilai 0, berarti model direkonstruksi dengan sempurna
  • Menjalankan KLD pada seluruh contoh corpus pelatihan sebesar 15T tokens sangat mahal, sehingga Unsloth mengoptimalkannya dengan mean KLD dan sampling subset representatif kecil
  • KLD 99.9% juga umumnya dianggap baik, dan karena ada uplift yang lebih besar mulai dari 4bit ke atas, Dynamic 4-bit kemungkinan paling cocok untuk massive out-of-distribution tasks

Menjalankan dengan Unsloth Studio

  • Unsloth Studio adalah web UI open-source untuk AI lokal dan mendukung menjalankan GLM-5.2
  • Fitur utamanya adalah sebagai berikut
    • Menjalankan model lokal di MacOS, Windows, dan Linux
    • Mencari, mengunduh, dan menjalankan model GGUF dan safetensor
    • Deteksi otomatis RAM offloading dan setup multiGPU
    • Inferensi CPU + GPU cepat melalui llama.cpp
  • Perintah instalasinya adalah sebagai berikut
  • Perintah menjalankannya adalah sebagai berikut
    • unsloth studio -H 0.0.0.0 -p 8888
    • Setelah dijalankan, buka http://127.0.0.1:8888 atau URL khusus pengguna di browser
  • Cara menjalankan Studio dengan aman melalui HTTPS juga disediakan
    • Di Windows, Mac, Linux: unsloth studio --secure
    • Menggunakan Cloudflare tunnel gratis
  • Saat pertama kali dijalankan, Anda perlu membuat password untuk keamanan akun lalu sign in kembali
  • Di tab Studio Chat, cari GLM-5.2 pada kolom pencarian lalu unduh model dan quant yang diinginkan
  • Sebelum menjalankan model, pastikan tersedia compute yang cukup
  • Di Studio, inference parameters seharusnya diatur otomatis, tetapi pengguna juga dapat mengubah context length, chat template, dan pengaturan lain secara manual
  • Informasi tambahan tersedia di Unsloth Studio inference guide

Menjalankan dengan llama.cpp

  • Tutorial llama.cpp membahas menjalankan quant UD-IQ2_M, yang memerlukan minimal 245GB RAM
  • Untuk inferensi lokal yang cepat, digunakan llama.cpp
  • Jika tidak memiliki GPU atau hanya ingin inferensi CPU, ubah -DGGML_CUDA=ON menjadi -DGGML_CUDA=OFF
  • Untuk perangkat Apple Mac / Metal, lanjutkan dengan -DGGML_CUDA=OFF, dan dukungan Metal sudah aktif secara default
  • Prosedur build-nya mengikuti alur berikut
    • apt-get update
    • apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
    • git clone https://github.com/ggml-org/llama.cpp
    • cmake ... -DGGML_CUDA=ON
    • cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
    • cp llama.cpp/build/bin/llama-* llama.cpp
  • llama.cpp dapat digunakan untuk load dan download model secara langsung seperti ollama run
  • Sebagai contoh, Anda bisa memilih tipe quantization UD-IQ2_M, dan memaksa lokasi penyimpanan dengan export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
  • Proses download langsung dari llama.cpp bisa sangat lambat, sehingga cara unduh manual disarankan sebagai opsi yang lebih baik

Contoh unduh manual dan eksekusi

  • Untuk unduh manual yang lebih cepat, digunakan huggingface_hub
    • pip install huggingface_hub
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
  • Untuk near full precision, Anda dapat memakai --include "*UD-Q8_K_XL*"
  • Jika unduhan macet, disarankan memeriksa Hugging Face Hub, XET debugging
  • Perintah unduh Dynamic 1-bit adalah sebagai berikut
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
  • Path model untuk conversation mode adalah sebagai berikut
    • 2-bit: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • 1-bit: unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
  • Contoh menjalankan llama-cli menetapkan shard pertama GGUF 2-bit ke --model dan menggunakan parameter berikut
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
  • Dalam contoh eksekusi langsung, -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M juga digunakan

Perilaku yang dikonfirmasi lewat contoh generasi

  • Dokumen tersebut memuat contoh 2-bit GLM-5.2 yang melakukan tool-calling dan pembuatan SVG
  • Setelah menjalankan llama-cli, hasil untuk permintaan membuat “short Flappy Bird game” ditampilkan
  • Game HTML/JavaScript tunggal yang dihasilkan memakai nama Sunset Flier
    • Mencakup canvas, layar mulai, layar game over, skor HUD, tombol NEW BEST!, dan RETRY
    • Tanpa aset eksternal, efek suara flap, score, hit, dan die dibuat menggunakan Web Audio API
    • Status game dikelola dalam empat tahap: READY, PLAYING, DYING, OVER
    • Skor terbaik disimpan dengan localStorage.getItem('sunsetFlierBest') dan localStorage.setItem()
  • Logika game mencakup gravitasi, impuls flap, pipe acak, tabrakan, partikel, guncangan layar, dan sistem medali
    • GRAVITY = 0.42
    • MAX_FALL = 9
    • PIPE_W = 68
    • PIPE_GAP = 180
    • PIPE_SPEED = 2.6
    • PIPE_SPACING = 220
  • Input mendukung mouse, sentuh, serta keyboard Space, ArrowUp, Enter
  • Contoh game ini disajikan dalam konteks bahwa 1-bit quantization juga bekerja dengan baik dan suaranya berjalan normal

Konteks panjang dan KV cache quantization

  • Untuk memanfaatkan konteks panjang di llama.cpp, penggunaan memori perlu dikurangi dengan KV cache quantization
  • llama.cpp baru-baru ini menambahkan teknik untuk akurasi yang lebih tinggi pada KV cache quantization, dengan PR terkait di https://github.com/ggml-org/llama.cpp/pull/21038
  • Tipe data KV cache yang didukung adalah sebagai berikut
    • f32
    • f16
    • bf16
    • q8_0
    • q4_0
    • q4_1
    • iq4_nl
    • q5_0
    • q5_1
  • Nilai default-nya adalah f16
  • q4_0 memiliki sekitar 4.5 bit per weight, sehingga panjang konteks bisa ditingkatkan sebesar 16 / 4.5, yaitu sekitar 3.5x
    • Sebagai contoh, model yang sebelumnya mendukung 10K bisa masuk ke kisaran hingga 35K
  • q4_1 menambahkan shifting parameter sehingga mungkin lebih baik, dan dengan 5 bit per weight memberikan konteks sekitar 3.2x lebih panjang
  • Contoh menjalankan KV cache quantization menetapkan model GLM-5.2 GGUF dan parameter sampling berikut
    • Path model: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
    • --cache-type-k q4_1
    • --cache-type-v q4_1

Angka yang bisa dikonfirmasi dari tabel benchmark

  • Dokumen tersebut dilanjutkan dengan tabel benchmark GLM-5.2, tetapi dalam konten yang diberikan tidak ada header kolom, sehingga tidak dapat dipastikan angka mana yang cocok dengan model atau pengaturan tertentu
  • Benchmark reasoning mencakup baris dan angka berikut
    • HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
    • AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
    • GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
  • Benchmark coding mencakup baris dan angka berikut
    • SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
    • NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
    • Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
  • Benchmark agentic mencakup baris dan angka berikut
    • MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
    • Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Sedang menjalankan Q4_K_XL. Untuk mendapatkan sekitar 6tk/dtk, RAM 512GB dan 2 buah RTX 3090 dengan llama.cpp -cmoe sudah cukup
    Saat ini karena masih pakai DDR4 2400MHz yang jelek, tetapi kalau 3200MHz mungkin bisa naik sampai sekitar 9tk/dtk. CPU-nya juga EPYC 32-core jadi cukup oke, tetapi dengan 64-core yang lebih bagus sepertinya bisa mencapai 11tk/dtk
    Saya merakitnya sebagai opsi hemat sebelum harga hardware makin gila, dan menyesalinya setiap hari, tetapi tetap luar biasa bahwa model ini bisa dijalankan di rumah. Cocok untuk perencanaan atau setelah semua konteks yang dibutuhkan dikumpulkan lalu dimasukkan ke prompt sekali jalan
    Total biaya hardware saat dirakit adalah 2.400 dolar, dan kalau rajin berburu barang masih ada cara untuk menjalankan model seperti ini di rumah. Saya sering ditanya kenapa repot-repot, atau berapa banyak yang bisa dihemat kalau pakai API cloud, tetapi menurut saya insiden Fable menunjukkan nilai dari mengoperasikan sendiri secara independen
    Terima kasih untuk tim unsloth, dan Q4_K_XL memang solid. Kalau mau mengunduh model terkuantisasi, selama muat masuk, sebaiknya ambil varian K_XL

    • Salut untuk orang-orang yang mendorong batas lewat eksperimen homebrew seperti ini. Seperti kripto, AI juga tenggelam dalam kebisingan para pedagang, tetapi hampir tak ada pembicaraan tentang membangun ketahanan
      Para peneliti yang berusaha menyisipkan model open source ke sikat gigi elektrik atau Tamagotchi juga sama kerennya
    • Kalau beban itu dijalankan terus-menerus, paling tidak butuh 600W, jadi sekitar 14kWh per hari. Dengan tarif 0,2 dolar per kWh, itu 2,80 dolar per hari, atau sekitar 1.000 dolar per tahun hanya untuk listrik
      Kalau privasi atau kepuasan memiliki sendiri bukan kebutuhan mutlak, membayar hyperscaler akan lebih murah, lebih praktis, dan token per detiknya juga jauh lebih cepat
      Meski begitu, saya suka arah perkembangannya, dan penasaran hardware self-hosting seperti apa yang akan muncul 2 tahun lagi
    • Saya punya konfigurasi yang hampir sama. 2 buah RTX 3090, DDR4 512GB yang sedikit lebih cepat, dan EPYC 64-core [0]
      Saya cukup senang memakainya dan ingin cepat-cepat mencoba model ini juga
      Selain menjalankan model lokal, saya juga memakai mesin ini sebagai platform pengembangan jarak jauh utama. Semua sesi Claude Code sekarang saya jalankan di sana lewat tmux
      Jari saya senang karena tidak perlu lagi terus-menerus menyentuh laptop yang panas. Claude Code juga memang sangat boros baterai
      [0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
    • Ungkapan “yang dibutuhkan untuk menjalankannya segini” mungkin benar kalau dibeli seharga 2.400 dolar, tetapi sekarang total harganya jauh lebih dekat ke 10.000 dolar
      RAM saja hampir 5.000 dolar, dan GPU masing-masing sekitar 2.000 dolar, jadi menurut harga saat ini ini adalah hardware yang cukup mahal
    • Setahu saya, implementasi llama.cpp untuk model ini masih belum mendukung DSA sparse attention, jadi masih cukup belum matang
      Karena itu model dijalankan dengan mekanisme lain yang tidak digunakan saat pelatihan, dan ada hasil yang menunjukkan kualitas serta performanya menurun
      Bagaimanapun, menurut saya GLM 5.2 dalam banyak hal tidak semenarik keluarga DeepSeek V4. DeepSeek V4 memakai mekanisme attention yang lebih maju sehingga bisa jauh menghemat memori KV cache, terutama pada konteks panjang
      Hasilnya, pemrosesan batch yang luas jadi memungkinkan bahkan di platform konsumen. GLM tidak punya itu, dan dari sisi struktur performa dasarnya terasa kurang lebih mirip dengan Kimi 2.6. Keduanya sedikit terlalu berat untuk dijalankan secara masuk akal pada kualitas penuh di hardware umum
  • Hampir bisa. Perangkat saya RAM 192GB + RTX 3090 24GB, dan saya nyaris bisa menjalankannya
    Untuk offloading MoE, tertulis perlu VRAM 24GB dan RAM 256GB
    https://unsloth.ai/docs/models/glm-5.2#usage-guide
    Di thread sebelumnya ada yang bilang hardware-nya menelan biaya 500 ribu dolar
    https://news.ycombinator.com/item?id=48629970

    • 500 ribu dolar itu sangat berlebihan. Kalau menargetkan konkurensi besar di FP8 atau BF16 mungkin bisa saja
      Dengan NVFP4, kecepatan yang lumayan, sekitar 120 tok/dtk, beserta konkurensi masih bisa dicapai di kisaran 80 ribu~90 ribu dolar pada harga saat ini, bahkan mungkin lebih rendah
      Dengan uang sebanyak itu, Anda bisa membeli 6 buah RTX 6000 PRO Blackwell, CPU dan motherboard yang layak, serta power supply. Total VRAM-nya 576GB
      Jika decode 40 tok/dtk dan prefill sekitar 1200 tok/dtk sudah cukup, biayanya bisa di bawah 50 ribu dolar
    • Sulit mendapat hasil bagus pada 2-bit. Rentang yang ideal untuk coding setidaknya Q8
    • Saya berharap ledakan kali ini bisa memicu kembali kemajuan hardware komputasi seperti era 90-an
      Salah satu alasan hardware relatif stagnan selama 20 tahun terakhir, menurut saya, adalah karena perusahaan kekurangan use case untuk membenarkan penggantian hardware
      Selama 15 tahun terakhir, sebagian besar uang dan energi mengalir ke mobile
      Inferensi lokal yang murah mungkin bisa menjadi sumber pendapatan yang dibutuhkan agar produsen server, desktop, dan laptop bergerak lagi
    • Saya punya RAM, tetapi tidak punya VRAM. Dengan 3090 yang punya RAM 24GB, kecepatan atau tok/dtk seperti apa yang bisa diharapkan?
      Saya agak tergoda membeli satu GPU yang punya RAM 24GB
    • Iseng saya tanya Gemini, dan jawabannya untuk mendapatkan throughput yang layak tanpa kuantisasi adalah 500 ribu dolar
  • Istilah “muat” berarti muat di RAM 256GB, tetapi dalam keadaan terkuantisasi berat dan tetap akan berjalan sangat lambat
    Angka di judul bukan kecepatan generasi token melainkan kecepatan pemrosesan prompt
    Kalau hasilnya 10 tok/s dan API 20~30 tok/s, sekilas memang tidak terlihat terlalu buruk, tetapi Mac Studio atau perangkat yang tidak menaruh semuanya di GPU memiliki pemrosesan prompt 20~50 kali lebih lambat dibanding konfigurasi GPU murni
    Pada akhirnya, inilah bagian yang membuatnya praktis tidak bisa dipakai kecuali Anda menghabiskan 50 ribu dolar untuk GPU. Dan bahkan begitu pun Anda masih memakai model yang terkuantisasi berat

    • Perangkat seperti Nvidia Spark punya RAM terpadu 128GB
      Ada juga versi dual-port untuk perangkat seperti ini: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
      Jadi ini 2 x 100GB/s port, dan mungkin juga 2 x 200GB/s. Mungkin akan lebih jelas setelah ada yang benar-benar memegangnya langsung
      Perangkat seperti ini juga bisa di-cluster. Untuk 2 atau 3 unit, kalau memakai 2 subnet IP, tampaknya cukup jelas. Untuk 4 unit atau lebih, mungkin perlu switch tergantung seberapa besar latensi jaringan berpengaruh
      Apple sepertinya melupakan seri M dengan RAM besar. Di Apple Store saya tidak bisa menemukan konfigurasi dengan RAM terpadu di atas 96GB, dan itu pun harganya seperti menjual ginjal
  • Mereka mendorong dari banyak arah sekaligus: desktop AI baru yang memakai GB10 relatif murah, dan lewat clustering bisa membentuk VRAM 1TB
    Nvidia, AMD, Intel, Cerebras, dan lainnya sedang mendorong hardware baru, dan model open source seperti GLM 5.2 berkembang dengan sangat gila
    Model flash seperti DeepSeek V4 Flash juga makin bagus, dan kuantisasi juga terus berkembang
    Harness untuk memakai model yang berbeda-beda juga mulai memungkinkan, misalnya model besar untuk pekerjaan sulit dan model kecil untuk kerjaan remeh
    Jadi orang-orang yang ingin lepas dari API berharap sebentar lagi bisa meng-host cluster desktop AI dengan harga masuk akal di rumah sambil mendapatkan performa kelas Opus

    • Kata “relatif” di sini bekerja cukup keras. Kalau satu GB10 harganya sekitar 4.000 dolar, maka cluster 1TB menjadi 36.000 dolar
      Memang murah dibanding H200 setara, tetapi untuk homelab yang tidak didukung pendanaan dari RSU OpenAI atau Anthropic, itu tetap di luar jangkauan
  • Rasanya jaraknya makin menyempit hingga level di mana model yang cukup bagus untuk dijalankan lokal, termasuk untuk coding, mulai memungkinkan, dan saya rasa beberapa perusahaan mungkin mulai agak gelisah. Apa saya salah?

    • Kalau bukan karena keterbatasan RAM/GPU saat ini, perusahaan-perusahaan itu akan jauh lebih gelisah daripada sekarang
      Tetapi untuk saat ini, sangat sedikit orang yang mampu membeli perangkat yang bisa menjalankan model ini secara efektif. Saya rasa ini tidak akan banyak berubah dalam beberapa tahun ke depan
      Kalau Z.ai merilis versi seperti GLM-5.2 Flash yang dioptimalkan untuk coding di kisaran 80B parameter, lab riset garis depan di AS akan lebih khawatir
      Secara umum, perusahaan AI Tiongkok sedang menunjukkan cara melakukan hal yang sama dengan sumber daya lebih sedikit, kadang jauh lebih sedikit, dan kalau tren ini berlanjut, itu akan membuat lab garis depan gelisah
      Namun, perusahaan AI Tiongkok juga kemungkinan akan mencoba menjaga moat mereka sendiri dengan tidak merilis model yang jauh lebih kecil tetapi kuat dibanding model andalan mereka saat ini
      Alibaba Qwen tampaknya sekarang berada di posisi itu. Belakangan ini mereka cukup sunyi, dan model 395B terbaru terlalu besar untuk dijalankan kebanyakan orang di rumah. Kali ini juga belum terlihat tanda-tanda mereka akan merilis model yang lebih kecil
    • Saya tidak merasa begitu. Sangat mudah membayangkan sebuah perusahaan memutuskan untuk meng-host dan menjalankan model seperti ini untuk pengembangan internalnya sendiri
      Kalau tim pengembangnya sekitar 10 orang, opsi investasi sekali jalan 50 ribu dolar untuk server LLM bisa jadi cukup menarik
      Ada token tanpa batas, performa yang lumayan, opsi upgrade, dan kemungkinan integrasi ke produk
      Secara umum, kalau sebuah perusahaan ingin memasukkan LLM ke produknya, pendekatan LLM lokal akan terasa lebih menarik lagi. Bahkan model yang agak bodoh pun sudah cukup bagus untuk banyak penggunaan integrasi produk
    • Untuk menjadi ancaman, model ini juga tidak harus dijalankan secara lokal. Banyak perusahaan melihat opsi membayar penyedia pihak ketiga yang meng-host model seperti ini, dan harganya hanya sebagian kecil dari lab garis depan
    • Kebutuhan RAM masih cukup menyakitkan
    • Menjalankannya secara lokal tidak ekonomis. Bagus untuk privasi dan sebagai hobi yang menyenangkan
      Tetapi pilihannya adalah build CPU yang sangat lambat dan RAM senilai 10 ribu dolar, GPU senilai 90 ribu dolar, atau model terkuantisasi berat yang kualitasnya sulit dibandingkan
      Anda bisa merakit satu untuk seru-seruan, tetapi itu sendiri tidak mengubah keekonomiannya. Meski begitu, fakta bahwa ini memungkinkan tetap menarik
  • OpenAI dan Anthropic tampaknya akan tidak suka dengan waktu rilis GLM 5.2
    Ini cukup menunjukkan bahwa yang mereka punya bukan moat ajaib, melainkan sekadar keuntungan sebagai yang start lebih dulu

  • Ada Mac Studio RAM 192GB yang bisa dipakai, meski di bawah RAM minimum yang disebutkan
    Apalagi karena ini MoE, mungkinkah dengan swap ke disk cepat bisa dipaksa jalan entah bagaimana?

    • Menyetel swap sebanyak itu tampaknya cara yang bagus untuk menghabiskan total usia tulis (TBW) NVMe SSD dan sangat memendekkan umurnya
      Performanya juga akan mengenaskan, di level sekitar 0,1 tok/s
  • Saya sangat menghargai kerja unsloth yang membantu jutaan orang mulai menggunakan AI lokal, tetapi tulisan ini agak terlihat seperti umpan unduhan
    Kalau terlalu banyak layer di-offload ke CPU, hasilnya benar-benar tidak bagus. Saya sudah mencobanya berkali-kali, dan akhirnya harus rm -rf folder cache Hugging Face yang berat-berat itu
    Saya juga ragu menjalankan kuantisasi 1-bit atau 2-bit GLM 5.2 yang sebagian besar berada di luar VRAM akan lebih berguna daripada Qwen3.6-27B Q8_0 yang sepenuhnya muat di VRAM

  • Apa pun yang dikatakan artikelnya, saya rasa orang yang mencoba menjalankan ini di mesin RAM 256GB tidak akan mendapat pengalaman yang menyenangkan
    Batas minimum yang jauh lebih realistis adalah 512GB
    Untungnya, saya punya dua workstation dual Xeon dengan RAM 512GB di home office yang saya beli murah sebelum harga naik, jadi saya bisa bereksperimen dengan berbagai hal