1 poin oleh GN⁺ 2026-02-21 | 1 komentar | Bagikan ke WhatsApp
  • Untuk perkembangan berkelanjutan ekosistem AI lokal, ggml.ai, tim pendiri llama.cpp, bergabung dengan Hugging Face
  • ggml dan llama.cpp akan tetap dikelola sebagai proyek open-source dan berpusat pada komunitas, dan tim akan terus memelihara serta mendukungnya secara penuh waktu
  • Hugging Face berencana menjamin keberlanjutan jangka panjang proyek serta berfokus pada peningkatan pengalaman pengguna dan integrasi dengan transformers
  • Melalui kolaborasi ini, aksesibilitas dan kemudahan distribusi Local Inference akan ditingkatkan, sekaligus memperkuat dukungan untuk berbagai arsitektur model
  • Keduanya berbagi visi jangka panjang untuk membangun superintelligence open-source yang dapat diakses secara global

Pengumuman bergabungnya ggml.ai dengan Hugging Face

  • ggml.ai adalah tim pendiri llama.cpp, dan bergabung dengan Hugging Face untuk menjaga masa depan AI tetap benar-benar terbuka
    • Tujuannya adalah memperluas dan mendukung komunitas ggml dan llama.cpp, serta mendorong pertumbuhan berkelanjutan AI lokal
  • Proyek ggml-org akan tetap open-source dan dipimpin komunitas seperti sebelumnya
  • Tim ggml akan memelihara dan mengelola ggml, llama.cpp, dan proyek open-source terkait secara penuh waktu
  • Kemitraan baru ini menjamin keberlanjutan jangka panjang proyek dan menghadirkan peluang baru bagi pengguna serta kontributor
  • Kualitas dukungan model akan ditingkatkan melalui integrasi yang lebih baik dengan pustaka transformers milik Hugging Face

Latar belakang dan perjalanan kolaborasi

  • Sejak didirikan pada 2023, ggml.ai telah mendukung pengembangan dan adopsi pustaka machine learning ggml
  • Selama tiga tahun terakhir, tim kecil ini menumbuhkan komunitas open-source dan menjadikan ggml sebagai standar untuk inferensi AI lokal yang efisien
  • Dalam proses itu, Hugging Face menjadi mitra kolaborasi terkuat
    • Engineer HF berkontribusi pada fitur inti di ggml dan llama.cpp, menambahkan dukungan multimodal, mengintegrasikan Inference Endpoints, dan meningkatkan kompatibilitas format GGUF
  • Kolaborasi kedua pihak berjalan efektif, dan seluruh komunitas merasakan manfaatnya, sehingga bergabungnya mereka kali ini menjadi formalisasi dari kolaborasi tersebut

Perubahan pada proyek open-source dan komunitas

  • Cara pengelolaan ggml dan llama.cpp tidak berubah
    • Tim akan tetap fokus pada pemeliharaan proyek, dan komunitas mempertahankan otonomi dalam pengambilan keputusan teknis dan struktural
  • Hugging Face akan menyediakan sumber daya yang berkelanjutan untuk memperbesar potensi pertumbuhan proyek
  • Proyek akan tetap 100% open-source, dan kecepatan dukungan quantization setelah rilis model juga diperkirakan meningkat

Fokus teknis

  • Ke depan, tujuan bersama ditetapkan pada dua arah utama
    • Integrasi sekali klik dengan Hugging Face transformers
      • transformers telah menjadi standar untuk definisi model AI, dan peningkatan kompatibilitas antara kedua ekosistem penting untuk memperluas dukungan model dan menjaga kualitasnya
    • Peningkatan packaging dan pengalaman pengguna untuk perangkat lunak berbasis ggml
      • Seiring inferensi lokal muncul sebagai alternatif inferensi cloud, perlu ada penyederhanaan deployment model dan aksesibilitas bagi pengguna umum
      • Tujuannya adalah menjadikan llama.cpp universal dan dapat digunakan di mana saja

Visi jangka panjang

  • ggml.ai dan Hugging Face memiliki tujuan bersama untuk membangun superintelligence open-source yang dapat diakses oleh seluruh dunia
  • Bersama komunitas AI lokal, mereka berencana terus mengembangkan stack inferensi yang efisien agar dapat memberikan performa maksimal bahkan di perangkat pribadi

Respons komunitas

  • Anggota komunitas Hugging Face dan ggml meninggalkan banyak pesan ucapan selamat dan antusiasme
    • Reaksi positif seperti “kemajuan besar bagi ekosistem AI lokal” dan “kabar penting bagi ekosistem AI terbuka” banyak muncul
  • Sebagian pengguna meminta penjelasan yang lebih jelas soal independensi proyek dan kepemilikan kode
  • Pendapat lain juga menyoroti kekhawatiran terkait perubahan yurisdiksi akibat akuisisi perusahaan dan transparansi open-source
  • Secara keseluruhan, komunitas menilai kolaborasi ini sebagai fondasi bagi pertumbuhan berkelanjutan AI lokal

1 komentar

 
GN⁺ 2026-02-21
Opini Hacker News
  • Menurut saya HuggingFace adalah “Open AI” dalam arti yang sebenarnya
    Saya melihatnya sebagai salah satu dari sedikit pahlawan yang diam-diam memopulerkan AI on-premises ke publik
    Saya masih ingat masa ketika biaya trafik sangat mahal, jadi menakjubkan melihat begitu banyak model di-host gratis seperti ini
    Semoga mereka punya model bisnis yang berkelanjutan. Ekosistem ini akan jauh lebih miskin tanpa mereka
    Untuk menjalankan Kimi atau GLM secara internal, kita masih butuh hardware dengan value-for-money yang bagus, tetapi setidaknya bobot dan distribusi sudah terpecahkan

    • Unsloth juga harus dimasukkan sebagai salah satu pahlawan tersembunyi seperti ini
      Dokumentasinya luar biasa, dan mereka cepat menyediakan quant berkualitas tinggi dalam format-format utama. Menurut saya ini brand yang bisa dipercaya
    • Saya bahkan tidak bisa membayangkan seberapa banyak trafik yang ditangani HF
      Saya sering mengunduh model berukuran ratusan GB, dan ini layanan yang luar biasa bagi komunitas AI berdaulat
    • Jika bobot di-stream dari SSD dan cache KV diperluas dengan swap, memang lambat tetapi bisa berjalan di hampir semua perangkat
      Untuk komputasi semalaman ini sudah cukup layak, dan akan terus membaik seiring bertambahnya sumber daya komputasi
    • Saya tidak paham kenapa mereka tidak mendukung BitTorrent
      Memang ada hf-torrent dan hf_transfer, tetapi aksesnya tidak semudah tautan yang bisa langsung dipakai di web UI
    • Torrent benar-benar use case yang sempurna, jadi saya masih heran kenapa itu tidak dipakai
  • Pengaruh Georgi Gerganov dan llama.cpp terhadap ekosistem model lokal tidak bisa diremehkan
    Pada Maret 2023, mereka memulai revolusi dengan menjalankan LLaMA di laptop konsumen
    Saat itu, README menuliskan bahwa “targetnya adalah menjalankan model di MacBook dengan kuantisasi 4-bit”
    Seperti Hugging Face yang telah mengelola Transformers dengan baik, saya berharap GGML juga menempuh jalan yang sama
    Tulisan terkait dirangkum di sini

    • Saya penasaran kenapa komentar Anda selalu terpaku di bagian atas
  • Mengejutkan bahwa HuggingFace memberi begitu banyak dampak baik ke dunia sekaligus menghasilkan keuntungan
    Saya penasaran seberapa kuat model bisnisnya, apakah berkelanjutan dalam jangka panjang, dan apakah suatu hari nanti ada kemungkinan “dijual”

    • Artikel FT terbaru, “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”, layak dijadikan referensi
      Tautan artikel
    • Model bisnisnya pada dasarnya mirip GitHub
      Mereka membesarkan komunitas secara gratis, lalu menjual versi privat ke perusahaan. Mereka sudah profit
    • Ada juga hosting berbayar (enterprise) dan layanan konsultasi
      Menurut saya ini fondasi yang cukup solid
    • Sulit percaya pada pernyataan “tidak akan pernah dijual”
      Agak ironis bahwa investor seperti AMD, Nvidia, Intel, IBM, dan Qualcomm disebut berjuang demi otonomi pengguna
    • Dulu saya pernah memakai HuggingFace karena tutorial, tetapi saat mendaftar mereka meminta info kartu, lalu sebulan kemudian muncul tagihan
      Saya tidak tahu itu biaya untuk layanan apa, jadi saya membatalkan akun. Proses pembayaran yang tidak transparan itu terasa tidak menyenangkan
  • HuggingFace adalah GOAT yang tenang di bidang AI
    Komunitas dan platformnya luar biasa

    • Menakjubkan bahwa mereka bisa membangun platform terbuka tanpa taktik bisnis yang samar, dan tetap menghasilkan uang
  • Saya harap pernyataan “komunitas akan dikelola secara otonom dan tetap 100% open source” itu benar
    Tetapi pada akhirnya kemungkinan besar kepentingan bisnis yang akan menang
    Llama.cpp telah menjadi standar de facto untuk inferensi lokal, dan banyak proyek bergantung padanya
    Jika satu perusahaan mengendalikan ini, maka seluruh ekosistem LLM lokal ikut terkendali
    Hugging Face mungkin terlihat baik sekarang, tetapi dulu Google juga begitu
    Untuk menghindari lock-in, perlu ada pengelolaan oleh organisasi nirlaba independen atau proyek pesaing

    • Llama.cpp itu open source, jadi siapa pun bisa membuat fork
      “Kontrol” di sini paling jauh hanya sebatas membantu pengembangan fitur tertentu
  • Saya sangat berterima kasih kepada tim ggml karena telah membuka teknologi kuantisasi untuk semua orang
    Upaya mereka membawa perubahan besar

  • Sejak 2023 saya telah mendukung ggml/llama.cpp/Georgi lewat GitHub, dan sekarang saya senang mereka tampaknya telah menemukan tempat bernaung yang baik
    Jadi saya berencana menghentikan dukungan itu

  • Kombinasi HuggingFace dan GGML terlihat seperti pasangan yang sempurna
    Bahkan rasanya ini seharusnya terjadi lebih cepat
    Sekarang memang masih masa lembah untuk AI lokal, tetapi saya berharap dalam 2–3 tahun ke depan akan tumbuh eksplosif

    • Sebenarnya HuggingFace sudah lama mendukung banyak proyek
      Anggota HF seperti @ngxson adalah kontributor utama di llama.cpp
  • Saya sedang mencari cara efisien untuk menjalankan model lewat Docker di sistem spek rendah seperti MacBook M1 8GB
    Model seperti Cybersecurity-BaronLLM terlihat keren, tetapi akhirnya laptop saya berubah jadi pemanas ruangan
    Apakah saya memang harus membeli hardware yang lebih kuat?

    • Dengan 8GB, inferensi yang kompleks memang sulit, tetapi model kecil masih memungkinkan
      Saya merekomendasikan model seperti Whisper, SmolVLM, Phi-3-mini, dan Gemma3
      Lihat contoh home-llm
      Di Mac, lebih baik pakai Ollama atau MLX, dan Anda bisa menyiapkan VM dengan Docker Desktop atau Colima
      Dengan 8GB mungkin dapat 5–10 token per detik, sementara 32GB sekitar 50 token. Jadi masalahnya adalah kekurangan RAM
    • Pada akhirnya Anda memang butuh sistem yang cukup kuat
      Gunakan model kecil atau model terkuantisasi, atau beli/sewa hardware yang lebih kuat
      Bisa juga mulai tanpa Docker menggunakan LM Studio
    • Dengan 8GB, bahkan model 32B bisa dijalankan di level 2bit dengan kuantisasi agresif
      Memang tidak sempurna, tetapi menurut saya tetap lebih baik daripada parameter yang lebih kecil
    • Pertanyaan seperti ini akan lebih mudah dijawab di r/LocalLLM
    • Dengan 8GB, model gguf yang sangat kecil pun masih bisa dijalankan di CPU dengan llamafile
      Memang lambat dan kualitasnya rendah, tetapi tetap bisa
  • Saya sedang memikirkan bagaimana cara realistis untuk terlibat dalam pengembangan AI
    Di kantor saya cuma memakai Copilot, jadi terasa agak terputus dari ekosistem pengembangan AI
    Latar belakang saya full-stack Java/React, dan saya juga sedikit bisa Python
    Saya sedang mempertimbangkan apakah perlu mencoba LLM from scratch, mengambil Google ML Crash Course, atau sertifikasi Nvidia
    Mohon sarannya

    • Jika tujuan Anda belum jelas, lebih baik coba buat sendiri proyek kecil yang memang menarik bagi Anda
      Jangan mulai dari LLM sejak awal; mulailah kecil dari bidang yang Anda minati seperti grafis
    • Saya sarankan mempelajari fine-tuning model atau distillation pengetahuan
      Unsloth punya panduan Colab gratis yang tersusun dengan baik