- Untuk perkembangan berkelanjutan ekosistem AI lokal, ggml.ai, tim pendiri
llama.cpp, bergabung dengan Hugging Face
ggml dan llama.cpp akan tetap dikelola sebagai proyek open-source dan berpusat pada komunitas, dan tim akan terus memelihara serta mendukungnya secara penuh waktu
- Hugging Face berencana menjamin keberlanjutan jangka panjang proyek serta berfokus pada peningkatan pengalaman pengguna dan integrasi dengan transformers
- Melalui kolaborasi ini, aksesibilitas dan kemudahan distribusi Local Inference akan ditingkatkan, sekaligus memperkuat dukungan untuk berbagai arsitektur model
- Keduanya berbagi visi jangka panjang untuk membangun superintelligence open-source yang dapat diakses secara global
Pengumuman bergabungnya ggml.ai dengan Hugging Face
- ggml.ai adalah tim pendiri
llama.cpp, dan bergabung dengan Hugging Face untuk menjaga masa depan AI tetap benar-benar terbuka
- Tujuannya adalah memperluas dan mendukung komunitas
ggml dan llama.cpp, serta mendorong pertumbuhan berkelanjutan AI lokal
- Proyek
ggml-org akan tetap open-source dan dipimpin komunitas seperti sebelumnya
- Tim ggml akan memelihara dan mengelola
ggml, llama.cpp, dan proyek open-source terkait secara penuh waktu
- Kemitraan baru ini menjamin keberlanjutan jangka panjang proyek dan menghadirkan peluang baru bagi pengguna serta kontributor
- Kualitas dukungan model akan ditingkatkan melalui integrasi yang lebih baik dengan pustaka
transformers milik Hugging Face
Latar belakang dan perjalanan kolaborasi
- Sejak didirikan pada 2023, ggml.ai telah mendukung pengembangan dan adopsi pustaka machine learning
ggml
- Selama tiga tahun terakhir, tim kecil ini menumbuhkan komunitas open-source dan menjadikan
ggml sebagai standar untuk inferensi AI lokal yang efisien
- Dalam proses itu, Hugging Face menjadi mitra kolaborasi terkuat
- Engineer HF berkontribusi pada fitur inti di
ggml dan llama.cpp, menambahkan dukungan multimodal, mengintegrasikan Inference Endpoints, dan meningkatkan kompatibilitas format GGUF
- Kolaborasi kedua pihak berjalan efektif, dan seluruh komunitas merasakan manfaatnya, sehingga bergabungnya mereka kali ini menjadi formalisasi dari kolaborasi tersebut
Perubahan pada proyek open-source dan komunitas
- Cara pengelolaan
ggml dan llama.cpp tidak berubah
- Tim akan tetap fokus pada pemeliharaan proyek, dan komunitas mempertahankan otonomi dalam pengambilan keputusan teknis dan struktural
- Hugging Face akan menyediakan sumber daya yang berkelanjutan untuk memperbesar potensi pertumbuhan proyek
- Proyek akan tetap 100% open-source, dan kecepatan dukungan quantization setelah rilis model juga diperkirakan meningkat
Fokus teknis
- Ke depan, tujuan bersama ditetapkan pada dua arah utama
- Integrasi sekali klik dengan Hugging Face transformers
transformers telah menjadi standar untuk definisi model AI, dan peningkatan kompatibilitas antara kedua ekosistem penting untuk memperluas dukungan model dan menjaga kualitasnya
- Peningkatan packaging dan pengalaman pengguna untuk perangkat lunak berbasis ggml
- Seiring inferensi lokal muncul sebagai alternatif inferensi cloud, perlu ada penyederhanaan deployment model dan aksesibilitas bagi pengguna umum
- Tujuannya adalah menjadikan
llama.cpp universal dan dapat digunakan di mana saja
Visi jangka panjang
- ggml.ai dan Hugging Face memiliki tujuan bersama untuk membangun superintelligence open-source yang dapat diakses oleh seluruh dunia
- Bersama komunitas AI lokal, mereka berencana terus mengembangkan stack inferensi yang efisien agar dapat memberikan performa maksimal bahkan di perangkat pribadi
Respons komunitas
- Anggota komunitas Hugging Face dan ggml meninggalkan banyak pesan ucapan selamat dan antusiasme
- Reaksi positif seperti “kemajuan besar bagi ekosistem AI lokal” dan “kabar penting bagi ekosistem AI terbuka” banyak muncul
- Sebagian pengguna meminta penjelasan yang lebih jelas soal independensi proyek dan kepemilikan kode
- Pendapat lain juga menyoroti kekhawatiran terkait perubahan yurisdiksi akibat akuisisi perusahaan dan transparansi open-source
- Secara keseluruhan, komunitas menilai kolaborasi ini sebagai fondasi bagi pertumbuhan berkelanjutan AI lokal
1 komentar
Opini Hacker News
Menurut saya HuggingFace adalah “Open AI” dalam arti yang sebenarnya
Saya melihatnya sebagai salah satu dari sedikit pahlawan yang diam-diam memopulerkan AI on-premises ke publik
Saya masih ingat masa ketika biaya trafik sangat mahal, jadi menakjubkan melihat begitu banyak model di-host gratis seperti ini
Semoga mereka punya model bisnis yang berkelanjutan. Ekosistem ini akan jauh lebih miskin tanpa mereka
Untuk menjalankan Kimi atau GLM secara internal, kita masih butuh hardware dengan value-for-money yang bagus, tetapi setidaknya bobot dan distribusi sudah terpecahkan
Dokumentasinya luar biasa, dan mereka cepat menyediakan quant berkualitas tinggi dalam format-format utama. Menurut saya ini brand yang bisa dipercaya
Saya sering mengunduh model berukuran ratusan GB, dan ini layanan yang luar biasa bagi komunitas AI berdaulat
Untuk komputasi semalaman ini sudah cukup layak, dan akan terus membaik seiring bertambahnya sumber daya komputasi
Memang ada hf-torrent dan hf_transfer, tetapi aksesnya tidak semudah tautan yang bisa langsung dipakai di web UI
Pengaruh Georgi Gerganov dan llama.cpp terhadap ekosistem model lokal tidak bisa diremehkan
Pada Maret 2023, mereka memulai revolusi dengan menjalankan LLaMA di laptop konsumen
Saat itu, README menuliskan bahwa “targetnya adalah menjalankan model di MacBook dengan kuantisasi 4-bit”
Seperti Hugging Face yang telah mengelola Transformers dengan baik, saya berharap GGML juga menempuh jalan yang sama
Tulisan terkait dirangkum di sini
Mengejutkan bahwa HuggingFace memberi begitu banyak dampak baik ke dunia sekaligus menghasilkan keuntungan
Saya penasaran seberapa kuat model bisnisnya, apakah berkelanjutan dalam jangka panjang, dan apakah suatu hari nanti ada kemungkinan “dijual”
Tautan artikel
Mereka membesarkan komunitas secara gratis, lalu menjual versi privat ke perusahaan. Mereka sudah profit
Menurut saya ini fondasi yang cukup solid
Agak ironis bahwa investor seperti AMD, Nvidia, Intel, IBM, dan Qualcomm disebut berjuang demi otonomi pengguna
Saya tidak tahu itu biaya untuk layanan apa, jadi saya membatalkan akun. Proses pembayaran yang tidak transparan itu terasa tidak menyenangkan
HuggingFace adalah GOAT yang tenang di bidang AI
Komunitas dan platformnya luar biasa
Saya harap pernyataan “komunitas akan dikelola secara otonom dan tetap 100% open source” itu benar
Tetapi pada akhirnya kemungkinan besar kepentingan bisnis yang akan menang
Llama.cpp telah menjadi standar de facto untuk inferensi lokal, dan banyak proyek bergantung padanya
Jika satu perusahaan mengendalikan ini, maka seluruh ekosistem LLM lokal ikut terkendali
Hugging Face mungkin terlihat baik sekarang, tetapi dulu Google juga begitu
Untuk menghindari lock-in, perlu ada pengelolaan oleh organisasi nirlaba independen atau proyek pesaing
“Kontrol” di sini paling jauh hanya sebatas membantu pengembangan fitur tertentu
Saya sangat berterima kasih kepada tim ggml karena telah membuka teknologi kuantisasi untuk semua orang
Upaya mereka membawa perubahan besar
Sejak 2023 saya telah mendukung ggml/llama.cpp/Georgi lewat GitHub, dan sekarang saya senang mereka tampaknya telah menemukan tempat bernaung yang baik
Jadi saya berencana menghentikan dukungan itu
Kombinasi HuggingFace dan GGML terlihat seperti pasangan yang sempurna
Bahkan rasanya ini seharusnya terjadi lebih cepat
Sekarang memang masih masa lembah untuk AI lokal, tetapi saya berharap dalam 2–3 tahun ke depan akan tumbuh eksplosif
Anggota HF seperti @ngxson adalah kontributor utama di llama.cpp
Saya sedang mencari cara efisien untuk menjalankan model lewat Docker di sistem spek rendah seperti MacBook M1 8GB
Model seperti Cybersecurity-BaronLLM terlihat keren, tetapi akhirnya laptop saya berubah jadi pemanas ruangan
Apakah saya memang harus membeli hardware yang lebih kuat?
Saya merekomendasikan model seperti Whisper, SmolVLM, Phi-3-mini, dan Gemma3
Lihat contoh home-llm
Di Mac, lebih baik pakai Ollama atau MLX, dan Anda bisa menyiapkan VM dengan Docker Desktop atau Colima
Dengan 8GB mungkin dapat 5–10 token per detik, sementara 32GB sekitar 50 token. Jadi masalahnya adalah kekurangan RAM
Gunakan model kecil atau model terkuantisasi, atau beli/sewa hardware yang lebih kuat
Bisa juga mulai tanpa Docker menggunakan LM Studio
Memang tidak sempurna, tetapi menurut saya tetap lebih baik daripada parameter yang lebih kecil
Memang lambat dan kualitasnya rendah, tetapi tetap bisa
Saya sedang memikirkan bagaimana cara realistis untuk terlibat dalam pengembangan AI
Di kantor saya cuma memakai Copilot, jadi terasa agak terputus dari ekosistem pengembangan AI
Latar belakang saya full-stack Java/React, dan saya juga sedikit bisa Python
Saya sedang mempertimbangkan apakah perlu mencoba LLM from scratch, mengambil Google ML Crash Course, atau sertifikasi Nvidia
Mohon sarannya
Jangan mulai dari LLM sejak awal; mulailah kecil dari bidang yang Anda minati seperti grafis
Unsloth punya panduan Colab gratis yang tersusun dengan baik