Needle - Model 26 Juta Parameter yang Mendistilasi Pemanggilan Alat Gemini

(github.com/cactus-compute)

1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp

Needle adalah model eksperimental yang mendistilasi Gemini 3.1 menjadi Simple Attention Network berparameter 26 juta, dan bahkan memungkinkan fine-tuning lokal di Mac/PC
Tujuannya adalah mendefinisikan ulang AI kecil yang digunakan pada perangkat konsumen seperti ponsel, jam tangan, dan kacamata, dengan fokus pada pemanggilan alat sekali jalan untuk AI personal
Di produksi, model ini berjalan di atas Cactus dan mencapai prefill 6000 toks/sec, decode 1200
Bobot model sepenuhnya dibuka di Cactus-Compute/needle, dan pembuatan dataset juga dirilis bersama
Pra-pelatihan dijalankan selama 27 jam pada 16 TPU v6e dengan 200B token, dan pelatihan lanjutan dilakukan selama 45 menit dengan dataset 2B token untuk pemanggilan fungsi sekali jalan
Untuk pemanggilan fungsi sekali jalan, model ini diklaim lebih baik daripada FunctionGemma-270m, Qwen-0.6B, Graninte-350m, dan LFM2.5-350m, tetapi model-model tersebut memiliki cakupan dan kapasitas yang lebih luas serta kuat dalam pengaturan percakapan
Model kecil bisa sulit ditangani, sehingga alur yang direkomendasikan adalah menguji dengan alat Anda sendiri di web UI yang disediakan dan melakukan fine-tuning kustom hanya dengan klik tombol
needle playground membuka web UI di http://127.0.0.1:7860, dan bobot model dapat diunduh otomatis untuk pengujian dan fine-tuning
Saat memakai Python, Anda dapat memasukkan kueri dan skema alat dengan SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer untuk menghasilkan JSON pemanggilan alat seperti get_weather
CLI menyediakan playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu untuk menangani inferensi, pelatihan, evaluasi, pembuatan data, dan pengelolaan TPU
Konfigurasi modelnya adalah d=512, 8H/4KV, BPE=8192, serta menggunakan encoder 12 lapis dan decoder 8 lapis, GQA+RoPE, cross attention, gated residual, tied linear, dan shared embedding

1 komentar

GN⁺ 1 jam lalu

Komentar Hacker News

Saya penasaran apakah ada contoh atau data tentang kemampuan pembedaan model penggunaan alat
Contohnya seperti “bagaimana cuaca di San Francisco”, dan alat yang diberikan kira-kira tools='[{"name":"get_weather","parameters":{"location":"string"}}]'
Lebih dari 10 tahun lalu saya pernah membuat sesuatu[1] yang bisa menangani masalah seperti ini dengan SPARQL dan knowledge graph
Yang benar-benar ingin saya ketahui adalah seberapa baik penanganan ambiguitasnya
Jika diberi pesan seperti “besok jam 10 ayo ketemu sambil ngopi” dan perintah seperti “simpan ini”, saya ingin tahu apakah model bisa memilih aksi “tambah jadwal” dari puluhan alat yang mungkin, meski bukan sampai ratusan
[1] https://github.com/nlothian/Acuitra/wiki/About
- Saya sudah mencobanya lewat Hugging Face yang ditautkan di bawah, dan hasilnya tidak terlalu mengesankan
  Prompt-nya adalah “aku harus mengabari atasan bahwa aku terlambat”, dan hasilnya 20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}]
  Model itu tidak memakai alat email, dan saat saya menanyakannya dengan 2–3 cara lain hasilnya mirip
Saya penasaran apakah mereka tidak khawatir dengan respons Google
Google kabarnya menanggapi upaya distilasi dengan “pertahanan proaktif real-time yang dapat menurunkan kinerja model pelajar”
Jika terdeteksi, mungkin saja mereka sengaja diberi varian Gemini yang lebih bodoh tapi tetap terlihat masuk akal: https://cloud.google.com/blog/topics/threat-intelligence/dis...
Tapi karena model ini kecil dan hanya fokus pada penggunaan alat, kemungkinan pemakaian token-nya tidak akan mendekati orang-orang yang mencoba mendistilasi model penuh
- Anda juga bisa mendistilasi dengan menjalankan model Gemma secara lokal, atau memakai model lain yang mendukung penggunaan alat
- Dari sudut pandang data pelatihan, ini juga terasa seperti merampok pencuri
Mungkin ini bisa memungkinkan dibuatnya sesuatu seperti program command line yang bisa memilih argumen secara opsional dalam bahasa alami
Tentu banyak orang akan menolak tambahan 14MB dan komputasi ekstra hanya untuk “parsing”, dan kalau semua orang mulai melakukan ini hasilnya juga bisa cukup buruk
Tetap saja, fakta bahwa ini sekarang memungkinkan benar-benar menarik
Kita bisa ikut menyertakan model yang di-fine-tune untuk memahami cara penggunaan program
Misalnya > toolcli what can you do akan menjalankan toolcli --help summary, dan toolcli add tom to teamfutz group menjadi toolcli --gadd teamfutz tom
- Needle dilatih untuk INT4, dan yang terlihat di playground juga INT4, jadi ukurannya hanya 14MB
  Meski begitu, tugas yang sama tetap masih ada
Akan bagus kalau mereka merilis demo live untuk “needle playground”
Karena ukurannya kecil, rasanya biaya menjalankannya di VPS kecil di suatu tempat juga cukup murah
- Sepertinya ini juga bisa dilakukan dengan cepat dan mudah lewat WebGPU
- Masalahnya hanya soal skalabilitas, dan infrastrukturnya belum benar-benar siap pakai
  Meski begitu, siapa pun bisa melakukannya, dan juga mudah dijalankan langsung di laptop
  Saya juga akan mencoba jalur VPS
- Saya akan coba pasang ini di chonklm.com
Pengamatan bahwa “tugas pencarian tidak memerlukan FFN” itu menarik
Jika pengetahuannya ada di dalam konteks, ini hampir seperti mengatakan bahwa bobot FFN itu redundan untuk tugas tersebut
Saya penasaran apakah ini juga bisa digeneralisasi ke pemanggilan alat multi-turn yang harus melacak status di beberapa kali panggilan, atau justru akan gagal di sana
Pemanggilan tunggal adalah kasus yang mudah
Menarik, dan ini juga cocok dengan pengamatan yang saya lihat saat awal memakai Claude Code
Sonnet sering cepat memanggil alat untuk mengumpulkan lebih banyak konteks, sementara Opus cenderung menalar lebih lama dengan konteks yang sudah dimilikinya untuk menyelesaikan masalah
Ini membuat banyak fungsi duplikat dan memperlambat pengembangan, tapi di model baru seperti GPT-5.5 dan Opus 4.6 masalah ini tampaknya berkurang
Kesimpulan saya adalah model yang “lebih bodoh”, yaitu model yang lebih kecil, mungkin justru lebih baik sebagai cangkang eksekusi agen, atau setidaknya lebih realistis dijalankan untuk banyak masalah karena lebih murah dan cepat
Saya tidak merasa Gemini sangat bagus dalam rangkaian panjang pemanggilan alat
Akan menarik jika mendistilasi jejak yang memiliki rantai panjang pemanggilan alat di antara kueri pengguna, seperti sesi Codex atau Claude Code yang nyata
Secara pribadi, saya ingin ada model yang sedikit lebih besar yang mudah dijalankan di perangkat seperti MacBook Pro M2 32GB, dengan reinforcement learning untuk pemanggilan alat sebagai tujuan utamanya
Model berbobot terbuka seperti Kimi atau Qwen memang makin mendekati, tetapi kuantisasi yang diperlukan agar muat di perangkat kecil tampaknya cukup menurunkan performa
- Kuncinya adalah tidak menjalankan LLM dalam loop berulang
  Tren framework agen belakangan ini menurut saya bodoh, dan kebanyakan hanya ada untuk menaikkan pendapatan perusahaan LLM
  Secara umum LLM punya kegunaan yang terbatas, tetapi jika digabungkan dengan sekali penggunaan alat, ia menjadi jauh lebih berguna dan andal
  Saya sendiri membuat kumpulan alat yang sangat spesifik untuk tugas tertentu di atas API openrouter
  Caranya adalah tekan tombol lalu LLM melakukan satu hal yang berguna, bukan tekan tombol lalu berharap LLM berputar dalam loop pemanggilan alat selama 5 menit dan memproses semuanya dalam urutan yang benar
  Kalau butuh beberapa pemanggilan alat, saya merangkainya secara deterministik di kode
  Kita bisa memeriksa output A lalu lanjut ke B atau C, jadi jauh lebih andal, sekaligus lebih efisien dalam waktu dan token
  Saya menganggap loop agen itu nyaris seperti penipuan besar
- Saya harap perusahaan AI besar tidak menghabiskan waktu untuk menambal celah pada “alat” mereka sendiri yang mereka biarkan begitu saja
  Saya tidak paham kenapa kita harus bersusah payah mencoba membuatnya “berfungsi” bagaimanapun caranya
  Google, MS, Meta, OpenAI, dan lainnya sekarang diam-diam mulai menyebut alat mereka sebagai “Intelligence”, bahkan bukan “Artificial Intelligence”, jadi kalau begitu kenapa ia tidak cerdas dan kenapa tidak berfungsi
  Setelah investasi lebih dari 1 triliun dolar, kenapa kita masih harus memikirkan mantra dan konfigurasi terbaik agar generator sampah ini mau mengeluarkan hasil yang setengah berguna
  Apalagi ketika beberapa pemimpin teknologi secara terbuka mengancam akan menundukkan kita demi visi “peradaban” mereka yang aneh
  Rasanya lebih baik kita memakai otak kita untuk hal lain, dan tidak merendahkan diri menjadi asisten tak berdaya bagi orakel sihir
Hasil eksperimen Cactus bahwa “selama model bergantung pada sumber pengetahuan eksternal, MLP dapat dihapus sepenuhnya dari jaringan transformer” itu menarik
Kebetulan hari ini salah satu mahasiswa saya juga mempresentasikan hasil riset yang menegaskan hal itu
Ketika MLP dihapus dari Qwen, model itu masih bisa melakukan tugas transformasi atas input, tetapi kehilangan pengetahuannya
Perbedaan antara M dan B terlalu halus
Saya sarankan menulis 0.026B
- Notasi “M” setidaknya sudah ada sejak era BERT dan T5/FLAN
  Walaupun pengembang LLM sekarang lebih terbiasa dengan model berskala miliaran parameter, notasi ini tetap valid
- Banyak komentar di tulisan ini sangat membingungkan, dan berkat ini saya sadar sebagian orang membacanya sebagai 26B sehingga komentarnya jadi tidak masuk akal
Menjanjikan, kerjanya bagus
Model edge Gemma4 dijanjikan akan bagus untuk penggunaan agen, tetapi di semua pengujian yang saya lakukan hasilnya benar-benar mengecewakan
Bahkan gagal pada skenario penggunaan alat yang paling dasar
Saya penasaran apakah mereka sudah menjalankan benchmark penggunaan alat untuk Needle, atau ada rencana ke arah sana
Kalau ada, akan bagus jika hasilnya ditambahkan ke repositori
Saya baru saja mencoba mengatur alarm dan menambahkan barang ke daftar belanja, dan hasilnya lebih baik daripada Siri

Needle - Model 26 Juta Parameter yang Mendistilasi Pemanggilan Alat Gemini

Bacaan terkait

1 komentar

Komentar Hacker News