- Needle adalah model eksperimental yang mendistilasi Gemini 3.1 menjadi Simple Attention Network berparameter 26 juta, dan bahkan memungkinkan fine-tuning lokal di Mac/PC
- Tujuannya adalah mendefinisikan ulang AI kecil yang digunakan pada perangkat konsumen seperti ponsel, jam tangan, dan kacamata, dengan fokus pada pemanggilan alat sekali jalan untuk AI personal
- Di produksi, model ini berjalan di atas Cactus dan mencapai prefill 6000 toks/sec, decode 1200
- Bobot model sepenuhnya dibuka di Cactus-Compute/needle, dan pembuatan dataset juga dirilis bersama
- Pra-pelatihan dijalankan selama 27 jam pada 16 TPU v6e dengan 200B token, dan pelatihan lanjutan dilakukan selama 45 menit dengan dataset 2B token untuk pemanggilan fungsi sekali jalan
- Untuk pemanggilan fungsi sekali jalan, model ini diklaim lebih baik daripada FunctionGemma-270m, Qwen-0.6B, Graninte-350m, dan LFM2.5-350m, tetapi model-model tersebut memiliki cakupan dan kapasitas yang lebih luas serta kuat dalam pengaturan percakapan
- Model kecil bisa sulit ditangani, sehingga alur yang direkomendasikan adalah menguji dengan alat Anda sendiri di web UI yang disediakan dan melakukan fine-tuning kustom hanya dengan klik tombol
needle playground membuka web UI di http://127.0.0.1:7860, dan bobot model dapat diunduh otomatis untuk pengujian dan fine-tuning
- Saat memakai Python, Anda dapat memasukkan kueri dan skema alat dengan
SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer untuk menghasilkan JSON pemanggilan alat seperti get_weather
- CLI menyediakan
playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu untuk menangani inferensi, pelatihan, evaluasi, pembuatan data, dan pengelolaan TPU
- Konfigurasi modelnya adalah
d=512, 8H/4KV, BPE=8192, serta menggunakan encoder 12 lapis dan decoder 8 lapis, GQA+RoPE, cross attention, gated residual, tied linear, dan shared embedding
1 komentar
Komentar Hacker News
Saya penasaran apakah ada contoh atau data tentang kemampuan pembedaan model penggunaan alat
Contohnya seperti “bagaimana cuaca di San Francisco”, dan alat yang diberikan kira-kira
tools='[{"name":"get_weather","parameters":{"location":"string"}}]'Lebih dari 10 tahun lalu saya pernah membuat sesuatu[1] yang bisa menangani masalah seperti ini dengan SPARQL dan knowledge graph
Yang benar-benar ingin saya ketahui adalah seberapa baik penanganan ambiguitasnya
Jika diberi pesan seperti “besok jam 10 ayo ketemu sambil ngopi” dan perintah seperti “simpan ini”, saya ingin tahu apakah model bisa memilih aksi “tambah jadwal” dari puluhan alat yang mungkin, meski bukan sampai ratusan
[1] https://github.com/nlothian/Acuitra/wiki/About
Prompt-nya adalah “aku harus mengabari atasan bahwa aku terlambat”, dan hasilnya
20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}]Model itu tidak memakai alat email, dan saat saya menanyakannya dengan 2–3 cara lain hasilnya mirip
Saya penasaran apakah mereka tidak khawatir dengan respons Google
Google kabarnya menanggapi upaya distilasi dengan “pertahanan proaktif real-time yang dapat menurunkan kinerja model pelajar”
Jika terdeteksi, mungkin saja mereka sengaja diberi varian Gemini yang lebih bodoh tapi tetap terlihat masuk akal: https://cloud.google.com/blog/topics/threat-intelligence/dis...
Tapi karena model ini kecil dan hanya fokus pada penggunaan alat, kemungkinan pemakaian token-nya tidak akan mendekati orang-orang yang mencoba mendistilasi model penuh
Mungkin ini bisa memungkinkan dibuatnya sesuatu seperti program command line yang bisa memilih argumen secara opsional dalam bahasa alami
Tentu banyak orang akan menolak tambahan 14MB dan komputasi ekstra hanya untuk “parsing”, dan kalau semua orang mulai melakukan ini hasilnya juga bisa cukup buruk
Tetap saja, fakta bahwa ini sekarang memungkinkan benar-benar menarik
Kita bisa ikut menyertakan model yang di-fine-tune untuk memahami cara penggunaan program
Misalnya
> toolcli what can you doakan menjalankantoolcli --help summary, dantoolcli add tom to teamfutz groupmenjaditoolcli --gadd teamfutz tomMeski begitu, tugas yang sama tetap masih ada
Akan bagus kalau mereka merilis demo live untuk “needle playground”
Karena ukurannya kecil, rasanya biaya menjalankannya di VPS kecil di suatu tempat juga cukup murah
Meski begitu, siapa pun bisa melakukannya, dan juga mudah dijalankan langsung di laptop
Saya juga akan mencoba jalur VPS
Pengamatan bahwa “tugas pencarian tidak memerlukan FFN” itu menarik
Jika pengetahuannya ada di dalam konteks, ini hampir seperti mengatakan bahwa bobot FFN itu redundan untuk tugas tersebut
Saya penasaran apakah ini juga bisa digeneralisasi ke pemanggilan alat multi-turn yang harus melacak status di beberapa kali panggilan, atau justru akan gagal di sana
Pemanggilan tunggal adalah kasus yang mudah
Menarik, dan ini juga cocok dengan pengamatan yang saya lihat saat awal memakai Claude Code
Sonnet sering cepat memanggil alat untuk mengumpulkan lebih banyak konteks, sementara Opus cenderung menalar lebih lama dengan konteks yang sudah dimilikinya untuk menyelesaikan masalah
Ini membuat banyak fungsi duplikat dan memperlambat pengembangan, tapi di model baru seperti GPT-5.5 dan Opus 4.6 masalah ini tampaknya berkurang
Kesimpulan saya adalah model yang “lebih bodoh”, yaitu model yang lebih kecil, mungkin justru lebih baik sebagai cangkang eksekusi agen, atau setidaknya lebih realistis dijalankan untuk banyak masalah karena lebih murah dan cepat
Saya tidak merasa Gemini sangat bagus dalam rangkaian panjang pemanggilan alat
Akan menarik jika mendistilasi jejak yang memiliki rantai panjang pemanggilan alat di antara kueri pengguna, seperti sesi Codex atau Claude Code yang nyata
Secara pribadi, saya ingin ada model yang sedikit lebih besar yang mudah dijalankan di perangkat seperti MacBook Pro M2 32GB, dengan reinforcement learning untuk pemanggilan alat sebagai tujuan utamanya
Model berbobot terbuka seperti Kimi atau Qwen memang makin mendekati, tetapi kuantisasi yang diperlukan agar muat di perangkat kecil tampaknya cukup menurunkan performa
Tren framework agen belakangan ini menurut saya bodoh, dan kebanyakan hanya ada untuk menaikkan pendapatan perusahaan LLM
Secara umum LLM punya kegunaan yang terbatas, tetapi jika digabungkan dengan sekali penggunaan alat, ia menjadi jauh lebih berguna dan andal
Saya sendiri membuat kumpulan alat yang sangat spesifik untuk tugas tertentu di atas API openrouter
Caranya adalah tekan tombol lalu LLM melakukan satu hal yang berguna, bukan tekan tombol lalu berharap LLM berputar dalam loop pemanggilan alat selama 5 menit dan memproses semuanya dalam urutan yang benar
Kalau butuh beberapa pemanggilan alat, saya merangkainya secara deterministik di kode
Kita bisa memeriksa output A lalu lanjut ke B atau C, jadi jauh lebih andal, sekaligus lebih efisien dalam waktu dan token
Saya menganggap loop agen itu nyaris seperti penipuan besar
Saya tidak paham kenapa kita harus bersusah payah mencoba membuatnya “berfungsi” bagaimanapun caranya
Google, MS, Meta, OpenAI, dan lainnya sekarang diam-diam mulai menyebut alat mereka sebagai “Intelligence”, bahkan bukan “Artificial Intelligence”, jadi kalau begitu kenapa ia tidak cerdas dan kenapa tidak berfungsi
Setelah investasi lebih dari 1 triliun dolar, kenapa kita masih harus memikirkan mantra dan konfigurasi terbaik agar generator sampah ini mau mengeluarkan hasil yang setengah berguna
Apalagi ketika beberapa pemimpin teknologi secara terbuka mengancam akan menundukkan kita demi visi “peradaban” mereka yang aneh
Rasanya lebih baik kita memakai otak kita untuk hal lain, dan tidak merendahkan diri menjadi asisten tak berdaya bagi orakel sihir
Hasil eksperimen Cactus bahwa “selama model bergantung pada sumber pengetahuan eksternal, MLP dapat dihapus sepenuhnya dari jaringan transformer” itu menarik
Kebetulan hari ini salah satu mahasiswa saya juga mempresentasikan hasil riset yang menegaskan hal itu
Ketika MLP dihapus dari Qwen, model itu masih bisa melakukan tugas transformasi atas input, tetapi kehilangan pengetahuannya
Perbedaan antara M dan B terlalu halus
Saya sarankan menulis 0.026B
Walaupun pengembang LLM sekarang lebih terbiasa dengan model berskala miliaran parameter, notasi ini tetap valid
Menjanjikan, kerjanya bagus
Model edge Gemma4 dijanjikan akan bagus untuk penggunaan agen, tetapi di semua pengujian yang saya lakukan hasilnya benar-benar mengecewakan
Bahkan gagal pada skenario penggunaan alat yang paling dasar
Saya penasaran apakah mereka sudah menjalankan benchmark penggunaan alat untuk Needle, atau ada rencana ke arah sana
Kalau ada, akan bagus jika hasilnya ditambahkan ke repositori
Saya baru saja mencoba mengatur alarm dan menambahkan barang ke daftar belanja, dan hasilnya lebih baik daripada Siri