1 poin oleh GN⁺ 1 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Needle adalah model eksperimental yang mendistilasi Gemini 3.1 menjadi Simple Attention Network berparameter 26 juta, dan bahkan memungkinkan fine-tuning lokal di Mac/PC
  • Tujuannya adalah mendefinisikan ulang AI kecil yang digunakan pada perangkat konsumen seperti ponsel, jam tangan, dan kacamata, dengan fokus pada pemanggilan alat sekali jalan untuk AI personal
  • Di produksi, model ini berjalan di atas Cactus dan mencapai prefill 6000 toks/sec, decode 1200
  • Bobot model sepenuhnya dibuka di Cactus-Compute/needle, dan pembuatan dataset juga dirilis bersama
  • Pra-pelatihan dijalankan selama 27 jam pada 16 TPU v6e dengan 200B token, dan pelatihan lanjutan dilakukan selama 45 menit dengan dataset 2B token untuk pemanggilan fungsi sekali jalan
  • Untuk pemanggilan fungsi sekali jalan, model ini diklaim lebih baik daripada FunctionGemma-270m, Qwen-0.6B, Graninte-350m, dan LFM2.5-350m, tetapi model-model tersebut memiliki cakupan dan kapasitas yang lebih luas serta kuat dalam pengaturan percakapan
  • Model kecil bisa sulit ditangani, sehingga alur yang direkomendasikan adalah menguji dengan alat Anda sendiri di web UI yang disediakan dan melakukan fine-tuning kustom hanya dengan klik tombol
  • needle playground membuka web UI di http://127.0.0.1:7860, dan bobot model dapat diunduh otomatis untuk pengujian dan fine-tuning
  • Saat memakai Python, Anda dapat memasukkan kueri dan skema alat dengan SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer untuk menghasilkan JSON pemanggilan alat seperti get_weather
  • CLI menyediakan playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu untuk menangani inferensi, pelatihan, evaluasi, pembuatan data, dan pengelolaan TPU
  • Konfigurasi modelnya adalah d=512, 8H/4KV, BPE=8192, serta menggunakan encoder 12 lapis dan decoder 8 lapis, GQA+RoPE, cross attention, gated residual, tied linear, dan shared embedding

1 komentar

 
GN⁺ 1 jam lalu
Komentar Hacker News
  • Saya penasaran apakah ada contoh atau data tentang kemampuan pembedaan model penggunaan alat
    Contohnya seperti “bagaimana cuaca di San Francisco”, dan alat yang diberikan kira-kira tools='[{"name":"get_weather","parameters":{"location":"string"}}]'
    Lebih dari 10 tahun lalu saya pernah membuat sesuatu[1] yang bisa menangani masalah seperti ini dengan SPARQL dan knowledge graph
    Yang benar-benar ingin saya ketahui adalah seberapa baik penanganan ambiguitasnya
    Jika diberi pesan seperti “besok jam 10 ayo ketemu sambil ngopi” dan perintah seperti “simpan ini”, saya ingin tahu apakah model bisa memilih aksi “tambah jadwal” dari puluhan alat yang mungkin, meski bukan sampai ratusan
    [1] https://github.com/nlothian/Acuitra/wiki/About

    • Saya sudah mencobanya lewat Hugging Face yang ditautkan di bawah, dan hasilnya tidak terlalu mengesankan
      Prompt-nya adalah “aku harus mengabari atasan bahwa aku terlambat”, dan hasilnya 20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}]
      Model itu tidak memakai alat email, dan saat saya menanyakannya dengan 2–3 cara lain hasilnya mirip
  • Saya penasaran apakah mereka tidak khawatir dengan respons Google
    Google kabarnya menanggapi upaya distilasi dengan “pertahanan proaktif real-time yang dapat menurunkan kinerja model pelajar”
    Jika terdeteksi, mungkin saja mereka sengaja diberi varian Gemini yang lebih bodoh tapi tetap terlihat masuk akal: https://cloud.google.com/blog/topics/threat-intelligence/dis...
    Tapi karena model ini kecil dan hanya fokus pada penggunaan alat, kemungkinan pemakaian token-nya tidak akan mendekati orang-orang yang mencoba mendistilasi model penuh

    • Anda juga bisa mendistilasi dengan menjalankan model Gemma secara lokal, atau memakai model lain yang mendukung penggunaan alat
    • Dari sudut pandang data pelatihan, ini juga terasa seperti merampok pencuri
  • Mungkin ini bisa memungkinkan dibuatnya sesuatu seperti program command line yang bisa memilih argumen secara opsional dalam bahasa alami
    Tentu banyak orang akan menolak tambahan 14MB dan komputasi ekstra hanya untuk “parsing”, dan kalau semua orang mulai melakukan ini hasilnya juga bisa cukup buruk
    Tetap saja, fakta bahwa ini sekarang memungkinkan benar-benar menarik
    Kita bisa ikut menyertakan model yang di-fine-tune untuk memahami cara penggunaan program
    Misalnya > toolcli what can you do akan menjalankan toolcli --help summary, dan toolcli add tom to teamfutz group menjadi toolcli --gadd teamfutz tom

    • Needle dilatih untuk INT4, dan yang terlihat di playground juga INT4, jadi ukurannya hanya 14MB
      Meski begitu, tugas yang sama tetap masih ada
  • Akan bagus kalau mereka merilis demo live untuk “needle playground”
    Karena ukurannya kecil, rasanya biaya menjalankannya di VPS kecil di suatu tempat juga cukup murah

    • Sepertinya ini juga bisa dilakukan dengan cepat dan mudah lewat WebGPU
    • Masalahnya hanya soal skalabilitas, dan infrastrukturnya belum benar-benar siap pakai
      Meski begitu, siapa pun bisa melakukannya, dan juga mudah dijalankan langsung di laptop
      Saya juga akan mencoba jalur VPS
    • Saya akan coba pasang ini di chonklm.com
  • Pengamatan bahwa “tugas pencarian tidak memerlukan FFN” itu menarik
    Jika pengetahuannya ada di dalam konteks, ini hampir seperti mengatakan bahwa bobot FFN itu redundan untuk tugas tersebut
    Saya penasaran apakah ini juga bisa digeneralisasi ke pemanggilan alat multi-turn yang harus melacak status di beberapa kali panggilan, atau justru akan gagal di sana
    Pemanggilan tunggal adalah kasus yang mudah

  • Menarik, dan ini juga cocok dengan pengamatan yang saya lihat saat awal memakai Claude Code
    Sonnet sering cepat memanggil alat untuk mengumpulkan lebih banyak konteks, sementara Opus cenderung menalar lebih lama dengan konteks yang sudah dimilikinya untuk menyelesaikan masalah
    Ini membuat banyak fungsi duplikat dan memperlambat pengembangan, tapi di model baru seperti GPT-5.5 dan Opus 4.6 masalah ini tampaknya berkurang
    Kesimpulan saya adalah model yang “lebih bodoh”, yaitu model yang lebih kecil, mungkin justru lebih baik sebagai cangkang eksekusi agen, atau setidaknya lebih realistis dijalankan untuk banyak masalah karena lebih murah dan cepat
    Saya tidak merasa Gemini sangat bagus dalam rangkaian panjang pemanggilan alat
    Akan menarik jika mendistilasi jejak yang memiliki rantai panjang pemanggilan alat di antara kueri pengguna, seperti sesi Codex atau Claude Code yang nyata
    Secara pribadi, saya ingin ada model yang sedikit lebih besar yang mudah dijalankan di perangkat seperti MacBook Pro M2 32GB, dengan reinforcement learning untuk pemanggilan alat sebagai tujuan utamanya
    Model berbobot terbuka seperti Kimi atau Qwen memang makin mendekati, tetapi kuantisasi yang diperlukan agar muat di perangkat kecil tampaknya cukup menurunkan performa

    • Kuncinya adalah tidak menjalankan LLM dalam loop berulang
      Tren framework agen belakangan ini menurut saya bodoh, dan kebanyakan hanya ada untuk menaikkan pendapatan perusahaan LLM
      Secara umum LLM punya kegunaan yang terbatas, tetapi jika digabungkan dengan sekali penggunaan alat, ia menjadi jauh lebih berguna dan andal
      Saya sendiri membuat kumpulan alat yang sangat spesifik untuk tugas tertentu di atas API openrouter
      Caranya adalah tekan tombol lalu LLM melakukan satu hal yang berguna, bukan tekan tombol lalu berharap LLM berputar dalam loop pemanggilan alat selama 5 menit dan memproses semuanya dalam urutan yang benar
      Kalau butuh beberapa pemanggilan alat, saya merangkainya secara deterministik di kode
      Kita bisa memeriksa output A lalu lanjut ke B atau C, jadi jauh lebih andal, sekaligus lebih efisien dalam waktu dan token
      Saya menganggap loop agen itu nyaris seperti penipuan besar
    • Saya harap perusahaan AI besar tidak menghabiskan waktu untuk menambal celah pada “alat” mereka sendiri yang mereka biarkan begitu saja
      Saya tidak paham kenapa kita harus bersusah payah mencoba membuatnya “berfungsi” bagaimanapun caranya
      Google, MS, Meta, OpenAI, dan lainnya sekarang diam-diam mulai menyebut alat mereka sebagai “Intelligence”, bahkan bukan “Artificial Intelligence”, jadi kalau begitu kenapa ia tidak cerdas dan kenapa tidak berfungsi
      Setelah investasi lebih dari 1 triliun dolar, kenapa kita masih harus memikirkan mantra dan konfigurasi terbaik agar generator sampah ini mau mengeluarkan hasil yang setengah berguna
      Apalagi ketika beberapa pemimpin teknologi secara terbuka mengancam akan menundukkan kita demi visi “peradaban” mereka yang aneh
      Rasanya lebih baik kita memakai otak kita untuk hal lain, dan tidak merendahkan diri menjadi asisten tak berdaya bagi orakel sihir
  • Hasil eksperimen Cactus bahwa “selama model bergantung pada sumber pengetahuan eksternal, MLP dapat dihapus sepenuhnya dari jaringan transformer” itu menarik
    Kebetulan hari ini salah satu mahasiswa saya juga mempresentasikan hasil riset yang menegaskan hal itu
    Ketika MLP dihapus dari Qwen, model itu masih bisa melakukan tugas transformasi atas input, tetapi kehilangan pengetahuannya

  • Perbedaan antara M dan B terlalu halus
    Saya sarankan menulis 0.026B

    • Notasi “M” setidaknya sudah ada sejak era BERT dan T5/FLAN
      Walaupun pengembang LLM sekarang lebih terbiasa dengan model berskala miliaran parameter, notasi ini tetap valid
    • Banyak komentar di tulisan ini sangat membingungkan, dan berkat ini saya sadar sebagian orang membacanya sebagai 26B sehingga komentarnya jadi tidak masuk akal
  • Menjanjikan, kerjanya bagus
    Model edge Gemma4 dijanjikan akan bagus untuk penggunaan agen, tetapi di semua pengujian yang saya lakukan hasilnya benar-benar mengecewakan
    Bahkan gagal pada skenario penggunaan alat yang paling dasar
    Saya penasaran apakah mereka sudah menjalankan benchmark penggunaan alat untuk Needle, atau ada rencana ke arah sana
    Kalau ada, akan bagus jika hasilnya ditambahkan ke repositori

  • Saya baru saja mencoba mengatur alarm dan menambahkan barang ke daftar belanja, dan hasilnya lebih baik daripada Siri