19 poin oleh GN⁺ 2026-01-23 | 2 komentar | Bagikan ke WhatsApp
  • Model Sweep Next-Edit dengan 1.5B parameter menyediakan fitur autocompletion dengan memprediksi perubahan kode berikutnya dari pengguna
  • Berjalan di lingkungan lokal dengan kecepatan di bawah 500ms, serta menunjukkan kinerja lebih tinggi dibanding model yang lebih dari 4 kali lebih besar
  • Disediakan dalam format kuantisasi Q8_0 GGUF, sehingga tetap ringan sambil mendukung panjang konteks 8192 token
  • Berbasis Qwen2.5-Coder dan dapat diintegrasikan dengan plugin JetBrains
  • Dirilis dengan lisensi Apache 2.0, menjadikannya model yang berguna untuk eksperimen dan integrasi bagi pengembang AI open source

Gambaran model

  • Sweep Next-Edit 1.5B adalah model prediksi next-edit untuk autocompletion kode
    • Memprediksi edit berikutnya sebelum pengguna mengubah kode, lalu memberikan saran
    • Dapat berjalan bahkan di lingkungan laptop lokal dengan latensi di bawah 500ms
  • Menggunakan speculative decoding untuk memberikan respons cepat
  • Mencatat kinerja lebih tinggi dibanding model yang lebih dari 4 kali lebih besar pada benchmark next-edit

Detail model

  • Jumlah parameter: 1.5B
  • Format: GGUF (kuantisasi Q8_0)
  • Panjang konteks: 8192 token
  • Model dasar: Qwen2.5-Coder
  • Lisensi: Apache 2.0

Cara penggunaan

  • Unduh run_model.py dan file model, lalu jalankan
    • Perintah instalasi:
      uv pip install llama-cpp-python huggingface_hub  
      python run_model.py  
      
  • Struktur ini berfokus pada eksekusi lokal, tanpa penyedia cloud inference terpisah

2 komentar

 
minsuchae 2026-01-23

Akhir-akhir ini perusahaan big tech bertumbuh dengan menaikkan jumlah parameter; apakah sekarang arahnya mulai berubah?
Secara pribadi, saya memang merasa pertumbuhan dengan terus menaikkan parameter lama-lama sebenarnya tidak punya jawaban yang jelas.
Rasanya seperti mengorbankan masa depan yang dekat demi pertumbuhan, begitu mungkin ya? Terutama saat MoE terlihat paling parah.
Dulu Google Gemma 3 27b termasuk cukup besar, tetapi sekarang di ranah LLM jumlah parameter sebesar itu malah terlihat seperti sedikit.
Kemajuan teknologi memang penting, tetapi rasanya perlu ada sesuatu yang juga mempertimbangkan tahap penyajiannya di dunia nyata, dan kali ini sepertinya percobaan yang cukup baik.
(Alasan saya skeptis terhadap bertambahnya parameter adalah karena saya tahu performanya bagus, tetapi biaya untuk menyajikannya jadi jauh lebih besar.)

 
GN⁺ 2026-01-23
Komentar Hacker News
  • Saya sudah mencoba modelnya langsung, dan performa serta kualitasnya benar-benar mengesankan
    Terima kasih sudah merilisnya sebagai open source
    Saya adalah pembuat plugin edit completion untuk Neovim, dan berhasil mengintegrasikannya dengan model Sweep Edit
    Bagi yang tertarik, silakan lihat cursortab.nvim

    • Penasaran apakah ada port untuk Emacs atau versi integrasi dengan gptel
    • Kelihatannya menarik, saya akan langsung mencoba plugin nvim-nya
    • Keren. Saya juga berniat mencobanya sendiri
  • Dulu saya pernah mencoba Qwen 2.5 Coder di Continue.dev untuk autocomplete, tapi hasilnya kacau baik di JetBrains IDE maupun VS Code
    Senang sekali ada yang membagikan upaya seperti ini. Sebagian besar plugin IDE (Cline, RooCode, KiloCode, dll.) tidak benar-benar mendukung pengaturan model autocomplete dengan baik
    Alasan saya tetap berlangganan Copilot pada dasarnya hanyalah karena autocomplete, jadi saya senang sepertinya sekarang ada alternatif

    • Saya juga pernah mencoba ekstensi VS Code milik llama.cpp, tapi UX pengaturannya benar-benar buruk
  • Setiap kali memakai plugin seperti ini, saya kembali merasa betapa tidak efisiennya menulis kode tanpa AI autocomplete
    Semakin banyak boilerplate code, semakin terasa jauh lebih berguna dibanding Claude Code
    Saya sudah lama memakai JetBrains jadi sulit pindah ke VSCode, tapi fitur AI JetBrains terlalu tertinggal
    Baru sekarang ada alat autocomplete yang lumayan bagus, jadi saya berencana mengganti langganan Copilot dengan ini
    Selain itu, saya juga suka karena bobot terbuka dan adanya mode privasi

    • Saya sudah lama menekankan kegunaan autocomplete, dan baru sekarang memahami bahwa memang ada dua budaya pengembangan yang berbeda
      Pengembang yang lebih sering menulis kode baru sangat merasakan peningkatan produktivitas dari autocomplete, sedangkan pengembang yang lebih fokus pada pemeliharaan lebih banyak terbantu oleh alat seperti Claude Code
    • Saya juga setuju. Di Emacs saya mengintegrasikan model lokal dan gemini 3 flash
      Tapi biasanya saya mematikan LLM dan hanya menyalakannya saat dibutuhkan
      Saya rasa potensi model kecil yang terspesialisasi masih diremehkan
      Terkait itu, saya sedang menulis buku berjudul ‘Winning Big With Small AI’
    • Agak keluar topik, tapi saya penasaran kenapa ada begitu banyak boilerplate code
      Menurut saya sebagian besar bisa direfaktor menjadi utilitas atau library
      Mungkin saya merasa berbeda karena kebanyakan menulis kode pipeline untuk riset
      Sebagai referensi, alat seperti yasnippet, ultisnips, VSCode snippets juga bisa dipakai untuk membuat autocomplete dasar
    • Junie memang kurang bagus, tapi kalau keluhannya soal autocomplete, IntelliJ juga punya fitur autocomplete lokal/cloud
    • Agak pahit rasanya bahwa solusi untuk masalah boilerplate pada akhirnya bermuara pada generasi otomatis
  • Saya sudah menunggu hal seperti ini sangat lama
    Saya kesal karena Cursor meminta 20 dolar per bulan padahal saya hanya memakai autocomplete-nya
    Saya sempat mempertimbangkan membuatnya sendiri, tapi tidak yakin model sekecil itu akan cukup bagus untuk dijalankan secara lokal
    Jadi saya buru-buru membuat ekstensi VSCode, dan modelnya ternyata cukup bagus
    Model lokal di masa lalu sangat buruk untuk inline completion, tapi kali ini jauh lebih baik
    Saya berharap persaingannya makin hidup

    • Katanya kalau ada pertanyaan, silakan tanyakan
      Katanya kualitasnya ditingkatkan dengan fitur seperti token healingtulisan terkait
  • Saya dengar model 1.5B cukup kecil untuk dijalankan secara lokal, jadi saya penasaran apakah plugin Sweep AI untuk JetBrains juga benar-benar berjalan lokal
    Saya ingin tahu apakah saat dipasang modelnya diunduh otomatis dan tidak ada komunikasi ke luar

    • Saat ini belum, plugin JetBrains memakai model besar yang di-host
    • Sepertinya tidak ada cara untuk mengatur endpoint lokal di plugin JetBrains
  • Saya kaget karena tingkat implementasi AI JetBrains sangat rendah
    Sudah bertahun-tahun berlalu tapi masih seperti ini, sampai-sampai perusahaan baru justru bisa melakukannya lebih baik
    Tulisan teknisnya juga menarik

    • Terima kasih. Kalau ada masukan atau pertanyaan, kapan pun sangat diterima
  • Melihat GLM-4.7-Flash dan pengumuman kali ini, terobosan batas model kecil benar-benar menarik
    Saya antusias karena model-model yang cukup ringan untuk berjalan di perangkat keras yang saya punya sekarang semakin bagus

  • Keren sekali
    Saya terutama penasaran bagaimana data pelatihan next edit dari repositori dibuat
    Ingin sekali mendengar wawasan soal itu

  • Hebat. Posting blog terkaitnya juga sangat menarik
    Semoga plugin untuk Neovim segera hadir
    Tulisan terkait

    • Katanya sudah ada orang yang membuat plugin Neovim yang terhubung dengan model ini
    • Ada juga llama.vim
      Itu bekerja baik dengan Qwen3 Coder, dan seharusnya tidak masalah selama mendukung infill
      Saya akan mengujinya hari ini
    • Penulis plugin itu sudah meninggalkan komentar di thread ini
  • Saya kurang paham perbedaan antara model next-edit dan model FIM
    Akan bagus kalau ada yang bisa menjelaskan kapan masing-masing sebaiknya dipakai
    Kalau memungkinkan, saya juga ingin membuat plugin untuk Sublime agar bisa mencobanya sendiri

    • Saya juga penasaran, jadi saya meminta Claude untuk membuatkan plugin
      Strukturnya memanfaatkan fitur autocomplete bawaan
      Bisa dilihat di AItoComplete
    • Dugaan saya FIM adalah singkatan dari Fill-In-the-Middle
      Autocomplete biasa hanya melengkapi bagian akhir, sedangkan FIM mengisi di antara blok kode
      Artinya model melihat konteks sebelum dan sesudah titik penyisipan untuk menemukan pelengkapan tengah yang paling alami