18 poin oleh GN⁺ 2025-05-02 | 3 komentar | Bagikan ke WhatsApp
  • Memanfaatkan library MLX untuk berjalan langsung di Mac, sehingga model terbaru dan kuat Qwen3-30B-A3B-8bit bisa disajikan secara lokal
  • Menghubungkannya di Localforge dengan gaya OpenAI API untuk membangun agent loop
  • Menambahkan model pendamping berbasis ollama (Gemma3) agar peran bantuan agen dipisahkan sehingga penggunaan alat menjadi efisien
  • Setelah dikonfigurasi di UI Localforge, agen dapat menjalankan "eksekusi tool LS", membuat website, hingga menjalankan game snake secara otomatis
  • Semua proses ini gratis dan dapat berjalan sepenuhnya secara mandiri di lokal, proyek yang layak dicoba langsung oleh pengguna Mac

Menjalankan Qwen3 secara lokal di Mac

  • Tujuan: menjalankan model Qwen3 terbaru di Mac dan mengubahnya menjadi agen dengan Localforge untuk menguji otomatisasi coding
  • Qwen3 didistribusikan melalui Ollama dan komunitas HuggingFace MLX
  • Langkah 1: Instal lingkungan MLX

    pip install mlx  
    pip install mlx-lm  
    
  • Langkah 2: Jalankan server model

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • Model akan diunduh otomatis lalu dijalankan sebagai server API di port 8082
    • Jika pesan "Starting httpd..." muncul di log, berarti berjalan dengan benar

Konfigurasi Localforge

  • Situs resmi: https://localforge.dev
  • Setelah instalasi, konfigurasi berikut diperlukan di pengaturan:
  • Tambahkan provider

    • a) Provider Ollama (model pendamping)
      • Nama: LocalOllama
      • Tipe: ollama
      • Instalasi diperlukan: model gemma3:latest (cocok untuk pemrosesan bahasa sederhana)
    • b) Provider Qwen3 (model utama)

  • Buat agen

    • Nama: qwen3-agent
    • Model utama: qwen3:mlx:30b (nama model: mlx-community/Qwen3-30B-A3B-8bit)
    • Model pendamping: LocalOllama (nama model: gemma3:latest)

Kesimpulan

  • Di Mac, model besar dapat dijalankan secara lokal gratis untuk otomatisasi coding berbasis agen
  • Hasil yang lebih presisi juga dimungkinkan melalui pemilihan model atau tuning system prompt
  • Localforge + MLX + Qwen3 adalah kombinasi yang sangat berguna untuk eksperimen LLM pribadi

3 komentar

 
ragingwind 2025-05-02

Kalau 30b berjalan secara lokal, itu sangat bagus, ya? Qwen2.5-Coder kurang bagus, tapi ini sepertinya layak dicoba.

 
GN⁺ 2025-05-02
Komentar Hacker News
  • Sedang menggunakan model Qwen3-30B-A3B secara lokal dan sangat terkesan. Ini tampaknya bisa menjadi alternatif bagi orang-orang yang menunggu GPT-4. Mendapatkan 70 tok/s di M3 Max sehingga sangat nyaman digunakan

    • Yang paling mengesankan adalah model 0.6B juga bisa berguna untuk tugas-tugas yang tidak penting, bahkan di kelas model di bawah 1B
    • Secara keseluruhan sangat mengesankan, dan saat ini sedang mengevaluasi cara mengintegrasikannya dengan pengaturan yang ada
  • Menjalankan qwen3 dan memanggil alat ls bukanlah "vibe coding". Ini terlihat seperti iklan untuk LocalForge

    • Untuk pekerjaan yang benar-benar otonom, misalnya membaca banyak file, menelusuri direktori, dan menentukan di mana perubahan harus dilakukan, sepertinya ini tidak akan bekerja dengan baik
  • Ingin memuji MLX dan MLX-LM. Sedang menggunakannya untuk fine-tuning model Gemma 3 secara lokal, dan library serta alat yang dibuat para pengembang Apple tersusun dengan baik

  • Secara tidak sengaja membuat Qwen3 masuk ke loop dengan prompt sederhana

    • Menggunakan prompt "buat decorator Python yang menggunakan trie untuk routing topik MQTT"
    • phi4-reasoning berjalan, tetapi tampaknya ada bug di kodenya
    • phi4-mini-reasoning tampak kebingungan
    • qwen3:30b masuk ke loop dan melupakan decorator-nya
    • mistral-small langsung menangkap inti masalah dan kodenya tampak benar
    • Secara rutin menggunakan model Copilot, dan Claude 3.7 serta Gemini menghasilkan kode yang bisa dipakai lengkap dengan pengujian. Namun model lokal tampaknya belum sampai ke tingkat itu
  • Apakah ada yang tahu pengaturan dengan MCP di mana LLM lokal bisa berkolaborasi mengerjakan tugas, mengompresi konteks, atau bekerja sama dengan agen cloud?

    • Kotak M3 baru yang hanya merender UI sementara LLM cloud merombak codebase terdengar konyol. Rasanya mereka seharusnya bisa mengoordinasikan pekerjaan satu sama lain
  • Ingin berbagi tutorial singkat untuk menjalankan agen otonom sungguhan secara lokal dan menyelesaikan tugas sederhana

    • Masih mencari konfigurasi MLX yang tepat atau versi model yang sesuai, tetapi kerangka pendekatan ini solid
  • Senang menemukan LocalForge. Punya pertanyaan tentang LocalForge. Apakah dua agen bisa digabungkan sehingga gambar dikirim ke agen multimodal untuk menghasilkan html/css, lalu agen lain menulis sisa kodenya?

    • Di postingan disebutkan Gemma3 (multimodal) dan Qwen3 (non-multimodal). Apakah keduanya bisa digunakan seperti di atas?
    • Penasaran bagaimana LocalForge tahu ke agen mana prompt harus dirutekan
  • Sangat mengesankan. Tidak harus sebagus model token berbayar

    • Misalnya, bulan lalu menghabiskan setidaknya $300 untuk vibe coding. Itu karena ingin mengetahui alat yang bisa bersaing, dan setelah menyelesaikan implementasi proyek sampingan, ingin menulis ulangnya dalam bahasa pemrograman lain
    • Bahkan jika bisa beristirahat sedikit di sini, laptop Nvidia refurb akan bisa balik modal dalam setahun. Mengecewakan bahwa Ollama masih belum bisa menangani seluruh alur. Seharusnya ini bisa dilakukan dengan satu perintah saja
  • Terlihat bagus. Sedang mencari IDE dengan bantuan AI yang mengutamakan lokal untuk dipakai bersama Gemma 3 27B dari Google

    • Menurut saya, LocalForge seharusnya mengungkapkan bahwa itu adalah proyek miliknya
  • Menjalankan model secara lokal kini mulai terasa menarik. Khususnya versi 30B-A3B tampak sebagai arah yang menjanjikan. Di VRAM 16 GB masih belum terjangkau, tetapi sudah cukup mendekati

    • Sedang menantikan kartu Nvidia RTX baru dengan 24/32 GB VRAM. Dalam beberapa tahun tampaknya bisa mencapai level GPT-4. Itu akan berguna untuk banyak tugas