Lemonade by AMD: Server LLM lokal open-source cepat dengan GPU dan NPU

(lemonade-server.ai)

11 poin oleh GN⁺ 17 hari lalu | 1 komentar | Bagikan ke WhatsApp

Server AI lokal dengan dukungan AMD, memanfaatkan GPU dan NPU untuk memproses teks, gambar, dan suara dengan cepat dalam sebuah platform open-source
Menekankan eksekusi lokal dan perlindungan privasi, serta kompatibel dengan standar OpenAI API sehingga bisa langsung terhubung ke berbagai aplikasi
Menyediakan lingkungan AI lokal yang praktis lewat backend ringan berbasis C++, konfigurasi hardware otomatis, dan eksekusi multi-model secara bersamaan
Mendukung Chat, Vision, Image Generation, Transcription, Speech Generation melalui satu API terpadu
Menyediakan lingkungan yang sama di Windows, Linux, macOS(beta), dan memudahkan unduh serta pergantian model lewat GUI bawaan

Fitur utama

Desain open-source dan berfokus pada lokal
- Dikembangkan dengan filosofi bahwa AI lokal harus bebas, terbuka, cepat, dan privat
- Dibangun secara aktif oleh komunitas AI lokal dan dapat dijalankan di semua PC
- Menekankan perlindungan privasi dan lingkungan eksekusi yang mandiri
Instalasi cepat dan struktur ringan
- One Minute Install menyiapkan seluruh stack secara otomatis
- Backend native C++ adalah layanan ringan berukuran sekitar 2MB
- Fitur konfigurasi hardware otomatis mengatur lingkungan GPU dan NPU secara otomatis
Kompatibilitas luas
- Kompatibilitas OpenAI API memungkinkan integrasi instan dengan ratusan aplikasi
- Mendukung berbagai mesin inferensi seperti llama.cpp, Ryzen AI SW, dan FastFlowLM
- Mendukung eksekusi multi-model secara bersamaan, sehingga beberapa model bisa berjalan paralel
API terpadu
- Satu layanan lokal mendukung Chat, Vision, Image Generation, Transcription, dan Speech Generation sekaligus
- Disediakan dalam bentuk REST API standar, misalnya model percakapan dapat dipanggil melalui endpoint POST /api/v1/chat/completions
- Dalam contoh permintaan, "model": "Qwen3-0.6B-GGUF" digunakan untuk menanyakan populasi Paris
Antarmuka pengguna dan ekosistem
- Aplikasi GUI bawaan memungkinkan unduh, uji, dan pergantian model dengan cepat
- Berbasis standar OpenAI API sehingga langsung kompatibel dengan berbagai aplikasi
- Peningkatan berkelanjutan dan perluasan fitur dilakukan melalui partisipasi komunitas

Spesifikasi teknis dan contoh penggunaan

Hardware dan performa
- Dalam lingkungan RAM terpadu 128GB, model besar seperti gpt-oss-120b dan Qwen-Coder-Next dapat dijalankan
- Opsi --no-mmap memungkinkan waktu muat lebih singkat serta perluasan ukuran konteks (64 atau lebih)
Fitur gambar dan suara
- Contoh pembuatan gambar: “Lemonade pitcher bergaya lukisan Renaisans”
- Contoh suara: “Hello, I am your AI assistant. What can I do for you today?”

Rilis terbaru

Lemonade terus ditingkatkan, dengan fitur terbaru dan peningkatan performa yang tersedia melalui aliran rilis
Fitur baru dan sorotan terbaru dapat dilihat di situs resmi

1 komentar

GN⁺ 17 hari lalu

Komentar Hacker News

Saya sudah hampir 1 tahun memakai Lemonade. Di Strix Halo, saya pakai ini saja tanpa alat lain. AMD Strix Halo Toolboxes dari kyuz0 juga bagus, tetapi Lemonade bisa TTS, STT, pembuatan teks·gambar, sampai penyuntingan gambar. Mendukung berbagai backend seperti ROCm, Vulkan, CPU, GPU, NPU, dan laju pengembangannya praktis dan cepat. Jika memakai hardware AMD, sangat direkomendasikan.
Berkat endpoint yang kompatibel dengan OpenAI dan Ollama, ini juga bisa langsung dipakai di VSCode Copilot atau Open Web UI
- Saya penasaran, jika model Qwen3.5-122B dijalankan di Strix Halo dengan Lemonade, seberapa besar peningkatan kecepatan dibanding llama.cpp berbasis Vulkan
- Saya juga penasaran apakah ada yang pernah memakainya dengan agents atau Claw, dan model apa yang dijalankan
Saya sudah beberapa bulan menjalankan LLM lokal di 7900 XTX, dan pengalaman ROCm cukup kasar. Fakta bahwa AMD merilis server inferensi resmi untuk mengatasi masalah driver·dependensi adalah kemajuan besar. Namun saya penasaran apakah dukungan NPU benar-benar memberi throughput yang berarti. Dalam pengujian saya, selain untuk model kecil, itu menjadi bottleneck
- Saya penasaran bagian mana yang terasa begitu sulit. Saya menjalankan model lokal dengan Ollama di RX 7900 XTX dan hampir tidak mengalami masalah terkait ROCm. Hanya batas VRAM 24GB yang agak disayangkan. Saya sedang mempertimbangkan pindah ke Radeon Pro demi VRAM yang lebih besar
- Di kernel 7.0.0, performa Vulkan jauh lebih baik daripada ROCm, dengan peningkatan kecepatan lebih dari sekitar 20%
- NPU digunakan untuk efisiensi daya saat memakai baterai. Bukan pengganti GPU
Saya penasaran apakah nama ‘Lemonade’ berarti memanfaatkan lemon semaksimal mungkin
- Karena pengucapan “L-L-M” mirip dengan “lemon”, sepertinya ini permainan kata LLM-aid → lemonade
- Jika hidup terus memberimu lemon, lebih baik buat saja lemon yang meledak
- Saya hanya memakai hardware AMD untuk inferensi lokal. Dari sudut pandang konsumen, menurut saya ini lebih baik daripada Nvidia dalam hal driver terbuka, efisiensi daya, dan harga
- Katanya nama ‘Lemonsqueeze’ tidak dipakai karena terlalu violent
Lemonade terasa seperti berada di antara Ollama dan LM Studio. Menarik karena fokusnya bukan sekadar model serving, melainkan pada runtime terintegrasi. Kuncinya adalah orkestrasi yang menangani berbagai modalitas sekaligus seperti teks, gambar, dan audio. Saya penasaran apakah ini benar-benar abstraksi, atau hanya menggabungkan beberapa alat. Saya juga bertanya-tanya apakah optimasi AMD/NPU justru akan menurunkan portabilitas
- Ini membundel berbagai alat serta fitur pemilihan dan pengelolaan model. Bisa dipasang dengan backend CPU atau Vulkan, tetapi pada dasarnya hanya mendukung build ROCm dan AMD NPU. Untuk menjalankannya dengan CUDA, versi llama.cpp harus dioverride sehingga pengelolaannya merepotkan. Jika ingin menjalankan model lokal dengan mudah di mesin AMD, ini yang paling simpel.
  Saya menjalankannya di NAS bersama home assistant. Selain Strix Halo, saya juga mengelola server kartu CUDA secara terpisah
Sayang sekali model·kernel NPU yang dipakai Lemonade tidak terbuka. Akan bagus jika dukungan terbuka bertambah
- Di dokumentasi tertulis, “Anda dapat mendaftarkan model Hugging Face ke Lemonade Server”
- Saya membeli perangkat dengan sadar bahwa mungkin saya tidak bisa memakai NPU, tetapi tetap saja mendengar kabar seperti ini menjengkelkan
Kekuatan sebenarnya Lemonade adalah integrasi multimodal. Tiga layanan yang biasanya memerlukan API dan pengelolaan model berbeda—pembuatan teks, pembuatan gambar, dan pengenalan suara—bisa ditangani oleh satu server melalui endpoint yang kompatibel dengan OpenAI. Saat membuat prototipe, ini sangat membantu meningkatkan kualitas.
NPU berguna untuk model kecil yang selalu aktif atau offloading prefill, tetapi untuk chatbot umum ada kecenderungan dibesar-besarkan.
Jika AMD bisa membuat scheduling GPU+NPU transparan sehingga pengembang tidak perlu memikirkan hardware, ada peluang besar ini menjadi pilihan default
Saya menjalankan Lemonade di Strix Halo. Ini mencakup berbagai backend seperti diffusion dan llama, tetapi saya hanya memakai build llama.cpp ROCm(tautan). Saya tidak menyentuh gambar atau audio. Untuk GPT OSS 120B, kecepatannya sekitar 50 token per detik. NPU ditujukan untuk model selalu aktif berdaya rendah, jadi tidak memberi keuntungan besar untuk chatbot umum
- Bahkan NPU kecil pun bisa meng-offload sebagian perhitungan prefill. Namun pada tahap decoding, hasilnya bergantung pada bandwidth memori dan apakah operasi internal didukung. Misalnya, Apple Neural Engine hanya mendukung operasi INT8/FP16, jadi bantuannya tidak terlalu besar
Saya sudah membaca situs web dan pengumuman beritanya, tetapi masih bingung Lemonade itu tepatnya apa. Apakah ini pengganti LM Studio, dan apakah mendukung MLX atau Metal di Mac. Jika optimasi AMD memang jadi fokus, saya ingin tahu apakah di GPU lain ini kurang menguntungkan
- Menurut roadmap di GitHub, beta macOS sudah selesai dan dukungan MLX sedang dikembangkan
- Ini adalah solusi satu atap untuk memasang dan memelihara stack AI lokal dengan mudah. Menyediakan STT, TTS, pembuatan gambar, endpoint LLM sekaligus, dan juga punya WebUI sendiri. Mendukung endpoint yang kompatibel dengan OpenAI, Ollama, dan Anthropic
- Seperti LM Studio, ini mengabstraksikan berbagai runtime, tetapi lewat runtime FastFlowML milik AMD, NPU pada Ryzen AI CPU bisa dimanfaatkan di Linux
- LM Studio menyerahkan eksekusi LLM sebenarnya ke software lain, dan jika software itu tidak mendukung NPU maka performanya turun. Lemonade tampaknya berperan sebagai backend semacam itu
Saya heran panduan instalasi server untuk Linux tidak punya opsi Docker/Podman. Yang ada hanya Snap/PPA dan RPM. Mungkin maksudnya pengguna container harus build sendiri
- Sebenarnya ada opsi instalasi Docker. Akan bagus jika itu ditambahkan ke halaman rilis
Saya penasaran apakah ada yang sudah membandingkannya dengan Ollama. Saya memakai Ollama dengan baik di 9070 XT pada ROCm 7.4
- Lemonade mendukung berbagai API dan build khusus untuk AMD GPU·NPU. Dikelola langsung oleh AMD. Secara internal keduanya sama-sama berbasis llama.cpp, tetapi Lemonade memiliki build yang dioptimalkan per GPU
- Saat diuji di MacBook M1 Max(64GB RAM) dengan model qwen3.59b, Ollama memerlukan 1 menit 44 detik, sedangkan Lemonade 1 menit 14 detik, jadi Lemonade lebih cepat
- Saya juga penasaran dengan perbandingannya terhadap vLLM
- Saat ini saya memakai Ollama, tetapi penasaran dengan perbedaan performa dibanding Lemonade
- Saya juga ingin tahu apakah ini lebih baik daripada Vulkan

Lemonade by AMD: Server LLM lokal open-source cepat dengan GPU dan NPU

Fitur utama

Desain open-source dan berfokus pada lokal

Instalasi cepat dan struktur ringan

Kompatibilitas luas

API terpadu

Antarmuka pengguna dan ekosistem

Spesifikasi teknis dan contoh penggunaan

Hardware dan performa

Fitur gambar dan suara

Rilis terbaru

Bacaan terkait

1 komentar

Komentar Hacker News