- Server AI lokal dengan dukungan AMD, memanfaatkan GPU dan NPU untuk memproses teks, gambar, dan suara dengan cepat dalam sebuah platform open-source
- Menekankan eksekusi lokal dan perlindungan privasi, serta kompatibel dengan standar OpenAI API sehingga bisa langsung terhubung ke berbagai aplikasi
- Menyediakan lingkungan AI lokal yang praktis lewat backend ringan berbasis C++, konfigurasi hardware otomatis, dan eksekusi multi-model secara bersamaan
- Mendukung Chat, Vision, Image Generation, Transcription, Speech Generation melalui satu API terpadu
- Menyediakan lingkungan yang sama di Windows, Linux, macOS(beta), dan memudahkan unduh serta pergantian model lewat GUI bawaan
Fitur utama
-
Desain open-source dan berfokus pada lokal
- Dikembangkan dengan filosofi bahwa AI lokal harus bebas, terbuka, cepat, dan privat
- Dibangun secara aktif oleh komunitas AI lokal dan dapat dijalankan di semua PC
- Menekankan perlindungan privasi dan lingkungan eksekusi yang mandiri
-
Instalasi cepat dan struktur ringan
- One Minute Install menyiapkan seluruh stack secara otomatis
- Backend native C++ adalah layanan ringan berukuran sekitar 2MB
- Fitur konfigurasi hardware otomatis mengatur lingkungan GPU dan NPU secara otomatis
-
Kompatibilitas luas
- Kompatibilitas OpenAI API memungkinkan integrasi instan dengan ratusan aplikasi
- Mendukung berbagai mesin inferensi seperti llama.cpp, Ryzen AI SW, dan FastFlowLM
- Mendukung eksekusi multi-model secara bersamaan, sehingga beberapa model bisa berjalan paralel
-
API terpadu
- Satu layanan lokal mendukung Chat, Vision, Image Generation, Transcription, dan Speech Generation sekaligus
- Disediakan dalam bentuk REST API standar, misalnya model percakapan dapat dipanggil melalui endpoint
POST /api/v1/chat/completions
- Dalam contoh permintaan,
"model": "Qwen3-0.6B-GGUF" digunakan untuk menanyakan populasi Paris
-
Antarmuka pengguna dan ekosistem
- Aplikasi GUI bawaan memungkinkan unduh, uji, dan pergantian model dengan cepat
- Berbasis standar OpenAI API sehingga langsung kompatibel dengan berbagai aplikasi
- Peningkatan berkelanjutan dan perluasan fitur dilakukan melalui partisipasi komunitas
Spesifikasi teknis dan contoh penggunaan
-
Hardware dan performa
- Dalam lingkungan RAM terpadu 128GB, model besar seperti gpt-oss-120b dan Qwen-Coder-Next dapat dijalankan
- Opsi
--no-mmap memungkinkan waktu muat lebih singkat serta perluasan ukuran konteks (64 atau lebih)
-
Fitur gambar dan suara
- Contoh pembuatan gambar: “Lemonade pitcher bergaya lukisan Renaisans”
- Contoh suara: “Hello, I am your AI assistant. What can I do for you today?”
Rilis terbaru
- Lemonade terus ditingkatkan, dengan fitur terbaru dan peningkatan performa yang tersedia melalui aliran rilis
- Fitur baru dan sorotan terbaru dapat dilihat di situs resmi
1 komentar
Komentar Hacker News
Saya sudah hampir 1 tahun memakai Lemonade. Di Strix Halo, saya pakai ini saja tanpa alat lain. AMD Strix Halo Toolboxes dari kyuz0 juga bagus, tetapi Lemonade bisa TTS, STT, pembuatan teks·gambar, sampai penyuntingan gambar. Mendukung berbagai backend seperti ROCm, Vulkan, CPU, GPU, NPU, dan laju pengembangannya praktis dan cepat. Jika memakai hardware AMD, sangat direkomendasikan.
Berkat endpoint yang kompatibel dengan OpenAI dan Ollama, ini juga bisa langsung dipakai di VSCode Copilot atau Open Web UI
Saya sudah beberapa bulan menjalankan LLM lokal di 7900 XTX, dan pengalaman ROCm cukup kasar. Fakta bahwa AMD merilis server inferensi resmi untuk mengatasi masalah driver·dependensi adalah kemajuan besar. Namun saya penasaran apakah dukungan NPU benar-benar memberi throughput yang berarti. Dalam pengujian saya, selain untuk model kecil, itu menjadi bottleneck
Saya penasaran apakah nama ‘Lemonade’ berarti memanfaatkan lemon semaksimal mungkin
Lemonade terasa seperti berada di antara Ollama dan LM Studio. Menarik karena fokusnya bukan sekadar model serving, melainkan pada runtime terintegrasi. Kuncinya adalah orkestrasi yang menangani berbagai modalitas sekaligus seperti teks, gambar, dan audio. Saya penasaran apakah ini benar-benar abstraksi, atau hanya menggabungkan beberapa alat. Saya juga bertanya-tanya apakah optimasi AMD/NPU justru akan menurunkan portabilitas
Saya menjalankannya di NAS bersama home assistant. Selain Strix Halo, saya juga mengelola server kartu CUDA secara terpisah
Sayang sekali model·kernel NPU yang dipakai Lemonade tidak terbuka. Akan bagus jika dukungan terbuka bertambah
Kekuatan sebenarnya Lemonade adalah integrasi multimodal. Tiga layanan yang biasanya memerlukan API dan pengelolaan model berbeda—pembuatan teks, pembuatan gambar, dan pengenalan suara—bisa ditangani oleh satu server melalui endpoint yang kompatibel dengan OpenAI. Saat membuat prototipe, ini sangat membantu meningkatkan kualitas.
NPU berguna untuk model kecil yang selalu aktif atau offloading prefill, tetapi untuk chatbot umum ada kecenderungan dibesar-besarkan.
Jika AMD bisa membuat scheduling GPU+NPU transparan sehingga pengembang tidak perlu memikirkan hardware, ada peluang besar ini menjadi pilihan default
Saya menjalankan Lemonade di Strix Halo. Ini mencakup berbagai backend seperti diffusion dan llama, tetapi saya hanya memakai build llama.cpp ROCm(tautan). Saya tidak menyentuh gambar atau audio. Untuk GPT OSS 120B, kecepatannya sekitar 50 token per detik. NPU ditujukan untuk model selalu aktif berdaya rendah, jadi tidak memberi keuntungan besar untuk chatbot umum
Saya sudah membaca situs web dan pengumuman beritanya, tetapi masih bingung Lemonade itu tepatnya apa. Apakah ini pengganti LM Studio, dan apakah mendukung MLX atau Metal di Mac. Jika optimasi AMD memang jadi fokus, saya ingin tahu apakah di GPU lain ini kurang menguntungkan
Saya heran panduan instalasi server untuk Linux tidak punya opsi Docker/Podman. Yang ada hanya Snap/PPA dan RPM. Mungkin maksudnya pengguna container harus build sendiri
Saya penasaran apakah ada yang sudah membandingkannya dengan Ollama. Saya memakai Ollama dengan baik di 9070 XT pada ROCm 7.4