Membangun Siri Versi Anda Sendiri Secara Lokal dan On-Device Tanpa Cloud
(thehyperplane.substack.com)- Cara membuat sendiri asisten suara pribadi yang berjalan on-device tanpa bergantung pada API LLM dan cloud
- Asisten ini memahami bahasa alami, menjalankan pemanggilan fungsi pribadi, dan hanya bekerja secara lokal, sehingga privasi sepenuhnya dapat dijamin
- Untuk itu, model LLaMA 3.1 di-fine-tune dengan metode LoRA, lalu menggunakan Whisper untuk mengubah suara menjadi teks, kemudian menafsirkannya sebagai perintah dan mengeksekusinya langsung di perangkat
- Proyek ini terdiri dari pembuatan dataset → fine-tuning → menghubungkan antarmuka suara → pengujian dan deployment, dan tersedia sebagai mini-kursus gratis 5 bagian yang membahas masing-masing tahap
- Artikel ini mengingatkan agar tidak salah paham bahwa “menjalankan on-device = sederhana”, sambil menekankan bahwa bahkan di lingkungan lokal, pola pikir MLOps dan kontrol kualitas yang ketat tetap wajib
Mengapa sekarang perlu membuat asisten suara lokal?
- Berbicara dengan ChatGPT memang berguna, tetapi apakah perintah sederhana pun harus dikirim ke cloud?
- Jika model terpasang langsung di perangkat Anda, maka kecepatan, privasi, dan kendali semuanya bisa diperoleh
- Ini sangat berguna terutama di lingkungan sensitif seperti medis, hukum, dan alat internal perusahaan
Gambaran umum arsitektur keseluruhan
Komponen proyek
- Pengenalan suara (Whisper) → diubah menjadi teks
- LLM (LLaMA 3.1) → menafsirkan perintah
- Eksekutor fungsi → menjalankan fungsi nyata seperti
lock_screen()
Part 1: Arsitektur dan pola pikir MLOps
Mengapa MLOps tetap dibutuhkan di lingkungan lokal
- Tetap ada masalah seperti model drift, perubahan prompt, keandalan dataset, dan kurangnya logging untuk debugging
- Pola pikir “cukup lokal saja” itu berbahaya, sehingga diperlukan pendekatan yang sistematis
Pengembangan online vs eksekusi offline
- Pengembangan (fine-tuning, pembuatan data) dilakukan di cloud, sedangkan eksekusi berjalan secara lokal
- Memisahkan proses ini dengan jelas dan mengelolanya secara sistematis adalah inti dari MLOps
Pembuatan dataset (Dataset Generation Flow)
- Bukan sekadar mengumpulkan prompt, tetapi merancang pola pemanggilan fungsi yang terstruktur dan struktur permintaan percakapan
- Membuat dataset berkualitas tinggi yang mencakup beragam ekspresi, intent, dan kasus kegagalan
Poin penting
lock_screen()→ mencakup berbagai ekspresi bahasa alami seperti “tolong kunci layar”- Melalui mesin validasi otomatis, diperiksa apakah output sesuai dengan bentuk yang diinginkan
Fine-tuning (Instruction Tuning for Function Calling)
- Fine-tuning model kecil (metode SFT) untuk pemetaan perintah yang akurat
- Memanfaatkan alat praktis seperti Unsloth, W&B, dan ekspor format GGUF
Tujuan
- Mengubah LLaMA 3.1 8B menjadi model 4bit yang dapat dijalankan secara lokal
- Mengejar optimasi ringan yang bahkan bisa menargetkan Raspberry Pi
Menghubungkan model dan eksekusi nyata
- Mengubah input suara menjadi teks dengan Whisper
- LLM yang sudah di-fine-tune menafsirkan perintah
- Menghubungkannya dengan eksekutor fungsi API lokal (
lock_screen(),get_battery_status()dan lain-lain)
Hasil
- Asisten suara real-time dapat dijalankan
- Tidak perlu jaringan, tidak ada kebocoran data pribadi, dan kendali penuh di tangan pengguna
Manajemen risiko pada tahap offline
- Perlu pengujian di berbagai perangkat dan OS
- Wajib membangun sistem logging (dalam bentuk opt-in dengan pengiriman manual)
- Sebelum rilis resmi, masalah perlu dideteksi lebih awal melalui stress test dan umpan balik pengguna
Rencana ke depan
- Pada sesi berikutnya akan dilakukan latihan membuat dataset untuk function calling
- Akan dibangun secara terstruktur dataset khusus untuk mempelajari pemetaan perintah bahasa alami → pemanggilan API
- Scraping dilarang, hanya menggunakan simulasi berbasis prompt dan data validasi otomatis
Kesimpulan
- Sistem AI lokal memang sederhana, tetapi stabilitas dan kualitasnya menuntut pengelolaan pada level yang lebih tinggi
- Karena tidak bergantung pada log cloud atau hotfix, dibutuhkan keandalan dan tanggung jawab yang lebih besar
- Untuk itu, pola pikir MLOps dan desain yang terstruktur harus diterapkan sejak awal
“Zaman untuk membangun asisten AI sejati yang berfokus pada privasi dan mengutamakan lokal telah tiba”
Di bagian berikutnya, akan dimulai latihan nyata pembuatan dataset untuk pemetaan perintah-fungsi.
2 komentar
3.1 sulit dipakai bagi pengguna non-Inggris, dan kalau pakai 3.3 atau 4 sepertinya bahasa Korea juga bisa, tapi kalau mau dijalankan on-device, mengingat untuk bahasa selain Inggris setidaknya harus pakai 32b ke atas agar benar-benar ada gunanya, sepertinya masih sulit untuk sekarang...
Komentar Hacker News
largedi GPU, kecepatannya juga tinggi dan benar-benar bekerja sangat baik, tetapi perlu diperhatikan bahwa model ini hanya bisa mengenali satu bahasa dalam satu waktu; kalau tidak ditentukan, akan berjalan dengan deteksi otomatis, model-model kecil memang performanya jauh lebih terbatas dan sering kali pada dasarnya hanya mendukung bahasa Inggris, buat sayalargememberikan performa terbaik, tetapi untuk mendapatkan kecepatan yang benar-benar layak dipakai, hardware GPU memang wajib, dan hal yang sama juga berlaku saat dipakai bersama faster-whisper atau insanely-fast-whisper