Membangun Siri Versi Anda Sendiri Secara Lokal dan On-Device Tanpa Cloud
(thehyperplane.substack.com)- Cara membuat sendiri asisten suara pribadi yang berjalan on-device tanpa bergantung pada API LLM dan cloud
- Asisten ini memahami bahasa alami, menjalankan pemanggilan fungsi pribadi, dan hanya bekerja secara lokal, sehingga privasi sepenuhnya dapat dijamin
- Untuk itu, model LLaMA 3.1 di-fine-tune dengan metode LoRA, lalu menggunakan Whisper untuk mengubah suara menjadi teks, kemudian menafsirkannya sebagai perintah dan mengeksekusinya langsung di perangkat
- Proyek ini terdiri dari pembuatan dataset → fine-tuning → menghubungkan antarmuka suara → pengujian dan deployment, dan tersedia sebagai mini-kursus gratis 5 bagian yang membahas masing-masing tahap
- Artikel ini mengingatkan agar tidak salah paham bahwa “menjalankan on-device = sederhana”, sambil menekankan bahwa bahkan di lingkungan lokal, pola pikir MLOps dan kontrol kualitas yang ketat tetap wajib
Mengapa sekarang perlu membuat asisten suara lokal?
- Berbicara dengan ChatGPT memang berguna, tetapi apakah perintah sederhana pun harus dikirim ke cloud?
- Jika model terpasang langsung di perangkat Anda, maka kecepatan, privasi, dan kendali semuanya bisa diperoleh
- Ini sangat berguna terutama di lingkungan sensitif seperti medis, hukum, dan alat internal perusahaan
Gambaran umum arsitektur keseluruhan
Komponen proyek
- Pengenalan suara (Whisper) → diubah menjadi teks
- LLM (LLaMA 3.1) → menafsirkan perintah
- Eksekutor fungsi → menjalankan fungsi nyata seperti
lock_screen()
Part 1: Arsitektur dan pola pikir MLOps
Mengapa MLOps tetap dibutuhkan di lingkungan lokal
- Tetap ada masalah seperti model drift, perubahan prompt, keandalan dataset, dan kurangnya logging untuk debugging
- Pola pikir “cukup lokal saja” itu berbahaya, sehingga diperlukan pendekatan yang sistematis
Pengembangan online vs eksekusi offline
- Pengembangan (fine-tuning, pembuatan data) dilakukan di cloud, sedangkan eksekusi berjalan secara lokal
- Memisahkan proses ini dengan jelas dan mengelolanya secara sistematis adalah inti dari MLOps
Pembuatan dataset (Dataset Generation Flow)
- Bukan sekadar mengumpulkan prompt, tetapi merancang pola pemanggilan fungsi yang terstruktur dan struktur permintaan percakapan
- Membuat dataset berkualitas tinggi yang mencakup beragam ekspresi, intent, dan kasus kegagalan
Poin penting
lock_screen()→ mencakup berbagai ekspresi bahasa alami seperti “tolong kunci layar”- Melalui mesin validasi otomatis, diperiksa apakah output sesuai dengan bentuk yang diinginkan
Fine-tuning (Instruction Tuning for Function Calling)
- Fine-tuning model kecil (metode SFT) untuk pemetaan perintah yang akurat
- Memanfaatkan alat praktis seperti Unsloth, W&B, dan ekspor format GGUF
Tujuan
- Mengubah LLaMA 3.1 8B menjadi model 4bit yang dapat dijalankan secara lokal
- Mengejar optimasi ringan yang bahkan bisa menargetkan Raspberry Pi
Menghubungkan model dan eksekusi nyata
- Mengubah input suara menjadi teks dengan Whisper
- LLM yang sudah di-fine-tune menafsirkan perintah
- Menghubungkannya dengan eksekutor fungsi API lokal (
lock_screen(),get_battery_status()dan lain-lain)
Hasil
- Asisten suara real-time dapat dijalankan
- Tidak perlu jaringan, tidak ada kebocoran data pribadi, dan kendali penuh di tangan pengguna
Manajemen risiko pada tahap offline
- Perlu pengujian di berbagai perangkat dan OS
- Wajib membangun sistem logging (dalam bentuk opt-in dengan pengiriman manual)
- Sebelum rilis resmi, masalah perlu dideteksi lebih awal melalui stress test dan umpan balik pengguna
Rencana ke depan
- Pada sesi berikutnya akan dilakukan latihan membuat dataset untuk function calling
- Akan dibangun secara terstruktur dataset khusus untuk mempelajari pemetaan perintah bahasa alami → pemanggilan API
- Scraping dilarang, hanya menggunakan simulasi berbasis prompt dan data validasi otomatis
Kesimpulan
- Sistem AI lokal memang sederhana, tetapi stabilitas dan kualitasnya menuntut pengelolaan pada level yang lebih tinggi
- Karena tidak bergantung pada log cloud atau hotfix, dibutuhkan keandalan dan tanggung jawab yang lebih besar
- Untuk itu, pola pikir MLOps dan desain yang terstruktur harus diterapkan sejak awal
> “Zaman untuk membangun asisten AI sejati yang berfokus pada privasi dan mengutamakan lokal telah tiba”
> Di bagian berikutnya, akan dimulai latihan nyata pembuatan dataset untuk pemetaan perintah-fungsi.
2 komentar
3.1 sulit dipakai bagi pengguna non-Inggris, dan kalau pakai 3.3 atau 4 sepertinya bahasa Korea juga bisa, tapi kalau mau dijalankan on-device, mengingat untuk bahasa selain Inggris setidaknya harus pakai 32b ke atas agar benar-benar ada gunanya, sepertinya masih sulit untuk sekarang...
Komentar Hacker News
largedi GPU, kecepatannya juga tinggi dan benar-benar bekerja sangat baik, tetapi perlu diperhatikan bahwa model ini hanya bisa mengenali satu bahasa dalam satu waktu; kalau tidak ditentukan, akan berjalan dengan deteksi otomatis, model-model kecil memang performanya jauh lebih terbatas dan sering kali pada dasarnya hanya mendukung bahasa Inggris, buat sayalargememberikan performa terbaik, tetapi untuk mendapatkan kecepatan yang benar-benar layak dipakai, hardware GPU memang wajib, dan hal yang sama juga berlaku saat dipakai bersama faster-whisper atau insanely-fast-whisper