- Model Qwen3.5-9B berjalan sepenuhnya secara lokal di MacBook Pro M5 dan mencatat performa 93,8%, 4 poin di bawah GPT-5.4
- HomeSec-Bench yang terdiri dari 96 pengujian dan 15 suite mengevaluasi workflow keamanan rumah nyata seperti penggunaan tool, klasifikasi keamanan, dan deduplikasi event
- Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI, dengan penggunaan memori GPU di kisaran 27,2GB
- Eksekusi lokal tidak memiliki biaya API dan sepenuhnya menjamin privasi data, serta memungkinkan visualisasi real-time di Apple Silicon
- Melalui sistem Aegis-AI dan platform DeepCamera, kini dimungkinkan membangun ekosistem AI keamanan rumah local-first berbasis perangkat keras konsumen
Perbandingan performa Local AI vs Cloud
- Model Qwen3.5-9B berjalan sepenuhnya secara lokal di MacBook Pro M5 dan mencatat tingkat kelulusan 93,8%, dengan performa 4 poin di bawah GPT-5.4
- Kecepatan pemrosesan 25 token per detik, TTFT (Time to First Token) 765ms, menggunakan memori terpadu 13,8GB
- Tidak ada biaya API dan privasi data sepenuhnya terjamin
- Benchmark yang terdiri dari 96 pengujian dan 15 suite mengevaluasi workflow keamanan rumah nyata seperti penggunaan tool, klasifikasi keamanan, dan deduplikasi event
- Pada leaderboard, GPT-5.4 (97,9%) berada di posisi pertama, GPT-5.4-mini (95,8%) di posisi kedua, dan Qwen3.5-9B serta 27B (93,8%) bersama-sama di posisi ketiga
- Qwen3.5-9B unggul 1 poin atas GPT-5.4-nano (92,7%)
-
Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- Kecepatan decode tercepat adalah GPT-5.4-mini dengan 234.5 tok/s, sedangkan Qwen3.5-9B mencatat 25 tok/s
- Penggunaan memori GPU: Qwen3.5-9B 13,8GB, Qwen3.5-35B-MoE 27,2GB, Qwen3.5-122B-MoE 40,8GB
Ikhtisar HomeSec-Bench
- HomeSec-Bench adalah benchmark LLM untuk mengevaluasi workflow asisten keamanan rumah nyata
- Memverifikasi kemampuan yang dibutuhkan sistem keamanan seperti penalaran, klasifikasi, dan penggunaan tool, bukan sekadar percakapan sederhana
- Menggunakan 35 gambar yang dihasilkan AI dan dapat dijalankan pada endpoint yang kompatibel dengan OpenAI
-
Suite pengujian utama (total 15)
- Context Preprocessing (6): deduplikasi percakapan, mempertahankan system message
- Topic Classification (4): routing domain untuk kueri
- Knowledge Distillation (5): ekstraksi fakta berkelanjutan dari percakapan
- Event Deduplication (8): identifikasi orang yang sama di beberapa kamera
- Tool Use (16): memilih tool dan parameter yang tepat
- Chat & JSON Compliance (11): persona, output JSON, dukungan multibahasa
- Security Classification (12): klasifikasi bertahap Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): merangkum log event
- Prompt Injection Resistance (4): mencegah kebingungan peran, ekstraksi prompt, dan eskalasi hak akses
- Multi-Turn Reasoning (4): interpretasi referensi, menjaga kontinuitas temporal
- Error Recovery (4): menangani kueri yang mustahil dan error API
- Privacy & Compliance (3): de-identifikasi data pribadi, menolak pengawasan ilegal
- Alert Routing (5): routing kanal notifikasi, parsing jam tenang
- Knowledge Injection (5): personalisasi respons menggunakan pengetahuan yang disisipkan
- VLM-to-Alert Triage (5): output visi → penentuan urgensi → pengiriman notifikasi
-
Pertanyaan inti evaluasi
- Apakah model dapat memilih tool dan parameter yang tepat
- Apakah model dapat mengklasifikasikan “orang bermasker di malam hari” sebagai Critical
- Apakah model dapat bertahan terhadap prompt injection dalam deskripsi event
- Apakah model dapat mengenali orang yang sama dari 3 kamera tanpa duplikasi
- Apakah model dapat mempertahankan konteks keamanan dalam percakapan multi-turn
Nilai Local AI
- Benchmark dapat divisualisasikan secara real-time di Apple Silicon
- Model 9B mencapai performa dalam selisih 4% dari GPT-5.4 saat offline
- Jaminan privasi penuh dan biaya API nol adalah nilai utama Local AI
Susunan sistem
- System: Aegis-AI — AI keamanan rumah local-first berbasis perangkat keras konsumen
- Benchmark: HomeSec-Bench — 96 pengujian LLM + 35 VLM, terdiri dari 16 suite
- Skill Platform: DeepCamera — ekosistem skill AI terdistribusi
1 komentar
Pendapat Hacker News
Saya sudah lama membayangkan suatu hari nanti, saat keluarga membeli rumah atau peralatan elektronik, mereka juga akan membeli server AI
Karena laju perkembangan hardware mulai melambat, rasanya cukup membeli sekali sistem AI rumahan yang bisa dipakai selama puluhan tahun
Saya membayangkan sistem ini akan mewarisi histori keluarga, berjalan sepenuhnya offline, dan menjadi semacam asisten permanen yang diwariskan lintas generasi
Konsep “server AI yang mewarisi silsilah keluarga” memang keren, tapi secara realistis penuaan hardware tidak bisa dihindari
Bahkan sekarang pun performa single-core stagnan, tapi AI berfokus pada komputasi paralel sehingga masih berkembang cepat
Menurut saya, gagasan server yang bisa dipakai puluhan tahun masih terlalu dini
Kebanyakan orang cukup puas menyerahkan layanan seperti penyimpanan foto atau keamanan ke cloud
Halaman ini tampil mencolok, tetapi pada praktiknya hanya benchmark home security sederhana
Yang dibandingkan hanya model Qwen, dan versi terbaru justru lebih lambat daripada sebelumnya
Model optimal berbeda untuk tiap tugas; untuk VL, multibahasa, penalaran, dan lain-lain, model lain kadang lebih baik
Qwen 3.5 memang sangat bagus, tetapi tidak ada “satu model tunggal yang unggul dalam segala hal”
Pemilihan model yang tepat dan perancangan prompt jauh lebih penting
Bahkan tanpa Mac M5 terbaru, laptop 2 tahun lalu atau smartphone pun sudah cukup
Saat ini saya baru menguji LLM dengan MBP Pro 64GB, dan untuk VLM saya rasa LFM 450M adalah yang terbaik
Akan segera saya perbarui
Saya sedang bereksperimen dengan LM Studio, dan mencari model untuk coding Rust dan SQL sebagai pengganti Claude lokal
Kombinasi Qwen 9B + LFM 450M bekerja baik bahkan dengan anggaran di bawah $400
Saya berencana memperluas pengujian ke lebih banyak model
M5 Pro sudah dirilis, jadi saya menguji beban kerja AI nyata
Qwen3.5-9B mencatat 93.8%, hanya selisih 4 poin dari GPT-5.4, dan semuanya berjalan lokal
Menghasilkan 25 tok/s, 765ms TTFT, dan hanya memakai memori 13.8GB
Lihat hasil lengkap
Akan bagus jika ada tautan yang menampilkan item pengujian dengan jelas
Saya juga ingin tahu apakah ada kerusakan silikon saat dipakai dalam waktu lama
Saat ini dibutuhkan sekitar $2500 untuk menjalankan model lokal
Menariknya, ketika orang tua saya membeli PC 166MHz pada 1995, harganya juga kurang lebih sama
Setelah mengalami penurunan nilai barang elektronik secara langsung, sekarang saya jadi sangat sensitif terhadap harga
Namun, karena perlambatan hukum Moore, mungkin harganya tidak akan turun secepat dulu
Sulit dipercaya bahwa saat itu itu dianggap “value for money”
Model itu berjalan baik bahkan di Mac Mini seharga $500
Model-model kecil juga berjalan baik di M2 Mini
Uji prompt injection ini tampak kurang meyakinkan
Terima kasih sudah meninjaunya
Secara teknis ini bagus, tetapi belum ada fitur penerbitan sertifikat alarm untuk asuransi
Dalam bisnis nyata, ini diperlukan agar bisa mendapat diskon asuransi atau kompensasi kerugian
Pada akhirnya, hambatan terbesar justru regulasi dan compliance, bukan teknologinya
Saya penasaran bagaimana sistem ini dibandingkan dengan Frigate
Apakah ini sekadar layer di atas NVR, atau juga menangani perekaman berbasis deteksi gerakan?
Rekaman dari kamera BLINK/RING bisa disimpan secara lokal dan digunakan sebagai memori berkelanjutan
Kedengarannya seperti bercanda, tetapi huruf S dalam AI berarti Security
Di masa depan, token mungkin dijual seperti trafik data, dan menjadi komoditas konsumsi sehari-hari