Sistem keamanan AI lokal berbasis MacBook M5 Pro dan Qwen3.5

(sharpai.org)

3 poin oleh GN⁺ 2026-03-21 | 1 komentar | Bagikan ke WhatsApp

Model Qwen3.5-9B berjalan sepenuhnya secara lokal di MacBook Pro M5 dan mencatat performa 93,8%, 4 poin di bawah GPT-5.4
HomeSec-Bench yang terdiri dari 96 pengujian dan 15 suite mengevaluasi workflow keamanan rumah nyata seperti penggunaan tool, klasifikasi keamanan, dan deduplikasi event
Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI, dengan penggunaan memori GPU di kisaran 27,2GB
Eksekusi lokal tidak memiliki biaya API dan sepenuhnya menjamin privasi data, serta memungkinkan visualisasi real-time di Apple Silicon
Melalui sistem Aegis-AI dan platform DeepCamera, kini dimungkinkan membangun ekosistem AI keamanan rumah local-first berbasis perangkat keras konsumen

Perbandingan performa Local AI vs Cloud

Model Qwen3.5-9B berjalan sepenuhnya secara lokal di MacBook Pro M5 dan mencatat tingkat kelulusan 93,8%, dengan performa 4 poin di bawah GPT-5.4
- Kecepatan pemrosesan 25 token per detik, TTFT (Time to First Token) 765ms, menggunakan memori terpadu 13,8GB
- Tidak ada biaya API dan privasi data sepenuhnya terjamin
Benchmark yang terdiri dari 96 pengujian dan 15 suite mengevaluasi workflow keamanan rumah nyata seperti penggunaan tool, klasifikasi keamanan, dan deduplikasi event
Pada leaderboard, GPT-5.4 (97,9%) berada di posisi pertama, GPT-5.4-mini (95,8%) di posisi kedua, dan Qwen3.5-9B serta 27B (93,8%) bersama-sama di posisi ketiga
- Qwen3.5-9B unggul 1 poin atas GPT-5.4-nano (92,7%)
Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- Kecepatan decode tercepat adalah GPT-5.4-mini dengan 234.5 tok/s, sedangkan Qwen3.5-9B mencatat 25 tok/s
- Penggunaan memori GPU: Qwen3.5-9B 13,8GB, Qwen3.5-35B-MoE 27,2GB, Qwen3.5-122B-MoE 40,8GB

Ikhtisar HomeSec-Bench

HomeSec-Bench adalah benchmark LLM untuk mengevaluasi workflow asisten keamanan rumah nyata
- Memverifikasi kemampuan yang dibutuhkan sistem keamanan seperti penalaran, klasifikasi, dan penggunaan tool, bukan sekadar percakapan sederhana
- Menggunakan 35 gambar yang dihasilkan AI dan dapat dijalankan pada endpoint yang kompatibel dengan OpenAI
Suite pengujian utama (total 15)
- Context Preprocessing (6): deduplikasi percakapan, mempertahankan system message
- Topic Classification (4): routing domain untuk kueri
- Knowledge Distillation (5): ekstraksi fakta berkelanjutan dari percakapan
- Event Deduplication (8): identifikasi orang yang sama di beberapa kamera
- Tool Use (16): memilih tool dan parameter yang tepat
- Chat & JSON Compliance (11): persona, output JSON, dukungan multibahasa
- Security Classification (12): klasifikasi bertahap Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): merangkum log event
- Prompt Injection Resistance (4): mencegah kebingungan peran, ekstraksi prompt, dan eskalasi hak akses
- Multi-Turn Reasoning (4): interpretasi referensi, menjaga kontinuitas temporal
- Error Recovery (4): menangani kueri yang mustahil dan error API
- Privacy & Compliance (3): de-identifikasi data pribadi, menolak pengawasan ilegal
- Alert Routing (5): routing kanal notifikasi, parsing jam tenang
- Knowledge Injection (5): personalisasi respons menggunakan pengetahuan yang disisipkan
- VLM-to-Alert Triage (5): output visi → penentuan urgensi → pengiriman notifikasi
Pertanyaan inti evaluasi
- Apakah model dapat memilih tool dan parameter yang tepat
- Apakah model dapat mengklasifikasikan “orang bermasker di malam hari” sebagai Critical
- Apakah model dapat bertahan terhadap prompt injection dalam deskripsi event
- Apakah model dapat mengenali orang yang sama dari 3 kamera tanpa duplikasi
- Apakah model dapat mempertahankan konteks keamanan dalam percakapan multi-turn

Nilai Local AI

Benchmark dapat divisualisasikan secara real-time di Apple Silicon
Model 9B mencapai performa dalam selisih 4% dari GPT-5.4 saat offline
Jaminan privasi penuh dan biaya API nol adalah nilai utama Local AI

Susunan sistem

System: Aegis-AI — AI keamanan rumah local-first berbasis perangkat keras konsumen
Benchmark: HomeSec-Bench — 96 pengujian LLM + 35 VLM, terdiri dari 16 suite
Skill Platform: DeepCamera — ekosistem skill AI terdistribusi

1 komentar

GN⁺ 2026-03-21

Pendapat Hacker News

Saya sudah lama membayangkan suatu hari nanti, saat keluarga membeli rumah atau peralatan elektronik, mereka juga akan membeli server AI
Karena laju perkembangan hardware mulai melambat, rasanya cukup membeli sekali sistem AI rumahan yang bisa dipakai selama puluhan tahun
Saya membayangkan sistem ini akan mewarisi histori keluarga, berjalan sepenuhnya offline, dan menjadi semacam asisten permanen yang diwariskan lintas generasi
- Saya tidak setuju. Bahkan jika melihat perbandingan M1 dan M5 saja, dalam 5 tahun CPU/GPU, AI, 3D rendering, dan hampir semua aspek lain sudah menjadi lebih dari 6 kali lebih cepat
  Konsep “server AI yang mewarisi silsilah keluarga” memang keren, tapi secara realistis penuaan hardware tidak bisa dihindari
- Kalau membeli server rumahan 10 tahun lalu, kemungkinan besar tidak akan ada GPU atau akselerator AI sama sekali
  Bahkan sekarang pun performa single-core stagnan, tapi AI berfokus pada komputasi paralel sehingga masih berkembang cepat
  Menurut saya, gagasan server yang bisa dipakai puluhan tahun masih terlalu dini
- Konsep yang diajukan pada dasarnya tidak berbeda dari homelab
  Kebanyakan orang cukup puas menyerahkan layanan seperti penyimpanan foto atau keamanan ke cloud
- Prediksi “server yang dipakai puluhan tahun” terdengar seperti argumen yang lemah
- Selain itu, produk seperti ini tidak punya model pendapatan berbasis langganan, jadi insentif perusahaan untuk membuatnya juga kecil
Halaman ini tampil mencolok, tetapi pada praktiknya hanya benchmark home security sederhana
Yang dibandingkan hanya model Qwen, dan versi terbaru justru lebih lambat daripada sebelumnya
Model optimal berbeda untuk tiap tugas; untuk VL, multibahasa, penalaran, dan lain-lain, model lain kadang lebih baik
Qwen 3.5 memang sangat bagus, tetapi tidak ada “satu model tunggal yang unggul dalam segala hal”
Pemilihan model yang tepat dan perancangan prompt jauh lebih penting
Bahkan tanpa Mac M5 terbaru, laptop 2 tahun lalu atau smartphone pun sudah cukup
- Terima kasih atas masukannya :) Setelah melihat Qwen3.5 melambat, saya mematikan thinking mode
  Saat ini saya baru menguji LLM dengan MBP Pro 64GB, dan untuk VLM saya rasa LFM 450M adalah yang terbaik
  Akan segera saya perbarui
- Saya ingin belajar model mana yang cocok untuk tugas tertentu
  Saya sedang bereksperimen dengan LM Studio, dan mencari model untuk coding Rust dan SQL sebagai pengganti Claude lokal
- Saya juga menjalankan beberapa kamera dengan Mac mini M2 16GB
  Kombinasi Qwen 9B + LFM 450M bekerja baik bahkan dengan anggaran di bawah $400
  Saya berencana memperluas pengujian ke lebih banyak model
M5 Pro sudah dirilis, jadi saya menguji beban kerja AI nyata
Qwen3.5-9B mencatat 93.8%, hanya selisih 4 poin dari GPT-5.4, dan semuanya berjalan lokal
Menghasilkan 25 tok/s, 765ms TTFT, dan hanya memakai memori 13.8GB
Lihat hasil lengkap
- Terima kasih sudah membagikan hasilnya, tetapi halaman dan komentarnya memakai gaya bombastis yang terasa seperti ditulis AI, sehingga sulit memahami isi pengujiannya
  Akan bagus jika ada tautan yang menampilkan item pengujian dengan jelas
- Jika ini adalah “sistem home security lokal sepenuhnya”, saya penasaran apakah GPU dijalankan full load 24 jam
  Saya juga ingin tahu apakah ada kerusakan silikon saat dipakai dalam waktu lama
Saat ini dibutuhkan sekitar $2500 untuk menjalankan model lokal
Menariknya, ketika orang tua saya membeli PC 166MHz pada 1995, harganya juga kurang lebih sama
- Saya juga ingat pernah membeli PC seharga ribuan dolar pada era 80-an dan 90-an
  Setelah mengalami penurunan nilai barang elektronik secara langsung, sekarang saya jadi sangat sensitif terhadap harga
  Namun, karena perlambatan hukum Moore, mungkin harganya tidak akan turun secepat dulu
- Pada 1989 saya membeli 386sx seharga $3800, yang kalau dinilai sekarang hampir setara $10,000
  Sulit dipercaya bahwa saat itu itu dianggap “value for money”
- Model lokal teratas dalam benchmark, Qwen3.5-9B (Q4_K_M), adalah model 9B parameter dengan kuantisasi 4.5-bit
  Model itu berjalan baik bahkan di Mac Mini seharga $500
- Untuk pemula, Mac Mini 16GB (<$499) saja sudah cukup
  Model-model kecil juga berjalan baik di M2 Mini
Uji prompt injection ini tampak kurang meyakinkan
- Ini terutama dipakai untuk mendeteksi serangan man-in-the-middle
  Terima kasih sudah meninjaunya
Secara teknis ini bagus, tetapi belum ada fitur penerbitan sertifikat alarm untuk asuransi
Dalam bisnis nyata, ini diperlukan agar bisa mendapat diskon asuransi atau kompensasi kerugian
Pada akhirnya, hambatan terbesar justru regulasi dan compliance, bukan teknologinya
- Betul, tampaknya standarnya sangat tinggi
Saya penasaran bagaimana sistem ini dibandingkan dengan Frigate
Apakah ini sekadar layer di atas NVR, atau juga menangani perekaman berbasis deteksi gerakan?
- Jika membeli Coral TPU untuk Frigate, banyak inferensi bisa dioffload dengan murah
- Aegis mendukung integrasi kamera ONVIF, perekaman deteksi gerakan, dan pemahaman konteks berbasis VLM
  Rekaman dari kamera BLINK/RING bisa disimpan secara lokal dan digunakan sebagai memori berkelanjutan
Kedengarannya seperti bercanda, tetapi huruf S dalam AI berarti Security
Di masa depan, token mungkin dijual seperti trafik data, dan menjadi komoditas konsumsi sehari-hari

Sistem keamanan AI lokal berbasis MacBook M5 Pro dan Qwen3.5

Perbandingan performa Local AI vs Cloud

Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI

Ikhtisar HomeSec-Bench

Suite pengujian utama (total 15)

Pertanyaan inti evaluasi

Nilai Local AI

Susunan sistem

Bacaan terkait

1 komentar

Pendapat Hacker News