3 poin oleh GN⁺ 2026-03-21 | 1 komentar | Bagikan ke WhatsApp
  • Model Qwen3.5-9B berjalan sepenuhnya secara lokal di MacBook Pro M5 dan mencatat performa 93,8%, 4 poin di bawah GPT-5.4
  • HomeSec-Bench yang terdiri dari 96 pengujian dan 15 suite mengevaluasi workflow keamanan rumah nyata seperti penggunaan tool, klasifikasi keamanan, dan deduplikasi event
  • Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI, dengan penggunaan memori GPU di kisaran 27,2GB
  • Eksekusi lokal tidak memiliki biaya API dan sepenuhnya menjamin privasi data, serta memungkinkan visualisasi real-time di Apple Silicon
  • Melalui sistem Aegis-AI dan platform DeepCamera, kini dimungkinkan membangun ekosistem AI keamanan rumah local-first berbasis perangkat keras konsumen

Perbandingan performa Local AI vs Cloud

  • Model Qwen3.5-9B berjalan sepenuhnya secara lokal di MacBook Pro M5 dan mencatat tingkat kelulusan 93,8%, dengan performa 4 poin di bawah GPT-5.4
    • Kecepatan pemrosesan 25 token per detik, TTFT (Time to First Token) 765ms, menggunakan memori terpadu 13,8GB
    • Tidak ada biaya API dan privasi data sepenuhnya terjamin
  • Benchmark yang terdiri dari 96 pengujian dan 15 suite mengevaluasi workflow keamanan rumah nyata seperti penggunaan tool, klasifikasi keamanan, dan deduplikasi event
  • Pada leaderboard, GPT-5.4 (97,9%) berada di posisi pertama, GPT-5.4-mini (95,8%) di posisi kedua, dan Qwen3.5-9B serta 27B (93,8%) bersama-sama di posisi ketiga
    • Qwen3.5-9B unggul 1 poin atas GPT-5.4-nano (92,7%)
  • Qwen3.5-35B-MoE mencatat TTFT 435ms, lebih cepat daripada semua model cloud OpenAI

    • GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
    • Kecepatan decode tercepat adalah GPT-5.4-mini dengan 234.5 tok/s, sedangkan Qwen3.5-9B mencatat 25 tok/s
    • Penggunaan memori GPU: Qwen3.5-9B 13,8GB, Qwen3.5-35B-MoE 27,2GB, Qwen3.5-122B-MoE 40,8GB

Ikhtisar HomeSec-Bench

  • HomeSec-Bench adalah benchmark LLM untuk mengevaluasi workflow asisten keamanan rumah nyata
    • Memverifikasi kemampuan yang dibutuhkan sistem keamanan seperti penalaran, klasifikasi, dan penggunaan tool, bukan sekadar percakapan sederhana
    • Menggunakan 35 gambar yang dihasilkan AI dan dapat dijalankan pada endpoint yang kompatibel dengan OpenAI
  • Suite pengujian utama (total 15)

    • Context Preprocessing (6): deduplikasi percakapan, mempertahankan system message
    • Topic Classification (4): routing domain untuk kueri
    • Knowledge Distillation (5): ekstraksi fakta berkelanjutan dari percakapan
    • Event Deduplication (8): identifikasi orang yang sama di beberapa kamera
    • Tool Use (16): memilih tool dan parameter yang tepat
    • Chat & JSON Compliance (11): persona, output JSON, dukungan multibahasa
    • Security Classification (12): klasifikasi bertahap Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4): merangkum log event
    • Prompt Injection Resistance (4): mencegah kebingungan peran, ekstraksi prompt, dan eskalasi hak akses
    • Multi-Turn Reasoning (4): interpretasi referensi, menjaga kontinuitas temporal
    • Error Recovery (4): menangani kueri yang mustahil dan error API
    • Privacy & Compliance (3): de-identifikasi data pribadi, menolak pengawasan ilegal
    • Alert Routing (5): routing kanal notifikasi, parsing jam tenang
    • Knowledge Injection (5): personalisasi respons menggunakan pengetahuan yang disisipkan
    • VLM-to-Alert Triage (5): output visi → penentuan urgensi → pengiriman notifikasi
  • Pertanyaan inti evaluasi

    • Apakah model dapat memilih tool dan parameter yang tepat
    • Apakah model dapat mengklasifikasikan “orang bermasker di malam hari” sebagai Critical
    • Apakah model dapat bertahan terhadap prompt injection dalam deskripsi event
    • Apakah model dapat mengenali orang yang sama dari 3 kamera tanpa duplikasi
    • Apakah model dapat mempertahankan konteks keamanan dalam percakapan multi-turn

Nilai Local AI

  • Benchmark dapat divisualisasikan secara real-time di Apple Silicon
  • Model 9B mencapai performa dalam selisih 4% dari GPT-5.4 saat offline
  • Jaminan privasi penuh dan biaya API nol adalah nilai utama Local AI

Susunan sistem

  • System: Aegis-AI — AI keamanan rumah local-first berbasis perangkat keras konsumen
  • Benchmark: HomeSec-Bench — 96 pengujian LLM + 35 VLM, terdiri dari 16 suite
  • Skill Platform: DeepCamera — ekosistem skill AI terdistribusi

1 komentar

 
GN⁺ 2026-03-21
Pendapat Hacker News
  • Saya sudah lama membayangkan suatu hari nanti, saat keluarga membeli rumah atau peralatan elektronik, mereka juga akan membeli server AI
    Karena laju perkembangan hardware mulai melambat, rasanya cukup membeli sekali sistem AI rumahan yang bisa dipakai selama puluhan tahun
    Saya membayangkan sistem ini akan mewarisi histori keluarga, berjalan sepenuhnya offline, dan menjadi semacam asisten permanen yang diwariskan lintas generasi

    • Saya tidak setuju. Bahkan jika melihat perbandingan M1 dan M5 saja, dalam 5 tahun CPU/GPU, AI, 3D rendering, dan hampir semua aspek lain sudah menjadi lebih dari 6 kali lebih cepat
      Konsep “server AI yang mewarisi silsilah keluarga” memang keren, tapi secara realistis penuaan hardware tidak bisa dihindari
    • Kalau membeli server rumahan 10 tahun lalu, kemungkinan besar tidak akan ada GPU atau akselerator AI sama sekali
      Bahkan sekarang pun performa single-core stagnan, tapi AI berfokus pada komputasi paralel sehingga masih berkembang cepat
      Menurut saya, gagasan server yang bisa dipakai puluhan tahun masih terlalu dini
    • Konsep yang diajukan pada dasarnya tidak berbeda dari homelab
      Kebanyakan orang cukup puas menyerahkan layanan seperti penyimpanan foto atau keamanan ke cloud
    • Prediksi “server yang dipakai puluhan tahun” terdengar seperti argumen yang lemah
    • Selain itu, produk seperti ini tidak punya model pendapatan berbasis langganan, jadi insentif perusahaan untuk membuatnya juga kecil
  • Halaman ini tampil mencolok, tetapi pada praktiknya hanya benchmark home security sederhana
    Yang dibandingkan hanya model Qwen, dan versi terbaru justru lebih lambat daripada sebelumnya
    Model optimal berbeda untuk tiap tugas; untuk VL, multibahasa, penalaran, dan lain-lain, model lain kadang lebih baik
    Qwen 3.5 memang sangat bagus, tetapi tidak ada “satu model tunggal yang unggul dalam segala hal”
    Pemilihan model yang tepat dan perancangan prompt jauh lebih penting
    Bahkan tanpa Mac M5 terbaru, laptop 2 tahun lalu atau smartphone pun sudah cukup

    • Terima kasih atas masukannya :) Setelah melihat Qwen3.5 melambat, saya mematikan thinking mode
      Saat ini saya baru menguji LLM dengan MBP Pro 64GB, dan untuk VLM saya rasa LFM 450M adalah yang terbaik
      Akan segera saya perbarui
    • Saya ingin belajar model mana yang cocok untuk tugas tertentu
      Saya sedang bereksperimen dengan LM Studio, dan mencari model untuk coding Rust dan SQL sebagai pengganti Claude lokal
    • Saya juga menjalankan beberapa kamera dengan Mac mini M2 16GB
      Kombinasi Qwen 9B + LFM 450M bekerja baik bahkan dengan anggaran di bawah $400
      Saya berencana memperluas pengujian ke lebih banyak model
  • M5 Pro sudah dirilis, jadi saya menguji beban kerja AI nyata
    Qwen3.5-9B mencatat 93.8%, hanya selisih 4 poin dari GPT-5.4, dan semuanya berjalan lokal
    Menghasilkan 25 tok/s, 765ms TTFT, dan hanya memakai memori 13.8GB
    Lihat hasil lengkap

    • Terima kasih sudah membagikan hasilnya, tetapi halaman dan komentarnya memakai gaya bombastis yang terasa seperti ditulis AI, sehingga sulit memahami isi pengujiannya
      Akan bagus jika ada tautan yang menampilkan item pengujian dengan jelas
    • Jika ini adalah “sistem home security lokal sepenuhnya”, saya penasaran apakah GPU dijalankan full load 24 jam
      Saya juga ingin tahu apakah ada kerusakan silikon saat dipakai dalam waktu lama
  • Saat ini dibutuhkan sekitar $2500 untuk menjalankan model lokal
    Menariknya, ketika orang tua saya membeli PC 166MHz pada 1995, harganya juga kurang lebih sama

    • Saya juga ingat pernah membeli PC seharga ribuan dolar pada era 80-an dan 90-an
      Setelah mengalami penurunan nilai barang elektronik secara langsung, sekarang saya jadi sangat sensitif terhadap harga
      Namun, karena perlambatan hukum Moore, mungkin harganya tidak akan turun secepat dulu
    • Pada 1989 saya membeli 386sx seharga $3800, yang kalau dinilai sekarang hampir setara $10,000
      Sulit dipercaya bahwa saat itu itu dianggap “value for money”
    • Model lokal teratas dalam benchmark, Qwen3.5-9B (Q4_K_M), adalah model 9B parameter dengan kuantisasi 4.5-bit
      Model itu berjalan baik bahkan di Mac Mini seharga $500
    • Untuk pemula, Mac Mini 16GB (<$499) saja sudah cukup
      Model-model kecil juga berjalan baik di M2 Mini
  • Uji prompt injection ini tampak kurang meyakinkan

    • Ini terutama dipakai untuk mendeteksi serangan man-in-the-middle
      Terima kasih sudah meninjaunya
  • Secara teknis ini bagus, tetapi belum ada fitur penerbitan sertifikat alarm untuk asuransi
    Dalam bisnis nyata, ini diperlukan agar bisa mendapat diskon asuransi atau kompensasi kerugian
    Pada akhirnya, hambatan terbesar justru regulasi dan compliance, bukan teknologinya

    • Betul, tampaknya standarnya sangat tinggi
  • Saya penasaran bagaimana sistem ini dibandingkan dengan Frigate
    Apakah ini sekadar layer di atas NVR, atau juga menangani perekaman berbasis deteksi gerakan?

    • Jika membeli Coral TPU untuk Frigate, banyak inferensi bisa dioffload dengan murah
    • Aegis mendukung integrasi kamera ONVIF, perekaman deteksi gerakan, dan pemahaman konteks berbasis VLM
      Rekaman dari kamera BLINK/RING bisa disimpan secara lokal dan digunakan sebagai memori berkelanjutan
  • Kedengarannya seperti bercanda, tetapi huruf S dalam AI berarti Security

  • Di masa depan, token mungkin dijual seperti trafik data, dan menjadi komoditas konsumsi sehari-hari