Mengindeks video setahun secara lokal dengan Gemma 4-31B di MacBook 2021 (swap 50GB)

(blog.simbastack.com)

1 poin oleh GN⁺ 2026-05-22 | 1 komentar | Bagikan ke WhatsApp

Hambatan utama arsip video bukanlah alat editing, melainkan ketidakmampuan untuk dicari, dan fokusnya adalah mengubah klip tanpa label menjadi indeks yang bisa ditanyai dalam bahasa Inggris
Dengan desain local-first, dibuat file sidecar .description.md di samping tiap klip, dan rating, pencahayaan, lokasi, transkrip, kata kunci, serta deskripsi prosa diekstrak dalam satu panggilan vision
Pipeline menggabungkan ffprobe, exiftool, Nominatim, ffmpeg, WhisperX, insightface, dan model vision untuk menghasilkan metadata, GPS, frame, transkrip, serta embedding wajah
MacBook Pro 16 inci 2021 M1 Max 64GB menjalankan Gemma 4 31B Q4 di LM Studio, dan selama pemrosesan massal swap sempat naik hingga 50.89GB
Skema terstruktur dan batasan enum mengurangi halusinasi, dan indeks skala besar bisa diproses dengan 31B lokal lalu hanya 10~20% kasus sulit yang dievaluasi ulang dengan model cloud

Titik awal masalah: pencarian, bukan editing

Selama tinggal hampir setengah tahun di Maasai Mara, video yang direkam dengan iPhone, DJI Pocket, drone, Nikon Z8, dan Ray-Ban Meta terus menumpuk, tetapi sebagian besar hanya tersimpan tanpa pernah dibuka lagi
Kanal sosial Mara Hilltop tidak berhenti selama 3 bulan karena kekurangan konten, melainkan karena kurangnya waktu editing
Dengan Claude Code dan Opus 4.5/4.6, pekerjaan pengembangan menjadi memungkinkan dengan eksekusi agen jangka panjang dan pekerjaan paralel, dan bersamaan dengan peluncuran akomodasi berbayar pertama KaribuKit, waktu untuk editing video pun makin berkurang
Solusi pertama yang terpikir adalah stack SaaS bulanan $140 yang menggabungkan Eddie AI, Higgsfield MCP, Submagic, dan Buffer, tetapi itu tidak cocok dengan bottleneck yang sebenarnya
Video AI generatif tidak cocok dengan brand perjalanan nyata, dan ketika tamu mengharapkan lokasi yang benar-benar ada, adegan AI yang salah representasi bisa merusak kepercayaan
Frekuensi posting yang realistis lebih dekat ke 2~3 kali per minggu, bukan 3~5 kali, jadi rencana awal sangat mungkin gagal sejak minggu kedua
DaVinci Resolve Studio yang sudah dimiliki, bersama IntelliSearch, Smart Bins, dan Voice to Subtitle di Resolve 21, sudah mencakup sekitar 70% fungsi yang ditawarkan Eddie
Komponen yang tersisa adalah struktur di mana Claude Code mengendalikan Resolve lewat DaVinci Resolve MCP open source, dan voiceover untuk klip informatif ditangani dengan ElevenLabs, sehingga biaya turun menjadi $22 per bulan

Bottleneck sebenarnya: indeks yang dibutuhkan sebelum editor AI

Editor video AI di pasaran mengasumsikan video sudah diberi label, padahal arsip nyata tersebar dengan nama seperti IMG_*.mov, DJI_*.mp4, atau Mara june 2024 backup final FINAL
Eddie memang bisa mencari transkrip, tetapi tidak bisa menemukan adegan seperti “gajah di atas bukit saat golden hour” dalam arsip tanpa label
Hanya dari nama file, folder induk, koordinat GPS, dan teks transkrip, tidak mungkin mengetahui isi visual seperti “wide shot saat matahari terbit dengan jerapah di dalam frame”
Tuas yang sesungguhnya bukan berada di atas editor, melainkan di tahap sebelumnya, dan yang dibutuhkan terlebih dahulu adalah indeks yang mengubah arsip menjadi sesuatu yang bisa ditanyai dalam bahasa Inggris

Desain indexer local-first

Struktur keseluruhannya mirip dengan build AI-native untuk klien yang dibuat di SimbaStack, tetapi karena penulis sekaligus menjadi klien dan engineer, pengambilan keputusan bisa lebih cepat
Empat batasan
- Harus local-first
  - Arsip Mara Hilltop ada di SSD fisik dan video pribadi ada di laptop, sehingga mengunggah ribuan klip multi-GB ke cloud tidak masuk akal baik dari sisi biaya maupun privasi
- Menginginkan file sidecar alih-alih DB terpusat
  - .description.md ditempatkan di samping setiap klip agar bisa di-grep sebagai teks biasa
  - Bahkan jika indexer rusak di kemudian hari, file tetap ada, dan saat dipindahkan antar drive, datanya ikut berpindah bersama file
- Semua informasi yang dibutuhkan harus diambil dalam satu panggilan vision
  - Karena vision pass untuk frame yang diekstrak adalah pekerjaan mahal, skema sejak awal dibuat luas agar informasi yang mungkin ingin diketahui nanti juga ikut diambil pada panggilan pertama
  - Item yang disertakan mencakup rating, technical quality, lighting, time of day, color palette, audio quality, people count, keywords, faces, location, transcript, prose description, dan lain-lain
- Harus bisa memilih tiga backend vision
  - Default-nya adalah CLI dari langganan Claude Max, tanpa biaya marginal
  - Saat butuh kecepatan, digunakan Anthropic API
  - Untuk pemrosesan massal, digunakan backend lokal yang mengarah ke LM Studio, dan backend lokal inilah yang menjadi inti

Pipeline pemrosesan per klip

Membaca metadata dengan ffprobe
Membaca GPS latitude, longitude, dan altitude dengan exiftool, dan ini bekerja sama baiknya pada video iPhone, DJI Pocket, maupun drone
Melakukan reverse geocoding dengan Nominatim, yang gratis, memiliki rate limit, dan tidak memerlukan API key
Mengekstrak 5 frame berukuran 1920px pada interval merata dengan ffmpeg
Melakukan transkripsi dengan WhisperX, termasuk word-level alignment dan speaker diarization dari pyannote, serta mendukung 97 bahasa seperti Hindi, English, dan Swahili
Mendeteksi wajah dengan insightface, lalu menyimpan embedding ArcFace 512 dimensi ke DB wajah SQLite terpusat agar nantinya bisa melakukan pencarian orang di seluruh arsip
Model vision membaca frame, sebagian transkrip, dan konteks folder, lalu mengembalikan YAML frontmatter dan deskripsi prosa
Hasil akhir ditulis sebagai sidecar .description.md di samping klip
Klip nyata IMG_1103.MOV dari Mara Hilltop tidak memberi konteks dari nama filenya saja, tetapi sidecar yang dibuat Gemma mencakup setup tenda safari, pan kamera dari interior ke sabana, jenis shot, dan kemungkinan penggunaan seperti marketing reel serta B-roll travel vlog
Di tingkat folder, selain sidecar di samping tiap klip, juga dibuat _INDEX.json dan _INDEX.md di bagian atas untuk grep cepat dan pengiriman ke LLM
Implementasi keseluruhannya adalah skill Claude Code sekitar 1.400 baris Python, yang sebagian besar ditulis Claude Code, sementara peran manusia adalah arsitektur, prompt, desain skema, dan triage bug

Model lokal 31B yang dijalankan di MacBook lama

MacBook Pro 16 inci M1 Max 64GB RAM yang dibeli pada 2021 awalnya bukan untuk LLM, melainkan agar bisa menjalankan Chrome tabs, DaVinci Resolve, Slack, Discord, dan Drive secara bersamaan
Lima tahun kemudian, laptop yang sama menjalankan Gemma 4 31B Q4 di LM Studio untuk memproses arsip video setahun penuh
Di LM Studio, model 28.40GB dimuat ke memori, dan REST API berjalan di 127.0.0.1:1234
Selama pemrosesan massal, 64GB RAM saja tidak cukup, dan menurut Activity Monitor penggunaan swap sempat mencapai 50.89GB
Kondisi ini memang bukan sesuatu yang nyaman dipertahankan di hari kerja biasa, tetapi masih dianggap dapat diterima untuk dipaksa bekerja keras sepanjang akhir pekan
Laptop menjadi panas dan kipas berputar kencang, tetapi tetap terus membuat sidecar sambil pekerjaan lain berjalan
MacBook Pro 16 inci M1 Max menunjukkan bahwa bahkan hardware berusia 5 tahun masih punya ruang untuk menjalankan model 31B parameter pada kecepatan yang masih bisa dipakai, dan jika LLM lokal makin efisien, kemungkinan masih bisa digunakan 3~5 tahun lagi

Empat bug dan pelajaran yang didapat

Perubahan API speaker diarization di WhisperX 3.8
- Di WhisperX 3.8, whisperx.DiarizationPipeline dipindahkan ke submodul whisperx.diarize
- Argumen konstruktor use_auth_token diubah menjadi token mengikuti pyannote 3.x
- Solusinya adalah signature introspection
- Skrip lebih dulu mencoba token=, lalu jika konstruktor melempar TypeError, fallback ke use_auth_token=
- Saat memanggil library AI yang cepat berubah, pemanggilan konstruktor yang defensif adalah asuransi murah
Claude CLI mengembalikan error izin seolah respons sukses
- Pada pengujian pertama backend CLI, keempat sidecar semuanya kembali dengan teks yang sama: “I need permission to read the image frames...”
- Exit code adalah 0 dan output tidak kosong, sehingga lolos dari pengecekan sukses pada skrip
- Dalam mode non-interaktif, tanpa --permission-mode bypassPermissions, Claude CLI mengembalikan teks penolakan izin sebagai body respons alih-alih prompt
- Solusinya adalah menambahkan flag tersebut, serta pengecekan defensif yang memperlakukan respons pendek berisi “I need permission” sebagai error, bukan deskripsi
- Saat memperlakukan tool AI sebagai skrip, alur izin non-interaktif bisa menyembunyikan kegagalan diam-diam
Gemma mengembalikan people_count: "many"
- Prompt vision memang menginstruksikan integer or the string "many" if >10, jadi Gemma sebenarnya mengikuti instruksi dengan benar
- Bug-nya bukan pada model, melainkan pada desain skema
- Setelah diperbaiki, model diminta memperkirakan bilangan bulat 0~99, dan respons "many" yang lama dipaksa dikonversi di parser
- Field skema sebaiknya tidak dibuat union seperti int atau string tertentu; kunci itu harus selalu integer atau selalu string agar consumer downstream tetap sederhana
Klip motor goyang dibuang secara keliru
- Prompt cull awal terlalu dekat dengan standar portofolio fotografi, sehingga motion blur berat, soft focus, dan guncangan dinilai sebagai cull
- Klip motor malam handheld yang diambil saat perjalanan di Spanyol juga ditandai untuk dibuang, padahal blur itulah yang membentuk suasana kenangan tersebut
- Kriteria cull lalu diubah dari “pengambilan gambar yang tidak sempurna” menjadi “bukan rekaman yang benar-benar layak disimpan”
- Target yang dibuang dipersempit ke klip seperti lensa tertutup, video di dalam saku, klip uji 2 detik, atau exposure yang benar-benar hancur
- Arsip foto perlu cull yang agresif, sedangkan kenangan video perlu cull yang lebih longgar, dan bahkan dengan skema yang sama pun mode-nya harus dibedakan dengan jelas

Kesimpulan dari skema terstruktur dan model lokal

Batasan enumerasi mengurangi halusinasi
- Gemma 4 E4B pernah mendeskripsikan foto coworking-space yang diambil malam hari sebagai “brightly lit, abundant natural light, floor-to-ceiling windows”, padahal di luar jendela benar-benar gelap malam
- Saat 31B diberi skema terstruktur dan diminta memilih salah satu dari golden_hour | bright_daylight | overcast | dim_interior | nighttime | mixed | unclear, baik thinking-off maupun thinking-on sama-sama kembali ke nighttime
- Dalam prosa terbuka, model bisa membuat penjelasan palsu, tetapi dalam enum ia tidak bisa menciptakan nilai baru dan hanya bisa salah memilih
- Skema terbukti lebih aman daripada instruksi
31B lokal dan prompt terstruktur memperkecil jarak dengan cloud
- Gemma 4 31B Q4 thinking-off, saat memakai skema terstruktur, menghasilkan output yang pada banyak klip uji sulit dibedakan dari Sonnet 4.6
- Premi model cloud bernilai untuk 10~20% klip yang sulit
- Untuk pekerjaan massal seperti mengindeks ribuan klip semalaman, lebih masuk akal menjalankannya secara lokal, lalu hanya klip yang ditandai review oleh model lokal yang dievaluasi ulang di cloud dalam struktur dua tahap yang skalabel
Editor video AI bersaing di layer yang terlalu atas
- Layer yang bernilai bukan editor, melainkan indeks yang bisa dicari
- Jika bisa membuat kueri bahasa alami seperti “klip interior handheld di Mara, golden hour, ada orang, dan lebih panjang dari 8 detik”, maka editor di atasnya menjadi jauh lebih sederhana
- Pasar editor AI video sedang bersaing pada layer permukaan di atas indeks yang sebenarnya belum ada, sambil melewati prasyarat berupa indeks itu sendiri

Langkah berikutnya dan keterbatasan

Langkah selanjutnya adalah membuat editor yang memakai Claude Code sebagai orchestrator, DaVinci Resolve MCP untuk membuat cut, dan ElevenLabs voiceover untuk klip informatif
Voice clone memiliki batasan yang jelas
- Hanya digunakan untuk konten utilitas seperti petunjuk arah, penjelasan kamar, versi multibahasa, atau informasi faktual yang memang layak disampaikan langsung
- Tidak digunakan untuk ulasan atau pesan dari pendiri
- Pada 2026, regulasi terkait kewajiban pengungkapan kemungkinan menjadi kenyataan, dan kepercayaan pada brand hospitality mudah hilang
Dengan adanya indeks, tidak perlu lagi scrub manual video DJI Pocket 47GB hanya untuk mencari wide shot saat matahari terbit
Saat ini, video setahun penuh Mara Hilltop sudah bisa ditanyai dalam bahasa Inggris di laptop berusia 5 tahun, dengan biaya berupa waktu akhir pekan dan swap 50GB
Tahun-tahun lain yang masih tersimpan di SSD lama menjadi target pemrosesan berikutnya
Kanal sosial Mara Hilltop sendiri masih belum hidup kembali
- Indexer hanya menyelesaikan masalah menemukan klip yang tepat
- Editor yang mengubahnya menjadi reel jadi adalah separuh sisanya, dan jika berhasil akan ada tulisan lanjutan, sedangkan jika gagal akan dibahas alasannya
Jawaban yang benar mungkin saja adalah mempekerjakan orang
- Menemukan editor dengan kepekaan yang hangat dan observasional yang cocok untuk Mara Hilltop bisa jadi lebih sulit daripada menulis skill lain
- Reel ala MTV yang terlalu dipotong-potong bukan arah yang diinginkan
Kodenya telah dipublikasikan di github.com/Simbastack-hq/framedex dan menerima PR serta issue

1 komentar

GN⁺ 2026-05-22

Komentar Hacker News

Sepertinya Claude salah memilih URL untuk dibagikan saat menulis postingan. Kecuali folder home memang diekspos ke luar, ~/.claude/skills/video-index/ tidak bisa diakses, jadi penasaran apakah kamu bisa membagikan file Skill
- Ini seperti melihat versi modern dari situasi klasik ketika teman yang baru mulai belajar pemrograman berkata, “Aku bikin web app, mau lihat? Ini dia: http://localhost:8080”
- Wah, itu salahku. Sedang kuperbaiki sekarang, dan aku juga bisa membagikan file Skill. Kasih aku 5 menit
Pembaruan: aku buru-buru membuat repositori ini - https://github.com/Simbastack-hq/framedex
Lisensinya MIT, dan aku belum sempat mengujinya dengan benar setelah digeneralisasi. Aku akan segera meninjaunya dengan baik dan menambahkan pembaruan lagi
Dua TODO besarnya adalah, 1) memakai indeks ini dan bantuan Claude agar pengeditan video di DaVinci Resolve jadi lebih cepat, 2) saat ini baru memproses video, tetapi akan diperluas agar juga bisa memahami ribuan gambar diam di kamera
Aku kurang paham kenapa perlu swapping sebanyak itu. Kalau mempertimbangkan bandwidth memori yang dibutuhkan, itu bisa cukup cepat mengurangi umur SSD
Model Gemma 4 31B yang dikuantisasi 4-bit seharusnya sekitar 19GiB, bukan 28.4GiB [1]. Aku tidak terlalu sering memasukkan gambar, jadi tidak tahu berapa banyak memori tambahan yang dibutuhkan saat dimasukkan ke konteks, tetapi sepertinya tidak akan lebih dari 10GiB
Dari Activity Monitor terlihat ada beberapa aplikasi Electron juga berjalan di atas Handy dan VM untuk Claude Code yang tampaknya memuat modelnya, jadi penyebab sebenarnya kemungkinan di sana. Saat laptop mulai benar-benar menggerus disk, aplikasi-aplikasi seperti itu akan macet, jadi rasanya tidak terlalu berguna
[1] https://huggingface.co/mlx-community/gemma-4-31b-it-4bit
- Betul. Saat mengambil screenshot aku juga sedang melakukan pekerjaan lain di laptop, jadi sebenarnya bisa saja dirapikan
  Meski tetap agak tersendat, aku cukup terkesan karena aku masih bisa terus mengerjakan hal lain meski Brave Browser sedang membuka banyak tab
Penasaran apakah kamu tahu bahwa ini sudah ada, cukup bagus, dan tidak sampai memakan swap 50GB
https://github.com/iliashad/edit-mind
Keren. Andai aku punya RAM yang cukup untuk menjalankan model lokal. Selama beberapa minggu terakhir aku membuat sesuatu yang sangat mirip, tetapi versiku berupa aplikasi Electron lokal yang memakai Whisper dan ffmpeg, lalu aku menambahkan pencarian semantik dan embedding untuk bisa “mengobrol” dengan video
Analisis visual, tagging, dan chat video berkomunikasi dengan Claude. Aku penasaran apakah proyek ini mengirim satu gambar saja. Aku menemukan beberapa gambar berbeda untuk tiap video dengan algoritma deteksi adegan kustom, lalu mengirimkannya ke Claude dalam satu permintaan bersama subtitle. Itu jelas bagian yang paling mahal. Dengan Sonnet 4.6 untuk analisis dan Haiku untuk tagging, biayanya sekitar 1 dolar per jam video, dan di lokal sepertinya akan lambat
- Bukan satu gambar, melainkan 5 frame per klip yang dikirim dalam satu permintaan bersama sebagian subtitle. Jadi bagian memasukkan beberapa frame dan subtitle sekaligus itu caranya sama
  Tapi cara memilih frame adalah titik lemahnya. Deteksi adegan pasti akan membantu, dan itu prioritas nomor satu di roadmap. Aku penasaran apakah kamu bisa membagikan bagaimana kamu memilih frame dalam deteksi adegan
  Aku memilih untuk tidak memakai pencarian vektor, dan tetap sederhana dengan file Markdown biasa yang lebih portabel. Bahkan kalau SSD dipindahkan, pengetahuannya ikut pindah bersama file, tidak ada indeks yang perlu disinkronkan, dan teks biasa punya keunggulan bisa bertahan lebih lama daripada alatnya. Meski begitu, arah lain yang kamu sebutkan juga layak dieksplorasi
- Kalau ingin menekan biaya, coba pakai model-model di OpenRouter. Gemma 4 31B harganya 0.12 dolar per 1 juta token input dan 0.37 dolar per 1 juta token output, sedangkan Haiku 1 dolar per 1 juta token input dan 5 dolar per 1 juta token output
  Ada juga pilihan lain yang bagus. Gemini 3.1 Flash Lite sangat bagus untuk pekerjaan seperti ini. Tapi bukan Gemini 3.5 Flash. Harganya kurang menarik
  https://openrouter.ai/google/gemma-4-31b-it
Ada dua pertanyaan
1. Aku penasaran indeks pencariannya itu apa
2. Di contoh description.md ada entri seperti faces -> cluster_id. Apakah ini berasal dari indeks wajah DaVinci Resolve? Untuk koleksi foto, informasi seperti wajah+nama dan lokasi itu sangat penting, tetapi LLM umum biasanya tidak terlalu bagus menangani hal seperti itu
- 1. Itu cuma file sidecar .description.md berupa teks biasa yang ditempatkan di samping video untuk tiap klip
    Nantinya bisa dikueri saat brainstorming dengan Claude, seperti “Aku ingin membuat video kamar premium di lodge,” lalu Claude bisa menelusuri file-file itu dan mengetahui video mana yang akan membantu
    Ada juga file tingkat root folder yang mengumpulkan deskripsi teks agar mudah dicari. Aku menempelkan gambar contoh di blog - https://blog.simbastack.com/_media/gvcycx2n.png
  2. Itu bukan diambil dari DaVinci Resolve. Framedex adalah pipeline mandiri dan Resolve tidak terlibat
    Wajah berasal dari insightface. Ia dideteksi dengan RetinaFace dari paket open-source buffalo_l, dan dijalankan secara lokal di CPU. Wajah dideteksi dan dibuat embedding-nya dari sample frame tiap klip, lalu sebuah baris ditulis ke ~/.framedex/faces.db
    Sejujurnya, bagian ini aku tahu memang menumpuk di DB lokal, tetapi aku belum sempat menguji seberapa baik hasilnya. Aku akan segera mengeceknya dengan benar
    Secara lebih luas, itulah sebabnya framedex sengaja tidak menyerahkan penanganan wajah atau lokasi ke LLM. Wajah ditangani dengan embedding insightface / ArcFace sehingga perbandingan antar-klip bisa dilakukan secara deterministik. Model visual hanya memberi perkiraan jumlah orang dan tidak berusaha mengidentifikasi siapa mereka
    Lokasi ditangani lewat EXIF GPS via exiftool dan reverse geocoding Nominatim/OpenStreetMap. Itu metadata yang kuat, bukan tebakan
    LLM hanya mengerjakan hal-hal yang memang dikuasainya: deskripsi adegan, suasana, jenis shot, kata kunci, serta rating simpan/tinjau/buang. Bagian rating terakhir itu memang masih bisa diperdebatkan
Aku pernah mencoba menjalankan Gemma di ThinkPad keluaran 2015 untuk melakukan hal serupa. Untungnya memorinya bisa di-upgrade; kalau tidak, itu pasti cukup menyakitkan
Aku tidak akan bohong, saat menjalankan llama.cpp kipasnya berputar pada kecepatan maksimum. Tapi tetap jalan, dan pekerjaannya selesai
- Ungkapan “kipas berputar pada kecepatan maksimum” selalu terasa agak membingungkan bagiku. Kalau tujuannya menyelesaikan komputasi secepat mungkin, bukankah pada akhirnya memang akan menghasilkan dan membuang lebih banyak panas?
  Kadang itu tampaknya dipakai sebagai kiasan untuk “menggunakan sumber daya 100%”, dan mungkin itu maksudnya di sini, tetapi di konteks lain jelas pernah dipakai sebagai keluhan sungguhan
Aku rasa sebagian besar host Airbnb tidak akan setuju dengan pernyataan bahwa “video AI generatif tidak punya tempat untuk brand perjalanan yang autentik”
Soal “disalib di TripAdvisor” juga, aku benar-benar tidak tahu bagaimana host Airbnb yang memasang listing palsu bisa tetap bertahan
- Sejujurnya aku juga banyak memikirkan masalah ini. Aku mengelola safari lodge, tetapi aku tidak ingin bergerak ke arah video AI berkualitas rendah
  Di sisi lain, video asli butuh waktu dan memperlambat seluruh proses
Menurutku aplikasi AI B2C punya keterbatasan struktural karena sulit membangun konteks yang dipersonalisasi
Kalau model lokal yang kompeten bisa melakukan pengumpulan konteks, riset, tagging, dan sebagainya dari nol dalam skala besar, itu bisa jadi terobosan besar di sini
- Aku membuat aplikasi AI B2C yang sepenuhnya lokal untuk mengganti nama file secara kontekstual dengan AI, dan gratis
  Kamu masukkan beberapa screenshot, lalu aplikasi itu mencoba memberi nama cerdas berdasarkan isinya. Hal yang sama berlaku untuk video, PDF, dan lain-lain
  Tapi seperti katamu, aku merasa Apple pada akhirnya akan langsung menjadikannya fitur bawaan, jadi aku bahkan tidak mencoba memungut bayaran
  https://finalfinalreallyfinaluntitleddocumentv3.com/
- Sepenuhnya setuju. Di sini aku dan Claude bisa melakukan riset serta trial-and-error itu bersama sambil brainstorming
  Tapi menurutku hanya soal waktu sampai agen menjadi cukup pintar sehingga teman-teman nonteknis juga cukup berkata, “Tolong rapikan folder video ini supaya bisa dipahami,” lalu semuanya beres dengan sendirinya
- Aku penasaran apakah yang benar-benar menyelesaikan ini adalah model lokal. Bukankah API model yang tidak menyimpan state juga bisa memberi manfaat yang sama? Aku paham lokal bisa jadi “lebih murah” tergantung pemakaian, tetapi kita sudah lama rela membayar premium untuk menyewa penyimpanan dan sumber daya komputasi di cloud

Mengindeks video setahun secara lokal dengan Gemma 4-31B di MacBook 2021 (swap 50GB)

Titik awal masalah: pencarian, bukan editing

Bottleneck sebenarnya: indeks yang dibutuhkan sebelum editor AI

Desain indexer local-first

Empat batasan

Pipeline pemrosesan per klip

Model lokal 31B yang dijalankan di MacBook lama

Empat bug dan pelajaran yang didapat

Perubahan API speaker diarization di WhisperX 3.8

Claude CLI mengembalikan error izin seolah respons sukses

Gemma mengembalikan people_count: "many"

Klip motor goyang dibuang secara keliru

Kesimpulan dari skema terstruktur dan model lokal

Batasan enumerasi mengurangi halusinasi

31B lokal dan prompt terstruktur memperkecil jarak dengan cloud

Editor video AI bersaing di layer yang terlalu atas

Langkah berikutnya dan keterbatasan

Bacaan terkait

1 komentar

Komentar Hacker News

Gemma mengembalikan `people_count: "many"`