AI lokal harus menjadi standar

(unix.foo)

13 poin oleh GN⁺ 8 jam lalu | 1 komentar | Bagikan ke WhatsApp

Alur menambahkan API OpenAI atau Anthropic ke fitur aplikasi memang sudah makin umum, tetapi ketergantungan pada model AI yang di-host di cloud membuat fitur bisa berhenti hanya karena gangguan server atau masalah pembayaran, sekaligus memperbesar beban privasi
Perangkat modern memiliki kemampuan komputasi on-device yang kuat seperti Neural Engine, tetapi sebagian besar dibiarkan menganggur sambil hanya menunggu respons server
Misalnya, dengan memanfaatkan framework FoundationModels milik Apple, fitur AI seperti peringkasan, klasifikasi, dan ekstraksi dapat diimplementasikan langsung di perangkat tanpa server
The Brutalist Report native iOS client-nya menghasilkan ringkasan artikel secara on-device lewat API model lokal Apple, sehingga tidak perlu melewati server, prompt dan log pengguna, akun vendor, maupun catatan kaki soal penyimpanan konten
Model lokal mungkin tidak sepintar model cloud, tetapi bisa cukup untuk pekerjaan transformasi data seperti peringkasan, klasifikasi, ekstraksi, penulisan ulang, dan normalisasi; model cloud sebaiknya dipakai hanya saat benar-benar diperlukan

Masalah ketergantungan pada AI cloud

Tren pengembang menambahkan pemanggilan API OpenAI atau Anthropic ke fitur aplikasi tanpa banyak pertimbangan terus meluas
Pendekatan ini membuat perangkat lunak menjadi rapuh, melanggar privasi, dan pada dasarnya tidak stabil
- Aplikasi bisa berhenti berfungsi ketika server bermasalah atau kartu kredit kedaluwarsa
Begitu konten pengguna di-stream ke penyedia AI pihak ketiga, sifat produk itu sendiri berubah
- Muncul persoalan retensi data, persetujuan, audit, kebocoran, permintaan pemerintah, dan penggunaan sebagai data pelatihan
Stack menjadi lebih rumit karena semuanya bergantung pada kondisi jaringan, uptime vendor eksternal, rate limit, pembayaran akun, dan kondisi backend sendiri
Akibatnya, satu fitur UX berubah menjadi sistem terdistribusi yang menimbulkan biaya
Mengirim ke cloud sesuatu yang sebenarnya bisa diproses secara lokal adalah langkah yang merugikan diri sendiri

Mengapa perangkat lokal harus dimanfaatkan

Silikon di perangkat yang ada di saku kita saat ini jauh lebih cepat dibanding 10 tahun lalu, dan Neural Engine khusus sebagian besar menganggur
- Sementara itu, terus menunggu respons JSON dari server farm di Virginia adalah struktur yang tidak masuk akal
Tujuannya bukan “AI di mana-mana”, melainkan perangkat lunak yang berguna
Jika sebuah fitur bisa diproses secara lokal, maka memilih ketergantungan eksternal sendiri adalah kerugian yang tidak perlu

Ringkasan on-device di The Brutalist Report

The Brutalist Report adalah layanan agregator berita yang terinspirasi gaya web era 1990-an
Saat baru-baru ini membuat native iOS client, tujuan desainnya adalah mempertahankan pengalaman membaca berita yang padat informasi
Klien iOS tersebut mencakup daftar headline berkontras tinggi, reader mode yang menghapus elemen yang membuat web sulit dibaca, serta tampilan “intelligence” untuk meringkas artikel secara opsional
Hal yang paling penting adalah ringkasan itu dibuat on-device lewat API model lokal Apple
Tidak perlu melewati server, tidak perlu prompt atau log pengguna, akun vendor, atau catatan kaki seperti “konten disimpan selama 30 hari”
Sudah terlalu dianggap wajar bahwa semua penggunaan AI harus terjadi di sisi server, dan membalik keadaan ini memerlukan upaya tingkat industri
Beberapa use case memang membutuhkan kecerdasan yang hanya bisa diberikan model yang di-host di cloud, tetapi tidak semua use case seperti itu, sehingga perlu penilaian yang hati-hati

Alat AI lokal di ekosistem Apple

Di ekosistem Apple, selama setahun terakhir ada investasi agar pengembang dapat dengan mudah memanfaatkan model AI lokal bawaan

Alur dasarnya adalah mengimpor FoundationModels, memeriksa ketersediaan SystemLanguageModel.default, lalu menyusun prompt dengan LanguageModelSession untuk menerima respons

import FoundationModels  

let model = SystemLanguageModel.default  
guard model.availability == .available else { return }  

let session = LanguageModelSession {  
  """  
  Provide a brutalist, information-dense summary in Markdown format.  
  - Use **bold** for key concepts.  
  - Use bullet points for facts.  
  - No fluff. Just facts.  
  """  
}  

let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
  articleText  
}  

let markdown = response.content

Untuk konten panjang, teks biasa bisa dibagi menjadi unit sekitar 10.000 karakter, membuat catatan ringkas “facts only” pada tiap chunk, lalu menggabungkan ringkasan akhir dalam lintasan kedua
Pekerjaan seperti ini sangat cocok untuk model lokal
- Data masukan adalah konten yang memang sudah sedang dibaca pengguna, jadi sudah ada di perangkat
- Output-nya ringan
- Diproses cepat dan privat
- Tugasnya adalah merangkum halaman yang baru saja dimuat pengguna, bukan menciptakan pengetahuan dunia yang baru, jadi tidak membutuhkan kecerdasan tingkat supermanusia
AI lokal bersinar ketika peran model bukan menelusuri seluruh semesta, melainkan mentransformasikan data yang dimiliki pengguna

Cara membangun kepercayaan

Fitur AI seperti ringkasan email, ekstraksi to-do dari catatan, dan klasifikasi dokumen adalah fitur yang diinginkan orang tetapi belum mereka percayai
Pendekatan cloud yang umum mengubah semua fitur ini menjadi masalah kepercayaan: “apakah aman mengirim data ke server?”
AI lokal mengubah struktur itu dengan memproses data yang sudah ada di perangkat, tepat di tempatnya
Kepercayaan pengguna tidak dibangun dengan kebijakan privasi 2.000 kata
Kepercayaan dibangun dengan membuat struktur yang memang tidak memerlukan kebijakan privasi seperti itu sejak awal

Output terstruktur dan AI berbasis tipe

Salah satu keputusan bagus Apple belakangan ini adalah memindahkan “AI output” dari gumpalan teks tanpa struktur menjadi data bertipe
Alih-alih pendekatan “minta JSON ke model lalu berharap hasilnya benar”, pola yang lebih baru dan lebih baik adalah mendefinisikan Swift struct yang mewakili hasil yang diinginkan

Tiap field diberi panduan bahasa alami, lalu model diminta menghasilkan instance dari tipe tersebut

import FoundationModels  

@Generable  
struct ArticleIntel {  
  @Guide(description: "One sentence. No hype.") var tldr: String  
  @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
  @Guide(description: "Comma-separated keywords.") var keywords: [String]  
}  

let session = LanguageModelSession()  
let response = try await session.respond(  
  to: "Extract structured notes from the article.",  
  generating: ArticleIntel.self  
) {  
  articleText  
}  

let intel = response.content

Dengan pendekatan ini, UI tidak perlu mengorek bullet dari Markdown atau berharap model mengingat skema JSON
Aplikasi bisa menerima tipe nyata dengan field nyata lalu merendernya secara konsisten
Ini menghasilkan output terstruktur yang benar-benar dapat digunakan aplikasi, dan seluruh prosesnya berjalan secara lokal
Bukan sekadar antarmuka yang nyaman, melainkan peningkatan kualitas engineering
Inilah yang membuat AI di aplikasi local-first berfungsi bukan sebagai “fitur keren”, melainkan sebagai “subsystem yang bisa dipercaya”

Tanggapan terhadap “model lokal kurang pintar”

Memang benar model lokal tidak sepintar model cloud, tetapi untuk sebagian besar fitur aplikasi hal itu tidak relevan
Sebagian besar fitur tidak menuntut kemampuan menulis Shakespeare atau menjelaskan mekanika kuantum, melainkan kemampuan untuk secara andal melakukan peringkasan, klasifikasi, ekstraksi, penulisan ulang, dan normalisasi
Untuk pekerjaan seperti ini, model lokal sudah cukup andal
Jika model lokal dipakai sebagai pengganti seluruh internet, hasilnya memang mengecewakan; tetapi jika dipakai sebagai “transformator data” di dalam aplikasi, kita justru akan bertanya mengapa data itu pernah dikirim ke server
Model cloud sebaiknya dipakai hanya saat benar-benar diperlukan, dan data pengguna harus tetap berada di tempatnya
Saat menggunakan AI, yang dibutuhkan bukan sekadar menempelkan chat box, melainkan memanfaatkannya sebagai subsystem nyata dengan output bertipe dan perilaku yang dapat diprediksi

Privasi dan pembangunan kepercayaan

Ada banyak fitur AI yang diinginkan orang tetapi tidak mereka percayai, seperti ringkasan email, ekstraksi action item dari catatan, dan klasifikasi dokumen
Pendekatan cloud mengubah semuanya menjadi eksperimen kepercayaan: “tolong kirim data Anda ke server, kami akan menanganinya dengan baik”
AI lokal mengubah ini secara mendasar — datanya sudah ada di perangkat, dan diproses langsung di perangkat
Kepercayaan dibangun bukan dengan menulis kebijakan privasi 2.000 kata, melainkan dengan struktur yang sejak awal tidak memerlukan kebijakan semacam itu

1 komentar

GN⁺ 8 jam lalu

Komentar Hacker News

Perasaan pengguna arus utama terhadap AI lokal saat ini mirip dengan cara mereka memandang open source beberapa dekade lalu
Dalam beberapa produk, solusi berbayar jauh lebih unggul sehingga open source sering diabaikan sepenuhnya, dengan suasana seperti, “kenapa repot-repot?”
Lalu muncullah SaaS dan platform yang membuat pengguna terikat, dan sekarang makin jelas bahwa penilaian itu pada umumnya keliru
Tingkat ketergantungan pada Anthropic dan OpenAI dalam coding sudah tidak masuk akal, tetapi banyak orang tidak peduli atau hanya berharap Tiongkok tidak berhenti merilis bobot terbuka
Model bisnis untuk bobot terbuka masih sangat baru, bercampur dengan tarik-menarik kekuatan antara negara dan lembaga riset, dan uang dalam jumlah absurd bergerak tanpa pengawasan nyata dari mayoritas orang
Sekarang nilai yang luar biasa besar terbuka bagi hampir semua orang, tetapi ini adalah pertaruhan berbahaya yang bisa berhenti tanpa peringatan karena alasan di luar kendali kita
- Saya tidak tahu apa yang sebenarnya menghalangi orang untuk terus menjalankan LLM bobot terbuka terbaik yang ada saat ini di perangkat keras konsumen
  Untuk 95% penggunaan, itu sudah cukup memadai, dan tidak punya masa kedaluwarsa
  “Risikonya” hanya tidak bisa memakai model generasi berikutnya, dan dampaknya tampak sangat kecil
- Saya tidak tahu apa model bisnis AI bobot terbuka sebenarnya, dan menurut saya praktis tidak ada
  Paling banter hanya berfungsi sebagai iklan untuk menjual model yang lebih canggih
  Perbedaan besar dengan open source adalah Anda tidak bisa melatih LLM hanya dengan waktu luang dan kemauan
  Anda butuh banyak data dan sumber daya komputasi yang sangat besar
  Dalam hal ini saya berharap saya salah, dan saya jauh lebih suka jika masa depan bergerak ke arah bobot terbuka
- Menurut saya ini seharusnya bukan dikotomi AI lokal versus AI cloud
  AI lokal harus diperlakukan sebagai produk tersendiri, mengerjakan hal-hal yang memang tidak butuh AI cloud secara lokal, lalu memakai AI cloud sebagai cadangan, dan itu akan sangat menurunkan biaya
- Saya menunggu pemerintah AS membuat AI lokal versinya sendiri
  Karena dibiayai pajak, ada kemungkinan pada akhirnya akan dirilis sebagai open source, dan NSA punya data internet puluhan tahun, jadi jika dilatih dengan itu, bobot terbuka bisa menjadi sebagus model milik perusahaan mana pun
- Ketika biaya menjadi faktor penting, atau ketika opsi gratis tapi lebih lemah menjadi menarik dan mudah diakses, misalnya seperti agen on-device dengan pengalaman ala Apple, pengguna sudah cukup banyak bergeser ke lokal
  Kalau lihat hal seperti menghapus latar belakang foto atau OCR PDF, hampir tidak ada orang yang memakai layanan berbayar untuk hal-hal seperti itu dalam penggunaan sehari-hari
Momen itu akan datang, dan tidak terlalu jauh
Arahnya sudah jelas. Awalnya LLM berkinerja baik hanya bisa dijalankan di pusat data besar, sekarang jelas sudah sampai di tingkat beberapa server dengan beberapa kartu H100, dan terus bergerak ke arah “MacBook Pro atau Strix Halo dengan VRAM 128GB”
Dalam setahun ke depan, pola “merencanakan dengan LLM jarak jauh yang mahal, lalu mengeksekusi dengan LLM lokal yang lambat tapi tetap lebih cepat dari manusia” akan menjadi standar di perusahaan, dan pelan-pelan akan bergeser menjadi “semua cukup dilakukan dengan LLM lokal”
Pada akhirnya akan muncul keseimbangan seperti cloud tradisional: host sendiri, atau membayar untuk fleksibilitas dan kecepatan
Pertanyaannya adalah seberapa besar hosting lokal akan mengakhiri gelembung panas sumber daya komputasi saat ini, dan apa artinya bagi pasar
- Titik itu sebenarnya sudah tiba sekarang
  Saya menjalankan Qwen dan Gemma yang sudah dikuantisasi di PC gaming berusia 3 tahun yang lumayan bagus, kira-kira RTX 3080 12GB dan RAM 32GB
  Memang lambat dan context window-nya kecil, tetapi dengan runtime yang tepat, itu bisa menelusuri dan mengategorikan foto perjalanan
  Bisa melakukan OCR struk dan merangkum pengeluaran, menjawab pertanyaan sederhana, menganalisis kode, dan bahkan menulis kode ketika konteks yang dibutuhkan sedikit
  Kalau mau repot mengurus integrasi VS Code, sepertinya autocomplete yang lumayan juga bisa dibuat
  Menurut saya “MacBook Pro atau Strix Halo dengan VRAM 128GB” adalah konfigurasi minimum yang layak untuk coding ala agen
  Hanya saja saat ini keadaannya justru terbalik. Versi cloud beberapa orde magnitudo lebih murah daripada hosting sendiri, karena melalui berbagi, pemanfaatan server bisa jauh lebih tinggi
  Jika perusahaan menghabiskan 500 ribu dolar untuk perangkat yang menjalankan GLM 5.1, mereka memang mendapatkan keamanan data, fleksibilitas, dan bebas sensor, tetapi dibandingkan biaya kursi Anthropic itu terlalu mahal
- Dampak terbesar model lokal mungkin sekadar mencegah inferensi jarak jauh menjadi satu-satunya pilihan
Tepat beberapa baris di bawah tulisan itu, orang-orang heboh karena Chrome memasukkan model LLM lokal untuk inferensi lokal yang memakan beberapa GB ruang
Jadi, dilakukan salah, tidak dilakukan juga salah
- Asal jangan menghabiskan bandwidth dan ruang penyimpanan hingga hitungan gigabita tanpa bertanya dulu
- Kalau saya butuh modelnya, saya akan pergi dan mengunduhnya sendiri
  Belum lama ini saya juga melakukan itu untuk bermain-main dengan pembuatan gambar
- Ini tafsir yang agak tidak jujur
  Orang-orang bukan marah karena model lokal dipasang, melainkan karena kurangnya otonomi pengguna
  Jangan pasang diam-diam; cukup beri pilihan apakah ingin mengunduh model atau tidak
  Itu tidak sulit, dan semua opsi lokal lain bekerja seperti itu
- Tafsir yang aneh
  Kalau bukan opt-in atau dipaksakan masuk ke browser, ya memang jelek
  Tidak ada orang yang marah karena aplikasi yang menjalankan LLM lokal mengunduh data yang dibutuhkannya
- Sebaiknya baca komentarnya untuk melihat apa yang sebenarnya dikeluhkan orang
  Komentar ini memperlakukan sifat diskusinya dengan cukup tidak jujur
Menurut saya diskusi AI privat dan diskusi AI lokal harus dipisahkan
Pilihan realistis untuk menjalankan LLM besar adalah satu atau beberapa server besar yang online, tetapi itu tidak berarti hanya perusahaan swasta yang boleh mengoperasikannya
Solusi inferensi self-hosted yang cukup mudah dideploy dan dirawat, dengan jaminan isolasi tenant yang baik, idealnya zero-trust, semacam Plex untuk AI, akan menjadi pilihan yang berfokus pada privasi
Sejujurnya saya sama sekali belum meneliti bagian ini dan juga tidak tahu seberapa memungkinkan hal itu. Mungkin itu sudah ada dan saya hanya belum masuk ke server Discord yang tepat
Tambahan lagi, meski rasanya tidak perlu disebutkan di sini, hal yang mengejutkan adalah model terbuka sudah mendekati model komersial terbaik, jadi bagian tersulit pada dasarnya sebagian besar sudah terpecahkan
- Opsi lain adalah inferensi privat yang dapat diverifikasi dengan menjalankan model open source di dalam secure enclave di cloud
  Ini memakai NVIDIA confidential computing, kode enclave-nya open source, dan saat koneksi dilakukan, itu diverifikasi dengan remote attestation untuk membuktikan secara kriptografis bahwa penyedia inferensi tidak bisa melihat data apa pun
  Tinfoil: https://tinfoil.sh/ adalah contoh yang bagus. Sebagai pengungkapan kepentingan, saya adalah salah satu pendirinya
  Cara kerjanya bisa dibaca lebih lanjut di sini: https://docs.tinfoil.sh/verification/verification-in-tinfoil
  Pernyataan bahwa model terbuka mendekati model komersial terbaik pada umumnya benar untuk tugas-tugas tertentu
  Misalnya, antarmuka chat sudah sulit memanfaatkan kecerdasan model yang lebih tinggi daripada yang ditawarkan model open source terbaik saat ini
  Namun runtime coding masih mendapat manfaat dari kecerdasan model yang lebih tinggi, dan khususnya fakta bahwa runtime coding milik penyedia dan antarmuka pemanggilan alat model, seperti pada claude-code atau codex, terhubung erat lewat reinforcement learning, juga menjadi alasan lain mengapa tetap ada perbedaan hasil meski kecerdasan modelnya dikendalikan
  Pendiri opencode, runtime coding open source yang mendukung banyak penyedia model, juga baru-baru ini mengeluhkan sulitnya menyetel runtime agar pas untuk tiap penyedia: https://x.com/thdxr/status/2053290393727324313
Contoh dalam tulisan itu menegaskan pandangan saya bahwa agar model lokal berhasil, ia tidak perlu sebesar model paling depan, melainkan cukup cukup bagus
Ia harus bagus untuk tugas-tugas kecil, dan masuk akal dijalankan di perangkat konsumen
Lebih baik lagi kalau bisa berjalan di ponsel
Dari eksperimen saya dengan LLM lokal, memperbesar ukuran model memang baik, tetapi faktor yang benar-benar mengubah model yang nyaris tak berguna menjadi berguna adalah kemampuan menggunakan alat
Ketika diberi akses ke pencarian web dan pengambilan halaman web, itu jauh lebih membantu mengurangi halusinasi daripada memakai model yang lebih besar, dan juga tidak punya masalah tanggal cutoff pelatihan
Tentu model yang lebih besar mungkin bisa memakai alat dengan lebih baik, tetapi model kecil pun sering kali sudah cukup
Saya membuat demo tentang apa yang bisa dilakukan Prompt API baru di Chrome yang memakai model lokal: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
Seperti di tulisan aslinya, ia bersinar dalam lingkungan terbatas yang mengubah data milik pengguna
Untuk tugas yang lebih terbuka, jelas kurang berguna
- Saya tidak menyarankan melihat Prompt API Chrome sebagai contoh bagus dari LLM lokal
  Itu lumayan, tetapi benar-benar lemah
  Model 8B dari setahun lalu dalam beberapa hal justru lebih baik, dan model yang keluar belakangan ini meningkat secara berarti
- “Menulis ulang copy iklan dengan memakai konteks sekitar”, ya, benar, memang itu rencananya
  Tanpa model lokal dan tanpa halaman web, itu tidak mungkin
  Sementara semua orang lain menanggung biaya listrik dan degradasi perangkat keras, vendor mendapatkan eksploitasi adtech dan pengawasan yang lebih banyak, lebih baik, dan lebih murah
- Jadi kita menjalankan LLM untuk melakukan transformasi data yang sebenarnya jauh lebih cocok ditangani prosedur deterministik, dan untuk itu memakai catu daya 1000 watt
  Luar biasa sekali
Para pemangku kepentingan lama akan melakukan segala hal untuk menghambat lokal, tetapi ada beberapa alasan teknis yang membuat saya percaya bahwa model kecil dan terspesialisasi pada akhirnya bisa menjadi standar
Kalau itu terjadi, lokal akan ikut datang
Tulisan aslinya berfokus pada apakah yang diinginkan pengguna benar-benar membutuhkan model besar
Namun ada juga argumen bahwa model besar mungkin tidak akan pernah cukup dapat diandalkan sampai a) interpretabilitas mekanistik cukup matang atau b) sistem multi-agen tidak semuanya menjadi multi-model
Untuk a, kemajuan interpretabilitas mekanistik mungkin bisa memperbaiki masalah model besar, tetapi pada saat yang sama juga memungkinkan memperoleh representasi yang terintegrasi dan memotong keluar hanya bagian berguna dari model raksasa untuk dipakai
Ambil hanya yang dibutuhkan dan buang sisanya untuk mengurangi biaya serta permukaan masalah
Hanya butuh penalaran? Hanya butuh visi? Tinggal potong bagian itu dari monster raksasa tersebut
Kemampuan mengisolasi masalah sulit muncul tanpa kemampuan mengisolasi subsistem fungsional
Untuk b, lihat saja kategori halusinasi yang terspesialisasi untuk evil vector atau penggunaan alat
Jika tidak ada solusi lengkap untuk penyelarasan helpful/honest/harmless, maka kreativitas dan ketelitian, serta banyak faktor lain, kemungkinan besar memang saling berbenturan secara mendasar
Kalau pada akhirnya semua hal butuh banyak model, mengapa masih perlu model serba bisa yang mahal dan raksasa
Jadi spesialisasi juga menjadi tekanan untuk mereduksi semuanya menjadi model pakar minimum yang bisa dipercaya
Keberatan saya terhadap LLM, terlepas dari sisi filosofis dan dampak ekonominya, adalah bahwa tampaknya sulit bagi kita untuk melatih model yang fungsional secara lokal
LLM seperti mainan mungkin bisa, tetapi yang benar-benar berguna saya rasa sulit
Bukan cuma butuh daya komputasi yang sangat besar, tetapi juga dataset yang kebanyakan diperoleh secara ilegal
- Itu terdengar terlalu pesimistis
  Mungkin secara pribadi saya bukan makhluk yang sangat cerdas, tetapi untuk memperoleh kecerdasan yang saya miliki sekarang, saya tidak perlu mempelajari semua buku, semua artikel Wikipedia, semua tulisan blog, semua manual referensi, dan semua baris kode yang pernah ada
  Faktanya, saya bahkan tidak mempelajari 1% dari materi seperti itu, apalagi 0.00000000001%-nya
  Jelas teks itu sendiri bukan prasyarat kecerdasan
  Setidaknya jika saya bisa mendekati kecerdasan hanya dengan mengamati sekitar saya secara longgar selama kira-kira 20 tahun, maka itu bukti kuat bahwa “dataset” yang dibutuhkan hanyalah sensor dan dunia sekitar
  Tentu saja otak manusia tidak mulai dari nol, dan ada jutaan tahun evolusi untuk menciptakan tanah tempat kecerdasan bisa berakar
  Tetapi struktur dasarnya tampak cukup umum dan tidak terlihat bergantung pada set pelatihan tertentu
  Mungkin saja itu juga bisa dievolusikan secara artifisial
- Dengan teknologi saat ini, bukan model penuh, tetapi LoRA sangat bagus untuk fine-tuning dan bisa dibuat dalam beberapa jam di komputer gaming kelas atas
  Selama model dasarnya mendukung bahasa saya, sangat mungkin saya bisa melatih beberapa LoRA per bulan dengan daya komputasi sisa dari perangkat elektronik yang saya miliki
  Di masa depan, ketika komputer rumahan biasa memiliki kemampuan setingkat server saat ini, orang akan bisa melatih LLM penuh di rumah
- Ini penting karena meskipun menjalankan model secara lokal, model itu tetap bisa saja proprietary
  Saya tidak punya keterlibatan apa pun soal dilatih dengan apa, bagaimana data pelatihannya dilabeli, guardrail apa yang ada, dan bias apa yang mungkin dimilikinya
- Ada sangat banyak teknologi yang tidak bisa direproduksi secara lokal, dan saya rasa LLM tidak secara khusus berbeda
  Seperti hal lainnya, akan ada produsen LLM besar, produsen LLM kecil, pembuat LLM artisanal, penggemar LLM, dan konsumen LLM
- Itu tergantung bidangnya
  Ada cukup banyak use case di mana data pelatihan yang dibutuhkan untuk penggunaan pribadi atau nonkomersial bisa diperoleh
  Setelah itu, masalahnya tinggal jumlah komputasi dan waktu yang dibutuhkan untuk pelatihan, dan jika Anda mau menunggu, perangkat keras konsumen pun bisa membuat model yang berguna
Ungkapan “pakai model cloud hanya saat benar-benar perlu” memang benar, tetapi masalahnya adalah jauh lebih mudah memakai model terdepan yang disubsidi daripada menghabiskan waktu menyetel konfigurasi model lokal
Saya baru menyadari ini pada agen coding
Mungkin tidak selalu perlu memakai versi terbaru di xhigh, tetapi pada akhirnya saya tetap melakukannya
Karena pekerjaan selesai dalam waktu lebih singkat, usaha lebih sedikit, dan pada dasarnya dengan harga yang sama
Saya rasa baru ketika vendor besar mulai menagih berdasarkan penggunaan token yang sebenarnya, kita akan melihat upaya serius ke arah AI lokal
- Bahwa memakai model terdepan lebih mudah itu bukan bug, melainkan fitur
  Saya membuka kira-kira 8 tab penyedia free tier, dan ChatGPT, Claude, Gemini ada di kelompok terdepan
  Tidak ada masalah memakai satu sampai batasnya lalu pindah ke yang berikutnya
  Saya bisa melakukan ini sepanjang hari dan menyuruh mereka mengimplementasikan fungsi atau kelas tertentu dalam kode saya
  Karena saya benar-benar tahu cara menulis dan merancang perangkat lunak, saya tidak perlu menjalankan agen berulang-ulang demi mencoba membuat semuanya dalam satu hari
  Hanya dengan chatbot web dan copy/paste, saya bisa menghasilkan ribuan baris kode per jam sambil tetap mempertahankan mental model yang kuat atas kodenya dan mengubah bagian yang perlu sendiri
  Tadi pagi pun saya melakukan itu di proyek Python
  Karena saya sendiri yang merancang apa yang dibutuhkan, setiap generasi hanya berupa permintaan untuk satu fungsi tunggal, dan saat ada sesuatu yang perlu ditambahkan pagi ini, saya langsung pergi ke lokasi yang benar dan memperbaikinya sendiri tanpa bertanya ke chatbot
  Kalau Anda menghasilkan semuanya dari sebuah spesifikasi, Anda tidak bisa melakukan itu
- Jalur dengan hambatan paling kecil biasanya menang
  Terutama ketika harga menyembunyikan biaya sebenarnya
- Saya tidak melihat performa yang bagus dari model lokal
  Setiap kali ada posting soal LLM, banyak orang di komentar dengan tegas berkata bahwa mereka mendapatkan hasil setara Opus dengan DeepSeek/Qwen terbaru dan sejenisnya, tetapi pengalaman saya sama sekali tidak begitu
  Model open source hancur total dibanding Claude ketika diminta melakukan pekerjaan yang sedikit saja rumit
  Saya curiga ini mirip Linux era 90-an
  Sampai tingkat tertentu memang bekerja, tetapi benar-benar belum siap untuk pengguna rumahan, sementara banyak orang bersikeras di depan muka bahwa semuanya baik-baik saja terutama karena alasan ideologis
Orang-orang sebenarnya sedang berusaha membuat “perangkat lunak terbaik”
Kaum akselerasionis AI ala Don Quixote hanyalah minoritas vokal di antara orang-orang yang membuat perangkat lunak, dan memilih API online ketimbang sistem lokal pada umumnya bukan karena kemalasan pengembang, melainkan pilihan demi pengguna
Saat ini, dengan AI tertutup, lebih banyak hal bisa dilakukan dengan hasil lebih baik daripada dengan model lokal
Ini tidak terhindarkan
Bahkan jika AI lokal membaik, berada di garis depan performa LLM sering kali tetap merupakan investasi yang cukup berharga
Kebanyakan orang tidak akan menerima produk jika itu bukan yang terbaik di kelasnya dan sangat nyaman digunakan
Standar itu tinggi, dan AI lokal sering tidak memenuhinya
Sikap keras kepala HN yang ingin memperlakukan semua pengguna seolah-olah mereka fanatik open source, privacy-first, self-hosting Linux terasa sangat kuno sampai memalukan