13 poin oleh GN⁺ 8 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Alur menambahkan API OpenAI atau Anthropic ke fitur aplikasi memang sudah makin umum, tetapi ketergantungan pada model AI yang di-host di cloud membuat fitur bisa berhenti hanya karena gangguan server atau masalah pembayaran, sekaligus memperbesar beban privasi
  • Perangkat modern memiliki kemampuan komputasi on-device yang kuat seperti Neural Engine, tetapi sebagian besar dibiarkan menganggur sambil hanya menunggu respons server
  • Misalnya, dengan memanfaatkan framework FoundationModels milik Apple, fitur AI seperti peringkasan, klasifikasi, dan ekstraksi dapat diimplementasikan langsung di perangkat tanpa server
  • The Brutalist Report native iOS client-nya menghasilkan ringkasan artikel secara on-device lewat API model lokal Apple, sehingga tidak perlu melewati server, prompt dan log pengguna, akun vendor, maupun catatan kaki soal penyimpanan konten
  • Model lokal mungkin tidak sepintar model cloud, tetapi bisa cukup untuk pekerjaan transformasi data seperti peringkasan, klasifikasi, ekstraksi, penulisan ulang, dan normalisasi; model cloud sebaiknya dipakai hanya saat benar-benar diperlukan

Masalah ketergantungan pada AI cloud

  • Tren pengembang menambahkan pemanggilan API OpenAI atau Anthropic ke fitur aplikasi tanpa banyak pertimbangan terus meluas
  • Pendekatan ini membuat perangkat lunak menjadi rapuh, melanggar privasi, dan pada dasarnya tidak stabil
    • Aplikasi bisa berhenti berfungsi ketika server bermasalah atau kartu kredit kedaluwarsa
  • Begitu konten pengguna di-stream ke penyedia AI pihak ketiga, sifat produk itu sendiri berubah
    • Muncul persoalan retensi data, persetujuan, audit, kebocoran, permintaan pemerintah, dan penggunaan sebagai data pelatihan
  • Stack menjadi lebih rumit karena semuanya bergantung pada kondisi jaringan, uptime vendor eksternal, rate limit, pembayaran akun, dan kondisi backend sendiri
  • Akibatnya, satu fitur UX berubah menjadi sistem terdistribusi yang menimbulkan biaya
  • Mengirim ke cloud sesuatu yang sebenarnya bisa diproses secara lokal adalah langkah yang merugikan diri sendiri

Mengapa perangkat lokal harus dimanfaatkan

  • Silikon di perangkat yang ada di saku kita saat ini jauh lebih cepat dibanding 10 tahun lalu, dan Neural Engine khusus sebagian besar menganggur
    • Sementara itu, terus menunggu respons JSON dari server farm di Virginia adalah struktur yang tidak masuk akal
  • Tujuannya bukan “AI di mana-mana”, melainkan perangkat lunak yang berguna
  • Jika sebuah fitur bisa diproses secara lokal, maka memilih ketergantungan eksternal sendiri adalah kerugian yang tidak perlu

Ringkasan on-device di The Brutalist Report

  • The Brutalist Report adalah layanan agregator berita yang terinspirasi gaya web era 1990-an
  • Saat baru-baru ini membuat native iOS client, tujuan desainnya adalah mempertahankan pengalaman membaca berita yang padat informasi
  • Klien iOS tersebut mencakup daftar headline berkontras tinggi, reader mode yang menghapus elemen yang membuat web sulit dibaca, serta tampilan “intelligence” untuk meringkas artikel secara opsional
  • Hal yang paling penting adalah ringkasan itu dibuat on-device lewat API model lokal Apple
  • Tidak perlu melewati server, tidak perlu prompt atau log pengguna, akun vendor, atau catatan kaki seperti “konten disimpan selama 30 hari”
  • Sudah terlalu dianggap wajar bahwa semua penggunaan AI harus terjadi di sisi server, dan membalik keadaan ini memerlukan upaya tingkat industri
  • Beberapa use case memang membutuhkan kecerdasan yang hanya bisa diberikan model yang di-host di cloud, tetapi tidak semua use case seperti itu, sehingga perlu penilaian yang hati-hati

Alat AI lokal di ekosistem Apple

  • Di ekosistem Apple, selama setahun terakhir ada investasi agar pengembang dapat dengan mudah memanfaatkan model AI lokal bawaan
  • Alur dasarnya adalah mengimpor FoundationModels, memeriksa ketersediaan SystemLanguageModel.default, lalu menyusun prompt dengan LanguageModelSession untuk menerima respons
    import FoundationModels  
    
    let model = SystemLanguageModel.default  
    guard model.availability == .available else { return }  
    
    let session = LanguageModelSession {  
      """  
      Provide a brutalist, information-dense summary in Markdown format.  
      - Use **bold** for key concepts.  
      - Use bullet points for facts.  
      - No fluff. Just facts.  
      """  
    }  
    
    let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
      articleText  
    }  
    
    let markdown = response.content  
    
  • Untuk konten panjang, teks biasa bisa dibagi menjadi unit sekitar 10.000 karakter, membuat catatan ringkas “facts only” pada tiap chunk, lalu menggabungkan ringkasan akhir dalam lintasan kedua
  • Pekerjaan seperti ini sangat cocok untuk model lokal
    • Data masukan adalah konten yang memang sudah sedang dibaca pengguna, jadi sudah ada di perangkat
    • Output-nya ringan
    • Diproses cepat dan privat
    • Tugasnya adalah merangkum halaman yang baru saja dimuat pengguna, bukan menciptakan pengetahuan dunia yang baru, jadi tidak membutuhkan kecerdasan tingkat supermanusia
  • AI lokal bersinar ketika peran model bukan menelusuri seluruh semesta, melainkan mentransformasikan data yang dimiliki pengguna

Cara membangun kepercayaan

  • Fitur AI seperti ringkasan email, ekstraksi to-do dari catatan, dan klasifikasi dokumen adalah fitur yang diinginkan orang tetapi belum mereka percayai
  • Pendekatan cloud yang umum mengubah semua fitur ini menjadi masalah kepercayaan: “apakah aman mengirim data ke server?”
  • AI lokal mengubah struktur itu dengan memproses data yang sudah ada di perangkat, tepat di tempatnya
  • Kepercayaan pengguna tidak dibangun dengan kebijakan privasi 2.000 kata
  • Kepercayaan dibangun dengan membuat struktur yang memang tidak memerlukan kebijakan privasi seperti itu sejak awal

Output terstruktur dan AI berbasis tipe

  • Salah satu keputusan bagus Apple belakangan ini adalah memindahkan “AI output” dari gumpalan teks tanpa struktur menjadi data bertipe
  • Alih-alih pendekatan “minta JSON ke model lalu berharap hasilnya benar”, pola yang lebih baru dan lebih baik adalah mendefinisikan Swift struct yang mewakili hasil yang diinginkan
  • Tiap field diberi panduan bahasa alami, lalu model diminta menghasilkan instance dari tipe tersebut
    import FoundationModels  
    
    @Generable  
    struct ArticleIntel {  
      @Guide(description: "One sentence. No hype.") var tldr: String  
      @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
      @Guide(description: "Comma-separated keywords.") var keywords: [String]  
    }  
    
    let session = LanguageModelSession()  
    let response = try await session.respond(  
      to: "Extract structured notes from the article.",  
      generating: ArticleIntel.self  
    ) {  
      articleText  
    }  
    
    let intel = response.content  
    
  • Dengan pendekatan ini, UI tidak perlu mengorek bullet dari Markdown atau berharap model mengingat skema JSON
  • Aplikasi bisa menerima tipe nyata dengan field nyata lalu merendernya secara konsisten
  • Ini menghasilkan output terstruktur yang benar-benar dapat digunakan aplikasi, dan seluruh prosesnya berjalan secara lokal
  • Bukan sekadar antarmuka yang nyaman, melainkan peningkatan kualitas engineering
  • Inilah yang membuat AI di aplikasi local-first berfungsi bukan sebagai “fitur keren”, melainkan sebagai “subsystem yang bisa dipercaya”

Tanggapan terhadap “model lokal kurang pintar”

  • Memang benar model lokal tidak sepintar model cloud, tetapi untuk sebagian besar fitur aplikasi hal itu tidak relevan
  • Sebagian besar fitur tidak menuntut kemampuan menulis Shakespeare atau menjelaskan mekanika kuantum, melainkan kemampuan untuk secara andal melakukan peringkasan, klasifikasi, ekstraksi, penulisan ulang, dan normalisasi
  • Untuk pekerjaan seperti ini, model lokal sudah cukup andal
  • Jika model lokal dipakai sebagai pengganti seluruh internet, hasilnya memang mengecewakan; tetapi jika dipakai sebagai “transformator data” di dalam aplikasi, kita justru akan bertanya mengapa data itu pernah dikirim ke server
  • Model cloud sebaiknya dipakai hanya saat benar-benar diperlukan, dan data pengguna harus tetap berada di tempatnya
  • Saat menggunakan AI, yang dibutuhkan bukan sekadar menempelkan chat box, melainkan memanfaatkannya sebagai subsystem nyata dengan output bertipe dan perilaku yang dapat diprediksi

Privasi dan pembangunan kepercayaan

  • Ada banyak fitur AI yang diinginkan orang tetapi tidak mereka percayai, seperti ringkasan email, ekstraksi action item dari catatan, dan klasifikasi dokumen
  • Pendekatan cloud mengubah semuanya menjadi eksperimen kepercayaan: “tolong kirim data Anda ke server, kami akan menanganinya dengan baik”
  • AI lokal mengubah ini secara mendasar — datanya sudah ada di perangkat, dan diproses langsung di perangkat
  • Kepercayaan dibangun bukan dengan menulis kebijakan privasi 2.000 kata, melainkan dengan struktur yang sejak awal tidak memerlukan kebijakan semacam itu

1 komentar

 
GN⁺ 8 jam lalu
Komentar Hacker News
  • Perasaan pengguna arus utama terhadap AI lokal saat ini mirip dengan cara mereka memandang open source beberapa dekade lalu
    Dalam beberapa produk, solusi berbayar jauh lebih unggul sehingga open source sering diabaikan sepenuhnya, dengan suasana seperti, “kenapa repot-repot?”
    Lalu muncullah SaaS dan platform yang membuat pengguna terikat, dan sekarang makin jelas bahwa penilaian itu pada umumnya keliru
    Tingkat ketergantungan pada Anthropic dan OpenAI dalam coding sudah tidak masuk akal, tetapi banyak orang tidak peduli atau hanya berharap Tiongkok tidak berhenti merilis bobot terbuka
    Model bisnis untuk bobot terbuka masih sangat baru, bercampur dengan tarik-menarik kekuatan antara negara dan lembaga riset, dan uang dalam jumlah absurd bergerak tanpa pengawasan nyata dari mayoritas orang
    Sekarang nilai yang luar biasa besar terbuka bagi hampir semua orang, tetapi ini adalah pertaruhan berbahaya yang bisa berhenti tanpa peringatan karena alasan di luar kendali kita

    • Saya tidak tahu apa yang sebenarnya menghalangi orang untuk terus menjalankan LLM bobot terbuka terbaik yang ada saat ini di perangkat keras konsumen
      Untuk 95% penggunaan, itu sudah cukup memadai, dan tidak punya masa kedaluwarsa
      “Risikonya” hanya tidak bisa memakai model generasi berikutnya, dan dampaknya tampak sangat kecil
    • Saya tidak tahu apa model bisnis AI bobot terbuka sebenarnya, dan menurut saya praktis tidak ada
      Paling banter hanya berfungsi sebagai iklan untuk menjual model yang lebih canggih
      Perbedaan besar dengan open source adalah Anda tidak bisa melatih LLM hanya dengan waktu luang dan kemauan
      Anda butuh banyak data dan sumber daya komputasi yang sangat besar
      Dalam hal ini saya berharap saya salah, dan saya jauh lebih suka jika masa depan bergerak ke arah bobot terbuka
    • Menurut saya ini seharusnya bukan dikotomi AI lokal versus AI cloud
      AI lokal harus diperlakukan sebagai produk tersendiri, mengerjakan hal-hal yang memang tidak butuh AI cloud secara lokal, lalu memakai AI cloud sebagai cadangan, dan itu akan sangat menurunkan biaya
    • Saya menunggu pemerintah AS membuat AI lokal versinya sendiri
      Karena dibiayai pajak, ada kemungkinan pada akhirnya akan dirilis sebagai open source, dan NSA punya data internet puluhan tahun, jadi jika dilatih dengan itu, bobot terbuka bisa menjadi sebagus model milik perusahaan mana pun
    • Ketika biaya menjadi faktor penting, atau ketika opsi gratis tapi lebih lemah menjadi menarik dan mudah diakses, misalnya seperti agen on-device dengan pengalaman ala Apple, pengguna sudah cukup banyak bergeser ke lokal
      Kalau lihat hal seperti menghapus latar belakang foto atau OCR PDF, hampir tidak ada orang yang memakai layanan berbayar untuk hal-hal seperti itu dalam penggunaan sehari-hari
  • Momen itu akan datang, dan tidak terlalu jauh
    Arahnya sudah jelas. Awalnya LLM berkinerja baik hanya bisa dijalankan di pusat data besar, sekarang jelas sudah sampai di tingkat beberapa server dengan beberapa kartu H100, dan terus bergerak ke arah “MacBook Pro atau Strix Halo dengan VRAM 128GB”
    Dalam setahun ke depan, pola “merencanakan dengan LLM jarak jauh yang mahal, lalu mengeksekusi dengan LLM lokal yang lambat tapi tetap lebih cepat dari manusia” akan menjadi standar di perusahaan, dan pelan-pelan akan bergeser menjadi “semua cukup dilakukan dengan LLM lokal”
    Pada akhirnya akan muncul keseimbangan seperti cloud tradisional: host sendiri, atau membayar untuk fleksibilitas dan kecepatan
    Pertanyaannya adalah seberapa besar hosting lokal akan mengakhiri gelembung panas sumber daya komputasi saat ini, dan apa artinya bagi pasar

    • Titik itu sebenarnya sudah tiba sekarang
      Saya menjalankan Qwen dan Gemma yang sudah dikuantisasi di PC gaming berusia 3 tahun yang lumayan bagus, kira-kira RTX 3080 12GB dan RAM 32GB
      Memang lambat dan context window-nya kecil, tetapi dengan runtime yang tepat, itu bisa menelusuri dan mengategorikan foto perjalanan
      Bisa melakukan OCR struk dan merangkum pengeluaran, menjawab pertanyaan sederhana, menganalisis kode, dan bahkan menulis kode ketika konteks yang dibutuhkan sedikit
      Kalau mau repot mengurus integrasi VS Code, sepertinya autocomplete yang lumayan juga bisa dibuat
      Menurut saya “MacBook Pro atau Strix Halo dengan VRAM 128GB” adalah konfigurasi minimum yang layak untuk coding ala agen
      Hanya saja saat ini keadaannya justru terbalik. Versi cloud beberapa orde magnitudo lebih murah daripada hosting sendiri, karena melalui berbagi, pemanfaatan server bisa jauh lebih tinggi
      Jika perusahaan menghabiskan 500 ribu dolar untuk perangkat yang menjalankan GLM 5.1, mereka memang mendapatkan keamanan data, fleksibilitas, dan bebas sensor, tetapi dibandingkan biaya kursi Anthropic itu terlalu mahal
    • Dampak terbesar model lokal mungkin sekadar mencegah inferensi jarak jauh menjadi satu-satunya pilihan
  • Tepat beberapa baris di bawah tulisan itu, orang-orang heboh karena Chrome memasukkan model LLM lokal untuk inferensi lokal yang memakan beberapa GB ruang
    Jadi, dilakukan salah, tidak dilakukan juga salah

    • Asal jangan menghabiskan bandwidth dan ruang penyimpanan hingga hitungan gigabita tanpa bertanya dulu
    • Kalau saya butuh modelnya, saya akan pergi dan mengunduhnya sendiri
      Belum lama ini saya juga melakukan itu untuk bermain-main dengan pembuatan gambar
    • Ini tafsir yang agak tidak jujur
      Orang-orang bukan marah karena model lokal dipasang, melainkan karena kurangnya otonomi pengguna
      Jangan pasang diam-diam; cukup beri pilihan apakah ingin mengunduh model atau tidak
      Itu tidak sulit, dan semua opsi lokal lain bekerja seperti itu
    • Tafsir yang aneh
      Kalau bukan opt-in atau dipaksakan masuk ke browser, ya memang jelek
      Tidak ada orang yang marah karena aplikasi yang menjalankan LLM lokal mengunduh data yang dibutuhkannya
    • Sebaiknya baca komentarnya untuk melihat apa yang sebenarnya dikeluhkan orang
      Komentar ini memperlakukan sifat diskusinya dengan cukup tidak jujur
  • Menurut saya diskusi AI privat dan diskusi AI lokal harus dipisahkan
    Pilihan realistis untuk menjalankan LLM besar adalah satu atau beberapa server besar yang online, tetapi itu tidak berarti hanya perusahaan swasta yang boleh mengoperasikannya
    Solusi inferensi self-hosted yang cukup mudah dideploy dan dirawat, dengan jaminan isolasi tenant yang baik, idealnya zero-trust, semacam Plex untuk AI, akan menjadi pilihan yang berfokus pada privasi
    Sejujurnya saya sama sekali belum meneliti bagian ini dan juga tidak tahu seberapa memungkinkan hal itu. Mungkin itu sudah ada dan saya hanya belum masuk ke server Discord yang tepat
    Tambahan lagi, meski rasanya tidak perlu disebutkan di sini, hal yang mengejutkan adalah model terbuka sudah mendekati model komersial terbaik, jadi bagian tersulit pada dasarnya sebagian besar sudah terpecahkan

    • Opsi lain adalah inferensi privat yang dapat diverifikasi dengan menjalankan model open source di dalam secure enclave di cloud
      Ini memakai NVIDIA confidential computing, kode enclave-nya open source, dan saat koneksi dilakukan, itu diverifikasi dengan remote attestation untuk membuktikan secara kriptografis bahwa penyedia inferensi tidak bisa melihat data apa pun
      Tinfoil: https://tinfoil.sh/ adalah contoh yang bagus. Sebagai pengungkapan kepentingan, saya adalah salah satu pendirinya
      Cara kerjanya bisa dibaca lebih lanjut di sini: https://docs.tinfoil.sh/verification/verification-in-tinfoil
      Pernyataan bahwa model terbuka mendekati model komersial terbaik pada umumnya benar untuk tugas-tugas tertentu
      Misalnya, antarmuka chat sudah sulit memanfaatkan kecerdasan model yang lebih tinggi daripada yang ditawarkan model open source terbaik saat ini
      Namun runtime coding masih mendapat manfaat dari kecerdasan model yang lebih tinggi, dan khususnya fakta bahwa runtime coding milik penyedia dan antarmuka pemanggilan alat model, seperti pada claude-code atau codex, terhubung erat lewat reinforcement learning, juga menjadi alasan lain mengapa tetap ada perbedaan hasil meski kecerdasan modelnya dikendalikan
      Pendiri opencode, runtime coding open source yang mendukung banyak penyedia model, juga baru-baru ini mengeluhkan sulitnya menyetel runtime agar pas untuk tiap penyedia: https://x.com/thdxr/status/2053290393727324313
  • Contoh dalam tulisan itu menegaskan pandangan saya bahwa agar model lokal berhasil, ia tidak perlu sebesar model paling depan, melainkan cukup cukup bagus
    Ia harus bagus untuk tugas-tugas kecil, dan masuk akal dijalankan di perangkat konsumen
    Lebih baik lagi kalau bisa berjalan di ponsel
    Dari eksperimen saya dengan LLM lokal, memperbesar ukuran model memang baik, tetapi faktor yang benar-benar mengubah model yang nyaris tak berguna menjadi berguna adalah kemampuan menggunakan alat
    Ketika diberi akses ke pencarian web dan pengambilan halaman web, itu jauh lebih membantu mengurangi halusinasi daripada memakai model yang lebih besar, dan juga tidak punya masalah tanggal cutoff pelatihan
    Tentu model yang lebih besar mungkin bisa memakai alat dengan lebih baik, tetapi model kecil pun sering kali sudah cukup

  • Saya membuat demo tentang apa yang bisa dilakukan Prompt API baru di Chrome yang memakai model lokal: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
    Seperti di tulisan aslinya, ia bersinar dalam lingkungan terbatas yang mengubah data milik pengguna
    Untuk tugas yang lebih terbuka, jelas kurang berguna

    • Saya tidak menyarankan melihat Prompt API Chrome sebagai contoh bagus dari LLM lokal
      Itu lumayan, tetapi benar-benar lemah
      Model 8B dari setahun lalu dalam beberapa hal justru lebih baik, dan model yang keluar belakangan ini meningkat secara berarti
    • “Menulis ulang copy iklan dengan memakai konteks sekitar”, ya, benar, memang itu rencananya
      Tanpa model lokal dan tanpa halaman web, itu tidak mungkin
      Sementara semua orang lain menanggung biaya listrik dan degradasi perangkat keras, vendor mendapatkan eksploitasi adtech dan pengawasan yang lebih banyak, lebih baik, dan lebih murah
    • Jadi kita menjalankan LLM untuk melakukan transformasi data yang sebenarnya jauh lebih cocok ditangani prosedur deterministik, dan untuk itu memakai catu daya 1000 watt
      Luar biasa sekali
  • Para pemangku kepentingan lama akan melakukan segala hal untuk menghambat lokal, tetapi ada beberapa alasan teknis yang membuat saya percaya bahwa model kecil dan terspesialisasi pada akhirnya bisa menjadi standar
    Kalau itu terjadi, lokal akan ikut datang
    Tulisan aslinya berfokus pada apakah yang diinginkan pengguna benar-benar membutuhkan model besar
    Namun ada juga argumen bahwa model besar mungkin tidak akan pernah cukup dapat diandalkan sampai a) interpretabilitas mekanistik cukup matang atau b) sistem multi-agen tidak semuanya menjadi multi-model
    Untuk a, kemajuan interpretabilitas mekanistik mungkin bisa memperbaiki masalah model besar, tetapi pada saat yang sama juga memungkinkan memperoleh representasi yang terintegrasi dan memotong keluar hanya bagian berguna dari model raksasa untuk dipakai
    Ambil hanya yang dibutuhkan dan buang sisanya untuk mengurangi biaya serta permukaan masalah
    Hanya butuh penalaran? Hanya butuh visi? Tinggal potong bagian itu dari monster raksasa tersebut
    Kemampuan mengisolasi masalah sulit muncul tanpa kemampuan mengisolasi subsistem fungsional
    Untuk b, lihat saja kategori halusinasi yang terspesialisasi untuk evil vector atau penggunaan alat
    Jika tidak ada solusi lengkap untuk penyelarasan helpful/honest/harmless, maka kreativitas dan ketelitian, serta banyak faktor lain, kemungkinan besar memang saling berbenturan secara mendasar
    Kalau pada akhirnya semua hal butuh banyak model, mengapa masih perlu model serba bisa yang mahal dan raksasa
    Jadi spesialisasi juga menjadi tekanan untuk mereduksi semuanya menjadi model pakar minimum yang bisa dipercaya

  • Keberatan saya terhadap LLM, terlepas dari sisi filosofis dan dampak ekonominya, adalah bahwa tampaknya sulit bagi kita untuk melatih model yang fungsional secara lokal
    LLM seperti mainan mungkin bisa, tetapi yang benar-benar berguna saya rasa sulit
    Bukan cuma butuh daya komputasi yang sangat besar, tetapi juga dataset yang kebanyakan diperoleh secara ilegal

    • Itu terdengar terlalu pesimistis
      Mungkin secara pribadi saya bukan makhluk yang sangat cerdas, tetapi untuk memperoleh kecerdasan yang saya miliki sekarang, saya tidak perlu mempelajari semua buku, semua artikel Wikipedia, semua tulisan blog, semua manual referensi, dan semua baris kode yang pernah ada
      Faktanya, saya bahkan tidak mempelajari 1% dari materi seperti itu, apalagi 0.00000000001%-nya
      Jelas teks itu sendiri bukan prasyarat kecerdasan
      Setidaknya jika saya bisa mendekati kecerdasan hanya dengan mengamati sekitar saya secara longgar selama kira-kira 20 tahun, maka itu bukti kuat bahwa “dataset” yang dibutuhkan hanyalah sensor dan dunia sekitar
      Tentu saja otak manusia tidak mulai dari nol, dan ada jutaan tahun evolusi untuk menciptakan tanah tempat kecerdasan bisa berakar
      Tetapi struktur dasarnya tampak cukup umum dan tidak terlihat bergantung pada set pelatihan tertentu
      Mungkin saja itu juga bisa dievolusikan secara artifisial
    • Dengan teknologi saat ini, bukan model penuh, tetapi LoRA sangat bagus untuk fine-tuning dan bisa dibuat dalam beberapa jam di komputer gaming kelas atas
      Selama model dasarnya mendukung bahasa saya, sangat mungkin saya bisa melatih beberapa LoRA per bulan dengan daya komputasi sisa dari perangkat elektronik yang saya miliki
      Di masa depan, ketika komputer rumahan biasa memiliki kemampuan setingkat server saat ini, orang akan bisa melatih LLM penuh di rumah
    • Ini penting karena meskipun menjalankan model secara lokal, model itu tetap bisa saja proprietary
      Saya tidak punya keterlibatan apa pun soal dilatih dengan apa, bagaimana data pelatihannya dilabeli, guardrail apa yang ada, dan bias apa yang mungkin dimilikinya
    • Ada sangat banyak teknologi yang tidak bisa direproduksi secara lokal, dan saya rasa LLM tidak secara khusus berbeda
      Seperti hal lainnya, akan ada produsen LLM besar, produsen LLM kecil, pembuat LLM artisanal, penggemar LLM, dan konsumen LLM
    • Itu tergantung bidangnya
      Ada cukup banyak use case di mana data pelatihan yang dibutuhkan untuk penggunaan pribadi atau nonkomersial bisa diperoleh
      Setelah itu, masalahnya tinggal jumlah komputasi dan waktu yang dibutuhkan untuk pelatihan, dan jika Anda mau menunggu, perangkat keras konsumen pun bisa membuat model yang berguna
  • Ungkapan “pakai model cloud hanya saat benar-benar perlu” memang benar, tetapi masalahnya adalah jauh lebih mudah memakai model terdepan yang disubsidi daripada menghabiskan waktu menyetel konfigurasi model lokal
    Saya baru menyadari ini pada agen coding
    Mungkin tidak selalu perlu memakai versi terbaru di xhigh, tetapi pada akhirnya saya tetap melakukannya
    Karena pekerjaan selesai dalam waktu lebih singkat, usaha lebih sedikit, dan pada dasarnya dengan harga yang sama
    Saya rasa baru ketika vendor besar mulai menagih berdasarkan penggunaan token yang sebenarnya, kita akan melihat upaya serius ke arah AI lokal

    • Bahwa memakai model terdepan lebih mudah itu bukan bug, melainkan fitur
      Saya membuka kira-kira 8 tab penyedia free tier, dan ChatGPT, Claude, Gemini ada di kelompok terdepan
      Tidak ada masalah memakai satu sampai batasnya lalu pindah ke yang berikutnya
      Saya bisa melakukan ini sepanjang hari dan menyuruh mereka mengimplementasikan fungsi atau kelas tertentu dalam kode saya
      Karena saya benar-benar tahu cara menulis dan merancang perangkat lunak, saya tidak perlu menjalankan agen berulang-ulang demi mencoba membuat semuanya dalam satu hari
      Hanya dengan chatbot web dan copy/paste, saya bisa menghasilkan ribuan baris kode per jam sambil tetap mempertahankan mental model yang kuat atas kodenya dan mengubah bagian yang perlu sendiri
      Tadi pagi pun saya melakukan itu di proyek Python
      Karena saya sendiri yang merancang apa yang dibutuhkan, setiap generasi hanya berupa permintaan untuk satu fungsi tunggal, dan saat ada sesuatu yang perlu ditambahkan pagi ini, saya langsung pergi ke lokasi yang benar dan memperbaikinya sendiri tanpa bertanya ke chatbot
      Kalau Anda menghasilkan semuanya dari sebuah spesifikasi, Anda tidak bisa melakukan itu
    • Jalur dengan hambatan paling kecil biasanya menang
      Terutama ketika harga menyembunyikan biaya sebenarnya
    • Saya tidak melihat performa yang bagus dari model lokal
      Setiap kali ada posting soal LLM, banyak orang di komentar dengan tegas berkata bahwa mereka mendapatkan hasil setara Opus dengan DeepSeek/Qwen terbaru dan sejenisnya, tetapi pengalaman saya sama sekali tidak begitu
      Model open source hancur total dibanding Claude ketika diminta melakukan pekerjaan yang sedikit saja rumit
      Saya curiga ini mirip Linux era 90-an
      Sampai tingkat tertentu memang bekerja, tetapi benar-benar belum siap untuk pengguna rumahan, sementara banyak orang bersikeras di depan muka bahwa semuanya baik-baik saja terutama karena alasan ideologis
  • Orang-orang sebenarnya sedang berusaha membuat “perangkat lunak terbaik”
    Kaum akselerasionis AI ala Don Quixote hanyalah minoritas vokal di antara orang-orang yang membuat perangkat lunak, dan memilih API online ketimbang sistem lokal pada umumnya bukan karena kemalasan pengembang, melainkan pilihan demi pengguna
    Saat ini, dengan AI tertutup, lebih banyak hal bisa dilakukan dengan hasil lebih baik daripada dengan model lokal
    Ini tidak terhindarkan
    Bahkan jika AI lokal membaik, berada di garis depan performa LLM sering kali tetap merupakan investasi yang cukup berharga
    Kebanyakan orang tidak akan menerima produk jika itu bukan yang terbaik di kelasnya dan sangat nyaman digunakan
    Standar itu tinggi, dan AI lokal sering tidak memenuhinya
    Sikap keras kepala HN yang ingin memperlakukan semua pengguna seolah-olah mereka fanatik open source, privacy-first, self-hosting Linux terasa sangat kuno sampai memalukan