Bobot LLM skala besar adalah bagian dari sejarah

(antirez.com)

5 poin oleh GN⁺ 2025-03-17 | 2 komentar | Bagikan ke WhatsApp

Setiap tahun banyak halaman web lama menghilang, dan itu adalah sejarah yang hilang untuk selamanya
Internet Archive adalah salah satu aset paling berharga dalam sejarah modern
Namun, berbagai perusahaan dan institusi membuat kelangsungan hidup dan pelestarian arsip menjadi semakin sulit
Fakta bahwa kantor pusat Internet Archive berada di bangunan bekas gereja bersifat simbolis, dan tempat itu seharusnya dipandang sebagai tempat yang sakral

Masa-masa ketika programmer lama bekerja dengan assembly Z80, diskusi generasi internet awal, dan subkultur yang terbentuk pada era 90-an perlahan menghilang
Hilangnya blog pribadi → catatan tentang kehidupan dan kesadaran individu ikut lenyap
Makalah ilmiah, seni digital, video game, data iklim, sumber berita awal, dan lain-lain juga perlahan menghilang
Saat penerbit atau situs web tutup, informasi semacam ini sering kali hilang untuk selamanya

Upaya untuk melestarikan semua informasi kemungkinan besar akan gagal secara realistis
- Karena biaya yang timbul sangat besar dalam situasi tanpa keuntungan ekonomi
- Dunia saat ini berada dalam kondisi yang sulit untuk menginvestasikan sumber daya pada hal-hal yang tidak menghasilkan uang
Kemampuan kompresi informasi LLM (large language model) memang tidak sempurna, tetapi setidaknya dapat berperan sebagai bentuk pelestarian minimum
- DeepSeek V3 sudah dirilis dan digunakan sebagai versi internet yang dikompresi secara lossy

Tidak semua kehilangan bisa dipulihkan, tetapi kita harus mendukung institusi seperti Internet Archive
Pada saat yang sama, tugas pentingnya adalah: melestarikan agar bobot LLM yang telah dipublikasikan tidak ikut hilang
Kita harus memastikan bahwa konten Internet Archive dimasukkan ke dalam set pra-pelatihan LLM

2 komentar

GN⁺ 2025-03-17

Komentar Hacker News

Suka dengan judulnya, "Big LLMs". Sekarang kita membedakan antara LLM besar dan LLM kecil, dan mungkin juga LLM menengah. Saya ingin mengusulkan agar kita menyebutnya "Tall LLMs", "Grande LLMs", dan "Venti LLMs"
Internet Archive harus dianggap sebagai salah satu bagian paling berharga dari sejarah modern. Namun, banyak perusahaan dan organisasi makin mempersulit kelangsungan hidup dan akumulasi arsip. Saya paham mengapa markas arsip itu berada di bekas gereja. Itu adalah cara terbaik untuk menganggapnya sebagai tempat suci. Ada upaya aktif untuk membuat Internet Archive yang berbasis di Eropa
Proyek llamafile dari Mozilla dirancang agar LLM dapat dilestarikan untuk tujuan historis. Mereka menyediakan bobot dan semua software yang diperlukan sebagai executable satu file yang deterministik tanpa dependensi. Jika kita menyimpan llamafile, kita bisa mendapatkan output yang sama seperti hari ini bahkan 50 tahun dari sekarang. Saya harap orang-orang mendukung Mozilla agar momen istimewa ini diarsipkan untuk generasi mendatang
Seperti peta bukanlah wilayah, ringkasan bukanlah konten atau buku asli di perpustakaan. Jika saya ingin membaca postingan, buku, atau forum, saya ingin membaca tepat itu. Bukan tiruan yang dibuat oleh algoritma matematika misterius
Saya rindu masa-masa indah saat membuat tabel film dengan tautan poster film menggunakan text-davinci. Biasanya model itu menghasilkan URL gambar di bucket s3. Tautannya selalu berfungsi
Saya rasa tidak apa-apa jika tidak semua hal di internet diarsipkan selamanya. Dulu orang menulis di atas kertas dan sebagian besar tidak pernah diarsipkan. Pada titik tertentu, semuanya hilang begitu saja. Saya mewarisi banyak kotak berisi catatan, buku, dan dokumen dari kakek-nenek saya. Sebagian besar tidak berarti apa-apa bagi saya. Banyak yang harus saya buang dan saya hanya menyimpan beberapa ribu halaman dari berbagai dokumen. Yang lainnya hilang selamanya. Dan itu mungkin tidak masalah. Arsip sangat penting, tetapi bagian yang paling sulit sekarang adalah memilih apa yang harus diarsipkan. Terlalu banyak konten ditambahkan ke internet setiap detik sehingga kita hanya bisa mengarsipkan sebagian darinya
Saya penasaran apakah mungkin merekonstruksi versi perkiraan dari subset umum populer data pelatihan internet dengan menggunakan beberapa LLM yang berbeda. Saya ingin tahu apakah ada yang tahu rujukan ke paper matematika tentang hal semacam itu
Ini tidak terlalu berarti bagi saya. Rumor tanpa sumber punya nilai historis yang terbatas, dan sebagian besar model berbobot yang tersedia di web tampaknya berbasis pada Common Crawl sehingga dapat digunakan untuk pelestarian
Saya suka narasi bahwa LLM melestarikan pengetahuan manusia. Secara pribadi, saya ingin semua pengetahuan dan informasi mudah diakses dan tersedia. Saya yakin kebanyakan orang merasakan hal yang sama, meskipun ada keputusan bisnis yang konsisten dari para pemegang hak cipta untuk menjadikan semuanya berbayar atau menyembunyikannya di balik pendaftaran. Banyak orang tidak suka Google menata informasi dunia dan berkembang lewat iklan, tetapi dalam jangka panjang informasi tetap ditata dan dilestarikan dalam berbagai format data internet. Pada akhirnya, Google-lah yang awalnya merancang transformer yang memungkinkan bobot LLM, dan itu sekarang menjadi bagian dari sejarah
Makalah ilmiah dan proses ilmiah menghilang selamanya saat penerbit gagal dan situs web ditutup. Saya tidak berpikir penerbit ilmiah besar akan gagal (saat ini, di zaman kita). Mereka kaya

regentag 2025-03-18

"Ringkasan bukanlah konten atau buku sebenarnya di perpustakaan. Jika ingin membaca postingan, buku, atau forum, saya ingin membaca tepat itu. Bukan tiruan yang dibuat dengan algoritma matematika misterius"

Saya setuju dengan ini.

Bobot LLM skala besar adalah bagian dari sejarah

Bacaan terkait

2 komentar

Komentar Hacker News