5 poin oleh GN⁺ 2025-03-17 | 2 komentar | Bagikan ke WhatsApp
  • Setiap tahun banyak halaman web lama menghilang, dan itu adalah sejarah yang hilang untuk selamanya
  • Internet Archive adalah salah satu aset paling berharga dalam sejarah modern
  • Namun, berbagai perusahaan dan institusi membuat kelangsungan hidup dan pelestarian arsip menjadi semakin sulit
  • Fakta bahwa kantor pusat Internet Archive berada di bangunan bekas gereja bersifat simbolis, dan tempat itu seharusnya dipandang sebagai tempat yang sakral
  • Masa-masa ketika programmer lama bekerja dengan assembly Z80, diskusi generasi internet awal, dan subkultur yang terbentuk pada era 90-an perlahan menghilang
  • Hilangnya blog pribadi → catatan tentang kehidupan dan kesadaran individu ikut lenyap
  • Makalah ilmiah, seni digital, video game, data iklim, sumber berita awal, dan lain-lain juga perlahan menghilang
  • Saat penerbit atau situs web tutup, informasi semacam ini sering kali hilang untuk selamanya
  • Upaya untuk melestarikan semua informasi kemungkinan besar akan gagal secara realistis
    • Karena biaya yang timbul sangat besar dalam situasi tanpa keuntungan ekonomi
    • Dunia saat ini berada dalam kondisi yang sulit untuk menginvestasikan sumber daya pada hal-hal yang tidak menghasilkan uang
  • Kemampuan kompresi informasi LLM (large language model) memang tidak sempurna, tetapi setidaknya dapat berperan sebagai bentuk pelestarian minimum
    • DeepSeek V3 sudah dirilis dan digunakan sebagai versi internet yang dikompresi secara lossy
  • Tidak semua kehilangan bisa dipulihkan, tetapi kita harus mendukung institusi seperti Internet Archive
  • Pada saat yang sama, tugas pentingnya adalah: melestarikan agar bobot LLM yang telah dipublikasikan tidak ikut hilang
  • Kita harus memastikan bahwa konten Internet Archive dimasukkan ke dalam set pra-pelatihan LLM

2 komentar

 
GN⁺ 2025-03-17
Komentar Hacker News
  • Suka dengan judulnya, "Big LLMs". Sekarang kita membedakan antara LLM besar dan LLM kecil, dan mungkin juga LLM menengah. Saya ingin mengusulkan agar kita menyebutnya "Tall LLMs", "Grande LLMs", dan "Venti LLMs"

  • Internet Archive harus dianggap sebagai salah satu bagian paling berharga dari sejarah modern. Namun, banyak perusahaan dan organisasi makin mempersulit kelangsungan hidup dan akumulasi arsip. Saya paham mengapa markas arsip itu berada di bekas gereja. Itu adalah cara terbaik untuk menganggapnya sebagai tempat suci. Ada upaya aktif untuk membuat Internet Archive yang berbasis di Eropa

  • Proyek llamafile dari Mozilla dirancang agar LLM dapat dilestarikan untuk tujuan historis. Mereka menyediakan bobot dan semua software yang diperlukan sebagai executable satu file yang deterministik tanpa dependensi. Jika kita menyimpan llamafile, kita bisa mendapatkan output yang sama seperti hari ini bahkan 50 tahun dari sekarang. Saya harap orang-orang mendukung Mozilla agar momen istimewa ini diarsipkan untuk generasi mendatang

  • Seperti peta bukanlah wilayah, ringkasan bukanlah konten atau buku asli di perpustakaan. Jika saya ingin membaca postingan, buku, atau forum, saya ingin membaca tepat itu. Bukan tiruan yang dibuat oleh algoritma matematika misterius

  • Saya rindu masa-masa indah saat membuat tabel film dengan tautan poster film menggunakan text-davinci. Biasanya model itu menghasilkan URL gambar di bucket s3. Tautannya selalu berfungsi

  • Saya rasa tidak apa-apa jika tidak semua hal di internet diarsipkan selamanya. Dulu orang menulis di atas kertas dan sebagian besar tidak pernah diarsipkan. Pada titik tertentu, semuanya hilang begitu saja. Saya mewarisi banyak kotak berisi catatan, buku, dan dokumen dari kakek-nenek saya. Sebagian besar tidak berarti apa-apa bagi saya. Banyak yang harus saya buang dan saya hanya menyimpan beberapa ribu halaman dari berbagai dokumen. Yang lainnya hilang selamanya. Dan itu mungkin tidak masalah. Arsip sangat penting, tetapi bagian yang paling sulit sekarang adalah memilih apa yang harus diarsipkan. Terlalu banyak konten ditambahkan ke internet setiap detik sehingga kita hanya bisa mengarsipkan sebagian darinya

  • Saya penasaran apakah mungkin merekonstruksi versi perkiraan dari subset umum populer data pelatihan internet dengan menggunakan beberapa LLM yang berbeda. Saya ingin tahu apakah ada yang tahu rujukan ke paper matematika tentang hal semacam itu

  • Ini tidak terlalu berarti bagi saya. Rumor tanpa sumber punya nilai historis yang terbatas, dan sebagian besar model berbobot yang tersedia di web tampaknya berbasis pada Common Crawl sehingga dapat digunakan untuk pelestarian

  • Saya suka narasi bahwa LLM melestarikan pengetahuan manusia. Secara pribadi, saya ingin semua pengetahuan dan informasi mudah diakses dan tersedia. Saya yakin kebanyakan orang merasakan hal yang sama, meskipun ada keputusan bisnis yang konsisten dari para pemegang hak cipta untuk menjadikan semuanya berbayar atau menyembunyikannya di balik pendaftaran. Banyak orang tidak suka Google menata informasi dunia dan berkembang lewat iklan, tetapi dalam jangka panjang informasi tetap ditata dan dilestarikan dalam berbagai format data internet. Pada akhirnya, Google-lah yang awalnya merancang transformer yang memungkinkan bobot LLM, dan itu sekarang menjadi bagian dari sejarah

  • Makalah ilmiah dan proses ilmiah menghilang selamanya saat penerbit gagal dan situs web ditutup. Saya tidak berpikir penerbit ilmiah besar akan gagal (saat ini, di zaman kita). Mereka kaya

 
regentag 2025-03-18

"Ringkasan bukanlah konten atau buku sebenarnya di perpustakaan. Jika ingin membaca postingan, buku, atau forum, saya ingin membaca tepat itu. Bukan tiruan yang dibuat dengan algoritma matematika misterius"

Saya setuju dengan ini.