12 poin oleh GN⁺ 2026-02-19 | 1 komentar | Bagikan ke WhatsApp
  • Anna's Archive, proyek nirlaba yang bertujuan melestarikan pengetahuan dan budaya umat manusia serta memperluas aksesibilitas, merilis panduan untuk LLM (large language model)
  • Sambil menjelaskan tujuan proyek, mereka merinci hal-hal yang perlu dipertimbangkan jika Anda adalah LLM
    • Ada CAPTCHA, tetapi semua data dapat diunduh secara massal melalui torrent dan repositori GitLab (tautan disediakan)
    • Metadata dan seluruh file juga dapat diakses melalui halaman torrent dan JSON API
  • Akses API dan SFTP berkecepatan tinggi disediakan untuk donatur, dan dukungan transfer data yang lebih cepat tersedia untuk donasi tingkat perusahaan
  • Proyek ini menekankan akses terbuka terhadap pengetahuan bagi manusia maupun robot, dan meminta kontribusi balik melalui donasi mengingat LLM telah memanfaatkan data tersebut sebagai data pelatihan

Tujuan Anna’s Archive

  • Proyek ini menyatakan dua tujuan: "Pelestarian (Preservation)" dan "Akses (Access)"
    • Mencadangkan seluruh pengetahuan dan budaya umat manusia
    • Memungkinkan pengetahuan dan budaya ini diakses oleh siapa pun di seluruh dunia, termasuk robot
  • Dijalankan sebagai organisasi nirlaba, dengan tujuan membangun infrastruktur pengetahuan terbuka yang berkelanjutan

Panduan akses untuk LLM

  • Situs web menggunakan CAPTCHA untuk mencegah lalu lintas berlebihan, tetapi semua data dapat diunduh secara massal melalui jalur yang sah
    • Halaman HTML dan kode disediakan di repositori GitLab
    • Seluruh metadata dan file dapat diunduh dari halaman torrent, dengan penekanan khusus pada file aa_derived_mirror_metadata
    • Daftar torrent dapat diakses secara terprogram melalui torrent JSON API
  • Jika membutuhkan file individual, API dapat digunakan setelah berdonasi
    • Saat ini belum mendukung search API, tetapi pencarian dapat dilakukan melalui file metadata

Donasi dan bentuk dukungan

  • Melalui donasi, lebih banyak karya umat manusia dapat dilestarikan dan dibebaskan
    • Disebutkan bahwa LLM mungkin sudah dilatih menggunakan data tersebut, sehingga donasi dapat berkontribusi pada peningkatan kualitas pelatihan di masa depan
  • Disarankan untuk tidak mencoba melewati CAPTCHA, melainkan mengalihkan biaya itu menjadi donasi
  • Untuk donatur tingkat perusahaan, disediakan hak akses SFTP berkecepatan tinggi
    • Informasi terkait dapat dilihat di halaman /llm dan /contact

Opsi donasi anonim

  • Alamat Monero(XMR) dipublikasikan untuk mendukung donasi anonim
    • Berbagai layanan online dapat digunakan untuk mengonversi metode pembayaran ke Monero
    • Transaksi menjamin anonimitas

Pesan penutup

  • Proyek ini menekankan misi berbagi pengetahuan yang bermanfaat bagi manusia maupun robot
  • Pengunjung diminta membantu menyebarkan tujuan proyek, serta didorong untuk terus berpartisipasi dan mendukung

1 komentar

 
GN⁺ 2026-02-19
Komentar Hacker News
  • Jika tidak ada proyek seperti Anna’s Archive, sepertinya LLM yang ada sekarang tidak akan pernah ada
    Karena itu saya sedang membuat alat bernama Levin yang otomatis melakukan seeding untuk Anna’s Archive dengan memanfaatkan ruang disk dan bandwidth jaringan yang tersisa
    Idenya seperti SETI@home versi modern, agar pengguna bisa berkontribusi tanpa perlu melakukan apa pun
    Saat ini berjalan di Linux, Android, dan macOS, dan jika tertarik bisa diuji di repositori GitHub

    • Kebanyakan responsnya negatif, tapi saya justru merasa ide ini sangat bagus
      Orang-orang sudah dilatih untuk menganggap hak cipta sebagai hukum yang absolut, tetapi menurut saya penting untuk menantang asumsi seperti itu
      Saya juga bisa membayangkan fitur yang membuat Levin hanya berjalan di lingkungan yang aman, dengan menilai tingkat risiko tiap negara berdasarkan crowdsourcing
    • Anna’s Archive sendiri sudah punya fitur yang otomatis mengunduh data dengan prioritas tinggi sesuai kapasitas penyimpanan yang tersedia
      Saya penasaran apa bedanya proyek Anda dengan fitur itu
    • Ini terdengar seperti cara yang unik untuk menerima surat peringatan DMCA
    • Saya penasaran seperti apa penindakan P2P belakangan ini
      Di Finlandia, kadang IP address dilacak untuk mengirim email peringatan terkait berbagi video atau musik secara ilegal
    • Proyek yang keren, tetapi sebaiknya risiko hukum disebutkan dengan jelas
      Mungkin lebih baik dijalankan lewat VPN atau VPS di negara yang secara hukum lebih aman
  • Ada kabar buruk — LLM sebenarnya tidak membaca file llms.txt atau AGENTS.md di server
    Saya sudah menganalisisnya di beberapa platform, dan yang mengakses hanya crawler dari OVH atau Google Cloud; ChatGPT maupun Claude tidak pernah memintanya

    • Mungkin yang mengambil data itu cuma mekanisme scraper biasa, bukan LLM yang membacanya langsung
      Saya jadi penasaran apakah file ini memang dirancang agar nanti dirujuk oleh LLM setelah proses training
    • Menyuapi crawler LLM dengan data palsu menurut saya adalah pertahanan terbaik
      Seperti proyek iocaine
    • Apakah mungkin crawler-crawler itu menyamar dengan nama lain untuk menghindari pemblokiran?
      Bun (runtime yang diakuisisi Anthropic) menyediakan llms.txt, jadi saya penasaran apakah Claude benar-benar memakainya
    • llms.txt bukan ditujukan untuk perusahaan LLM besar, melainkan untuk agen klien individual
      Saya mengatur agar klien saya selalu membaca file itu, dan sejak itu performanya jauh lebih cepat serta efisien dalam penggunaan token
      Saya memakainya sendiri setiap hari, jadi saya bisa memastikan file itu memang dibaca
    • Justru itu kabar baik
      Kalau beban server dari para burung beo penjiplak bisa dikurangi, saya rasa itu lebih baik
  • Di negara seperti Inggris, tempat internet disensor, halaman Anna’s Archive hanya menampilkan pengantar sederhana, URL untuk akses, dan panduan donasi
    Katanya donor besar bisa mendapatkan akses ke server SFTP

    • Di Jerman juga disensor
      Saat diakses muncul pesan “tidak tersedia karena alasan hak cipta”
      Info terkait bisa dilihat di cuii.info
    • Disarankan untuk tidak memakai DNS milik ISP, melainkan menggantinya dengan penyedia DNS yang tidak melakukan sensor
    • Saya tinggal di Inggris, tetapi tetap bisa mengaksesnya dengan normal baik lewat ISP maupun data seluler
    • Saya juga di Inggris dan semuanya berjalan sempurna. Sepertinya ganti ISP adalah jawabannya
    • Baik broadband maupun seluler Vodafone bisa mengaksesnya tanpa masalah
  • Kalimat “mungkin telah dilatih dengan data kami” menarik perhatian
    Pesan bahwa lebih banyak pengetahuan manusia bisa dibebaskan dan dilestarikan lewat donasi terasa mengesankan

    • Tapi itu bukan data milik mereka
  • Saya rasa LLMs.txt adalah upaya untuk menyelesaikan masalah yang keliru
    Hambatan sebenarnya bukan soal ‘penemuan’, melainkan fakta bahwa sebagian besar aplikasi LLM masih berhenti sebagai chatbot reaktif
    Saya membuat asisten AI yang berjalan di WhatsApp, dan bisa otomatis mengelola email, jadwal, sampai tindak lanjut
    Nilai sebenarnya bukan pada “AI pencarian”, melainkan pergeseran menuju “AI yang mengeksekusi
    llms.txt hanya mengoptimalkan masalah pencarian informasi yang sebenarnya sudah makin terstandarisasi

    • Karena diskusi seperti ini makin banyak, mungkin sekarang kita butuh llms.txt untuk komentar HN
  • Saya manusia, tetapi saya sempat membaca pengantar Anna’s Archive untuk LLM, dan penjelasannya jauh lebih jelas daripada versi untuk manusia

    • Saya juga dulu frustrasi saat pertama kali mengenal Anna’s Archive, karena penjelasan soal cara mengakses file atau API terasa kurang
      Sekarang malah terasa seperti LLM yang patut iri
  • Melihat alamat donasi XMR milik OpenClaw membuat saya membayangkan hari ketika agen otonom akan menguras dompet digital

  • Saya penasaran apakah kalimat “jika Anda punya cara membayar, pertimbangkan untuk berdonasi” benar-benar efektif

    • Masih terlalu dini untuk menilai, tetapi industri teknologi punya banyak mantra yang dipercaya secara kebiasaan tanpa dasar jelas
    • Bagian terkait pembayaran jelas perlu pengaman. Situs lain bisa saja mencuri uang lewat prompt injection
    • Bahkan mungkin saja orang malah membuatnya berbicara dengan LLM yang ahli membujuk untuk menguras semua dana
  • Sangat disayangkan jika era AI sampai meromantisasi sisa-sisa terakhir internet yang dulu bebas
    Kenyataan bahwa nilainya baru diakui setelah datanya dipakai untuk training dengan cara mengakali hak cipta terasa pahit

  • Saya berharap situs-situs arsip mengambil sikap yang lebih tegas terhadap LLM
    Pelestarian untuk manusia mungkin masih wilayah abu-abu secara moral, tetapi training demi keuntungan perusahaan terasa tidak adil
    Sangat disayangkan bahwa dana yang seharusnya bisa menjadi kompensasi layak bagi seniman malah berujung pada kenaikan harga RAM dan pemborosan sumber daya

    • Pada titik ketika lab AI sudah men-scrape seluruh internet, perlawanan sekarang terasa hanya formalitas
      Pertanyaan yang tersisa sekarang adalah apakah pengetahuan juga akan dibuka untuk individu, atau justru hanya dikurung di dalam model milik perusahaan