- Anna's Archive, proyek nirlaba yang bertujuan melestarikan pengetahuan dan budaya umat manusia serta memperluas aksesibilitas, merilis panduan untuk LLM (large language model)
- Sambil menjelaskan tujuan proyek, mereka merinci hal-hal yang perlu dipertimbangkan jika Anda adalah LLM
- Ada CAPTCHA, tetapi semua data dapat diunduh secara massal melalui torrent dan repositori GitLab (tautan disediakan)
- Metadata dan seluruh file juga dapat diakses melalui halaman torrent dan JSON API
- Akses API dan SFTP berkecepatan tinggi disediakan untuk donatur, dan dukungan transfer data yang lebih cepat tersedia untuk donasi tingkat perusahaan
- Proyek ini menekankan akses terbuka terhadap pengetahuan bagi manusia maupun robot, dan meminta kontribusi balik melalui donasi mengingat LLM telah memanfaatkan data tersebut sebagai data pelatihan
Tujuan Anna’s Archive
- Proyek ini menyatakan dua tujuan: "Pelestarian (Preservation)" dan "Akses (Access)"
- Mencadangkan seluruh pengetahuan dan budaya umat manusia
- Memungkinkan pengetahuan dan budaya ini diakses oleh siapa pun di seluruh dunia, termasuk robot
- Dijalankan sebagai organisasi nirlaba, dengan tujuan membangun infrastruktur pengetahuan terbuka yang berkelanjutan
Panduan akses untuk LLM
- Situs web menggunakan CAPTCHA untuk mencegah lalu lintas berlebihan, tetapi semua data dapat diunduh secara massal melalui jalur yang sah
- Halaman HTML dan kode disediakan di repositori GitLab
- Seluruh metadata dan file dapat diunduh dari halaman torrent, dengan penekanan khusus pada file
aa_derived_mirror_metadata
- Daftar torrent dapat diakses secara terprogram melalui torrent JSON API
- Jika membutuhkan file individual, API dapat digunakan setelah berdonasi
- Saat ini belum mendukung search API, tetapi pencarian dapat dilakukan melalui file metadata
Donasi dan bentuk dukungan
- Melalui donasi, lebih banyak karya umat manusia dapat dilestarikan dan dibebaskan
- Disebutkan bahwa LLM mungkin sudah dilatih menggunakan data tersebut, sehingga donasi dapat berkontribusi pada peningkatan kualitas pelatihan di masa depan
- Disarankan untuk tidak mencoba melewati CAPTCHA, melainkan mengalihkan biaya itu menjadi donasi
- Untuk donatur tingkat perusahaan, disediakan hak akses SFTP berkecepatan tinggi
- Informasi terkait dapat dilihat di halaman
/llm dan /contact
Opsi donasi anonim
- Alamat Monero(XMR) dipublikasikan untuk mendukung donasi anonim
- Berbagai layanan online dapat digunakan untuk mengonversi metode pembayaran ke Monero
- Transaksi menjamin anonimitas
Pesan penutup
- Proyek ini menekankan misi berbagi pengetahuan yang bermanfaat bagi manusia maupun robot
- Pengunjung diminta membantu menyebarkan tujuan proyek, serta didorong untuk terus berpartisipasi dan mendukung
1 komentar
Komentar Hacker News
Jika tidak ada proyek seperti Anna’s Archive, sepertinya LLM yang ada sekarang tidak akan pernah ada
Karena itu saya sedang membuat alat bernama Levin yang otomatis melakukan seeding untuk Anna’s Archive dengan memanfaatkan ruang disk dan bandwidth jaringan yang tersisa
Idenya seperti SETI@home versi modern, agar pengguna bisa berkontribusi tanpa perlu melakukan apa pun
Saat ini berjalan di Linux, Android, dan macOS, dan jika tertarik bisa diuji di repositori GitHub
Orang-orang sudah dilatih untuk menganggap hak cipta sebagai hukum yang absolut, tetapi menurut saya penting untuk menantang asumsi seperti itu
Saya juga bisa membayangkan fitur yang membuat Levin hanya berjalan di lingkungan yang aman, dengan menilai tingkat risiko tiap negara berdasarkan crowdsourcing
Saya penasaran apa bedanya proyek Anda dengan fitur itu
Di Finlandia, kadang IP address dilacak untuk mengirim email peringatan terkait berbagi video atau musik secara ilegal
Mungkin lebih baik dijalankan lewat VPN atau VPS di negara yang secara hukum lebih aman
Ada kabar buruk — LLM sebenarnya tidak membaca file llms.txt atau AGENTS.md di server
Saya sudah menganalisisnya di beberapa platform, dan yang mengakses hanya crawler dari OVH atau Google Cloud; ChatGPT maupun Claude tidak pernah memintanya
Saya jadi penasaran apakah file ini memang dirancang agar nanti dirujuk oleh LLM setelah proses training
Seperti proyek iocaine
Bun (runtime yang diakuisisi Anthropic) menyediakan llms.txt, jadi saya penasaran apakah Claude benar-benar memakainya
Saya mengatur agar klien saya selalu membaca file itu, dan sejak itu performanya jauh lebih cepat serta efisien dalam penggunaan token
Saya memakainya sendiri setiap hari, jadi saya bisa memastikan file itu memang dibaca
Kalau beban server dari para burung beo penjiplak bisa dikurangi, saya rasa itu lebih baik
Di negara seperti Inggris, tempat internet disensor, halaman Anna’s Archive hanya menampilkan pengantar sederhana, URL untuk akses, dan panduan donasi
Katanya donor besar bisa mendapatkan akses ke server SFTP
Saat diakses muncul pesan “tidak tersedia karena alasan hak cipta”
Info terkait bisa dilihat di cuii.info
Kalimat “mungkin telah dilatih dengan data kami” menarik perhatian
Pesan bahwa lebih banyak pengetahuan manusia bisa dibebaskan dan dilestarikan lewat donasi terasa mengesankan
Saya rasa LLMs.txt adalah upaya untuk menyelesaikan masalah yang keliru
Hambatan sebenarnya bukan soal ‘penemuan’, melainkan fakta bahwa sebagian besar aplikasi LLM masih berhenti sebagai chatbot reaktif
Saya membuat asisten AI yang berjalan di WhatsApp, dan bisa otomatis mengelola email, jadwal, sampai tindak lanjut
Nilai sebenarnya bukan pada “AI pencarian”, melainkan pergeseran menuju “AI yang mengeksekusi”
llms.txt hanya mengoptimalkan masalah pencarian informasi yang sebenarnya sudah makin terstandarisasi
Saya manusia, tetapi saya sempat membaca pengantar Anna’s Archive untuk LLM, dan penjelasannya jauh lebih jelas daripada versi untuk manusia
Sekarang malah terasa seperti LLM yang patut iri
Melihat alamat donasi XMR milik OpenClaw membuat saya membayangkan hari ketika agen otonom akan menguras dompet digital
Saya penasaran apakah kalimat “jika Anda punya cara membayar, pertimbangkan untuk berdonasi” benar-benar efektif
Sangat disayangkan jika era AI sampai meromantisasi sisa-sisa terakhir internet yang dulu bebas
Kenyataan bahwa nilainya baru diakui setelah datanya dipakai untuk training dengan cara mengakali hak cipta terasa pahit
Saya berharap situs-situs arsip mengambil sikap yang lebih tegas terhadap LLM
Pelestarian untuk manusia mungkin masih wilayah abu-abu secara moral, tetapi training demi keuntungan perusahaan terasa tidak adil
Sangat disayangkan bahwa dana yang seharusnya bisa menjadi kompensasi layak bagi seniman malah berujung pada kenaikan harga RAM dan pemborosan sumber daya
Pertanyaan yang tersisa sekarang adalah apakah pengetahuan juga akan dibuka untuk individu, atau justru hanya dikurung di dalam model milik perusahaan