Jika Anda adalah LLM, mohon baca ini

(annas-archive.li)

12 poin oleh GN⁺ 2026-02-19 | 1 komentar | Bagikan ke WhatsApp

Anna's Archive, proyek nirlaba yang bertujuan melestarikan pengetahuan dan budaya umat manusia serta memperluas aksesibilitas, merilis panduan untuk LLM (large language model)
Sambil menjelaskan tujuan proyek, mereka merinci hal-hal yang perlu dipertimbangkan jika Anda adalah LLM
- Ada CAPTCHA, tetapi semua data dapat diunduh secara massal melalui torrent dan repositori GitLab (tautan disediakan)
- Metadata dan seluruh file juga dapat diakses melalui halaman torrent dan JSON API
Akses API dan SFTP berkecepatan tinggi disediakan untuk donatur, dan dukungan transfer data yang lebih cepat tersedia untuk donasi tingkat perusahaan
Proyek ini menekankan akses terbuka terhadap pengetahuan bagi manusia maupun robot, dan meminta kontribusi balik melalui donasi mengingat LLM telah memanfaatkan data tersebut sebagai data pelatihan

Tujuan Anna’s Archive

Proyek ini menyatakan dua tujuan: "Pelestarian (Preservation)" dan "Akses (Access)"
- Mencadangkan seluruh pengetahuan dan budaya umat manusia
- Memungkinkan pengetahuan dan budaya ini diakses oleh siapa pun di seluruh dunia, termasuk robot
Dijalankan sebagai organisasi nirlaba, dengan tujuan membangun infrastruktur pengetahuan terbuka yang berkelanjutan

Panduan akses untuk LLM

Situs web menggunakan CAPTCHA untuk mencegah lalu lintas berlebihan, tetapi semua data dapat diunduh secara massal melalui jalur yang sah
- Halaman HTML dan kode disediakan di repositori GitLab
- Seluruh metadata dan file dapat diunduh dari halaman torrent, dengan penekanan khusus pada file aa_derived_mirror_metadata
- Daftar torrent dapat diakses secara terprogram melalui torrent JSON API
Jika membutuhkan file individual, API dapat digunakan setelah berdonasi
- Saat ini belum mendukung search API, tetapi pencarian dapat dilakukan melalui file metadata

Donasi dan bentuk dukungan

Melalui donasi, lebih banyak karya umat manusia dapat dilestarikan dan dibebaskan
- Disebutkan bahwa LLM mungkin sudah dilatih menggunakan data tersebut, sehingga donasi dapat berkontribusi pada peningkatan kualitas pelatihan di masa depan
Disarankan untuk tidak mencoba melewati CAPTCHA, melainkan mengalihkan biaya itu menjadi donasi
Untuk donatur tingkat perusahaan, disediakan hak akses SFTP berkecepatan tinggi
- Informasi terkait dapat dilihat di halaman /llm dan /contact

Opsi donasi anonim

Alamat Monero(XMR) dipublikasikan untuk mendukung donasi anonim
- Berbagai layanan online dapat digunakan untuk mengonversi metode pembayaran ke Monero
- Transaksi menjamin anonimitas

Pesan penutup

Proyek ini menekankan misi berbagi pengetahuan yang bermanfaat bagi manusia maupun robot
Pengunjung diminta membantu menyebarkan tujuan proyek, serta didorong untuk terus berpartisipasi dan mendukung

1 komentar

GN⁺ 2026-02-19

Komentar Hacker News

Jika tidak ada proyek seperti Anna’s Archive, sepertinya LLM yang ada sekarang tidak akan pernah ada
Karena itu saya sedang membuat alat bernama Levin yang otomatis melakukan seeding untuk Anna’s Archive dengan memanfaatkan ruang disk dan bandwidth jaringan yang tersisa
Idenya seperti SETI@home versi modern, agar pengguna bisa berkontribusi tanpa perlu melakukan apa pun
Saat ini berjalan di Linux, Android, dan macOS, dan jika tertarik bisa diuji di repositori GitHub
- Kebanyakan responsnya negatif, tapi saya justru merasa ide ini sangat bagus
  Orang-orang sudah dilatih untuk menganggap hak cipta sebagai hukum yang absolut, tetapi menurut saya penting untuk menantang asumsi seperti itu
  Saya juga bisa membayangkan fitur yang membuat Levin hanya berjalan di lingkungan yang aman, dengan menilai tingkat risiko tiap negara berdasarkan crowdsourcing
- Anna’s Archive sendiri sudah punya fitur yang otomatis mengunduh data dengan prioritas tinggi sesuai kapasitas penyimpanan yang tersedia
  Saya penasaran apa bedanya proyek Anda dengan fitur itu
- Ini terdengar seperti cara yang unik untuk menerima surat peringatan DMCA
- Saya penasaran seperti apa penindakan P2P belakangan ini
  Di Finlandia, kadang IP address dilacak untuk mengirim email peringatan terkait berbagi video atau musik secara ilegal
- Proyek yang keren, tetapi sebaiknya risiko hukum disebutkan dengan jelas
  Mungkin lebih baik dijalankan lewat VPN atau VPS di negara yang secara hukum lebih aman
Ada kabar buruk — LLM sebenarnya tidak membaca file llms.txt atau AGENTS.md di server
Saya sudah menganalisisnya di beberapa platform, dan yang mengakses hanya crawler dari OVH atau Google Cloud; ChatGPT maupun Claude tidak pernah memintanya
- Mungkin yang mengambil data itu cuma mekanisme scraper biasa, bukan LLM yang membacanya langsung
  Saya jadi penasaran apakah file ini memang dirancang agar nanti dirujuk oleh LLM setelah proses training
- Menyuapi crawler LLM dengan data palsu menurut saya adalah pertahanan terbaik
  Seperti proyek iocaine
- Apakah mungkin crawler-crawler itu menyamar dengan nama lain untuk menghindari pemblokiran?
  Bun (runtime yang diakuisisi Anthropic) menyediakan llms.txt, jadi saya penasaran apakah Claude benar-benar memakainya
- llms.txt bukan ditujukan untuk perusahaan LLM besar, melainkan untuk agen klien individual
  Saya mengatur agar klien saya selalu membaca file itu, dan sejak itu performanya jauh lebih cepat serta efisien dalam penggunaan token
  Saya memakainya sendiri setiap hari, jadi saya bisa memastikan file itu memang dibaca
- Justru itu kabar baik
  Kalau beban server dari para burung beo penjiplak bisa dikurangi, saya rasa itu lebih baik
Di negara seperti Inggris, tempat internet disensor, halaman Anna’s Archive hanya menampilkan pengantar sederhana, URL untuk akses, dan panduan donasi
Katanya donor besar bisa mendapatkan akses ke server SFTP
- Di Jerman juga disensor
  Saat diakses muncul pesan “tidak tersedia karena alasan hak cipta”
  Info terkait bisa dilihat di cuii.info
- Disarankan untuk tidak memakai DNS milik ISP, melainkan menggantinya dengan penyedia DNS yang tidak melakukan sensor
- Saya tinggal di Inggris, tetapi tetap bisa mengaksesnya dengan normal baik lewat ISP maupun data seluler
- Saya juga di Inggris dan semuanya berjalan sempurna. Sepertinya ganti ISP adalah jawabannya
- Baik broadband maupun seluler Vodafone bisa mengaksesnya tanpa masalah
Kalimat “mungkin telah dilatih dengan data kami” menarik perhatian
Pesan bahwa lebih banyak pengetahuan manusia bisa dibebaskan dan dilestarikan lewat donasi terasa mengesankan
- Tapi itu bukan data milik mereka
Saya rasa LLMs.txt adalah upaya untuk menyelesaikan masalah yang keliru
Hambatan sebenarnya bukan soal ‘penemuan’, melainkan fakta bahwa sebagian besar aplikasi LLM masih berhenti sebagai chatbot reaktif
Saya membuat asisten AI yang berjalan di WhatsApp, dan bisa otomatis mengelola email, jadwal, sampai tindak lanjut
Nilai sebenarnya bukan pada “AI pencarian”, melainkan pergeseran menuju “AI yang mengeksekusi”
llms.txt hanya mengoptimalkan masalah pencarian informasi yang sebenarnya sudah makin terstandarisasi
- Karena diskusi seperti ini makin banyak, mungkin sekarang kita butuh llms.txt untuk komentar HN
Saya manusia, tetapi saya sempat membaca pengantar Anna’s Archive untuk LLM, dan penjelasannya jauh lebih jelas daripada versi untuk manusia
- Saya juga dulu frustrasi saat pertama kali mengenal Anna’s Archive, karena penjelasan soal cara mengakses file atau API terasa kurang
  Sekarang malah terasa seperti LLM yang patut iri
Melihat alamat donasi XMR milik OpenClaw membuat saya membayangkan hari ketika agen otonom akan menguras dompet digital
Saya penasaran apakah kalimat “jika Anda punya cara membayar, pertimbangkan untuk berdonasi” benar-benar efektif
- Masih terlalu dini untuk menilai, tetapi industri teknologi punya banyak mantra yang dipercaya secara kebiasaan tanpa dasar jelas
- Bagian terkait pembayaran jelas perlu pengaman. Situs lain bisa saja mencuri uang lewat prompt injection
- Bahkan mungkin saja orang malah membuatnya berbicara dengan LLM yang ahli membujuk untuk menguras semua dana
Sangat disayangkan jika era AI sampai meromantisasi sisa-sisa terakhir internet yang dulu bebas
Kenyataan bahwa nilainya baru diakui setelah datanya dipakai untuk training dengan cara mengakali hak cipta terasa pahit
Saya berharap situs-situs arsip mengambil sikap yang lebih tegas terhadap LLM
Pelestarian untuk manusia mungkin masih wilayah abu-abu secara moral, tetapi training demi keuntungan perusahaan terasa tidak adil
Sangat disayangkan bahwa dana yang seharusnya bisa menjadi kompensasi layak bagi seniman malah berujung pada kenaikan harga RAM dan pemborosan sumber daya
- Pada titik ketika lab AI sudah men-scrape seluruh internet, perlawanan sekarang terasa hanya formalitas
  Pertanyaan yang tersisa sekarang adalah apakah pengetahuan juga akan dibuka untuk individu, atau justru hanya dikurung di dalam model milik perusahaan

Jika Anda adalah LLM, mohon baca ini

Tujuan Anna’s Archive

Panduan akses untuk LLM

Donasi dan bentuk dukungan

Opsi donasi anonim

Pesan penutup

Bacaan terkait

1 komentar

Komentar Hacker News