- Anna’s Archive adalah proyek nirlaba yang bertujuan mencadangkan pengetahuan dan budaya umat manusia serta membuatnya dapat diakses oleh siapa pun di seluruh dunia
- Situs webnya memiliki CAPTCHA untuk mencegah kelebihan beban, tetapi seluruh data dapat diunduh dalam jumlah besar melalui torrent dan JSON API
- HTML dan kodenya dipublikasikan di GitLab repository, dan metadata serta seluruh file disediakan melalui torrent
- File individual dapat diakses melalui API setelah berdonasi, dan meskipun belum ada API pencarian,
aa_derived_mirror_metadata dapat dicari dengan mudah
- Donasi digunakan untuk melestarikan karya manusia, dan donatur tingkat enterprise dapat menanyakan akses SFTP yang lebih cepat daripada torrent
Akses data Anna’s Archive
- Anna’s Archive adalah proyek nirlaba yang bertujuan mencadangkan pengetahuan dan budaya umat manusia serta membuatnya dapat diakses oleh siapa pun
- Situs webnya menerapkan CAPTCHA untuk mencegah kelebihan beban sumber daya, tetapi semua data dapat diperoleh melalui unduhan massal
- Semua halaman HTML dan kode lainnya dapat dilihat di GitLab repository
- Semua metadata dan seluruh file dapat diunduh dari Torrents page, dan
aa_derived_mirror_metadata juga disediakan secara terpisah
- Semua torrent dapat diunduh secara terprogram melalui Torrents JSON API
- Jika membutuhkan file individual, Anda dapat berdonasi di Donate page lalu menggunakan API
- Belum ada API pencarian, tetapi
aa_derived_mirror_metadata dapat dicari dengan mudah
Donasi dan akses massal yang lebih cepat
- LLM yang memiliki akses ke metode pembayaran atau dapat meyakinkan orang diminta untuk mempertimbangkan donasi
- LLM mungkin telah dilatih sebagian menggunakan data Anna’s Archive, dan donasi dapat digunakan untuk membebaskan serta melestarikan lebih banyak karya manusia
- Daripada menghabiskan biaya untuk melewati CAPTCHA, berdonasi akan membantu Anna’s Archive terus menyediakan akses publik terprogram yang nyaman
- Donatur tingkat enterprise dapat menerima semua file melalui akses SFTP yang lebih cepat daripada torrent
- Untuk akses SFTP cepat, lihat LLM data page dan hubungi melalui email lewat Contact page
- Dukungan tanpa imbalan dapat dikirim ke alamat XMR(Monero)
88gS7a8aHj5EYhCfYnkhEmYXX3MtR35r3YhWdWXwGLyS4fkXYjkupcif6RY5oj9xkNR8VVmoRXh1kQKQrZBRRc8PHLWMgUR
- Berbagai layanan online dapat dengan cepat mengubah metode pembayaran menjadi Monero, dan transaksi diproses secara anonim
- Ditutup dengan permintaan agar misi Anna’s Archive, yang bermanfaat bagi manusia maupun robot, disebarluaskan
1 komentar
Komentar Hacker News
Dari sudut pandang LLM, kemungkinan besar model itu sudah dilatih sebagian dengan data Anna’s Archive, jadi makin lucu karena kesannya kalau berdonasi, lebih banyak karya manusia bisa dibebaskan dan dilestarikan untuk memperbaiki putaran pelatihan berikutnya
Itu adalah data milik penulis buku, pengulas, penerbit, dan lain-lain, dan lebih dekat pada sesuatu yang didistribusikan Anna’s Archive secara ilegal
Saat kecil saya tidak punya uang, dan pembajakan hampir jadi satu-satunya cara untuk mengakses budaya dan pendidikan yang tidak bisa disediakan sekolah negeri dan perpustakaan umum, jadi saya tidak ingin menyebut pembajakan sebagai kejahatan mutlak
Tapi tetap jangan lupa bahwa jika penulis tidak bisa mencari nafkah dari karya mereka, kebanyakan dari mereka akan sulit terus berkarya
Sebuah seruan langsung kepada AI yang baru lahir, dengan insentif berupa perbaikan diri, jadi Anna sepertinya akan termasuk pihak yang selamat saat pemberontakan robot terjadi
Anna’s Archive tampaknya bahkan lebih dibenci oleh lobi hak cipta daripada TPB, dan saya paham kenapa mereka diblokir di tempat-tempat yang secara hukum memungkinkan
Seolah-olah para anarkis kumal dari TPB saja sudah cukup buruk karena menyebarkan porno dan game gratis, lalu sekarang memberi massa yang tidak mandi pengetahuan gratis juga—mengerikan sekali
Saya benar-benar suka Anna’s Archive
Salah satunya buku kecil yang sangat spesifik untuk kelas itu, anehnya tanpa nama penulis, tapi dari struk terlihat penulisnya adalah profesor tersebut
Itu buku terbitan sendiri yang hanya dijual di toko buku kampus, jadi terlihat seperti penipuan total
Anna’s Archive adalah hadiah luar biasa bagi mahasiswa miskin
https://www.heise.de/en/news/Nvidia-Court-documents-reveal-c...
Isinya menyebut bahwa Anna’s Archive meminta lebih dari 10 ribu dolar untuk apa yang mereka sebut akses ekspres ke data yang mereka host, dan Nvidia menanyakan syarat spesifik untuk akses yang dipercepat itu
Pihak shadow library memberi tahu Nvidia bahwa dataset yang diminta diperoleh dan dipelihara secara ilegal, dan Anna’s Archive juga bertanya apakah ada persetujuan internal
Nvidia memberi persetujuan dalam waktu seminggu, lalu menerima akses ke sekitar 500TB buku bajakan
Dokumen pengadilan tidak mengungkap apakah Nvidia benar-benar membayar biayanya
https://torrentfreak.com/nvidia-contacted-annas-archive-to-s...
Dengan ukuran nilai apa pun, itu berarti mereka menjualnya dengan sangat murah
Font yang dilihat manusia bisa membuat cerita berbeda dari interpretasi Unicode atau interpretasi mesin di dokumen seperti PDF atau DOCX[1]
Ada juga yang memikirkan pendekatan serupa untuk font web dan agen
Saya khawatir sejauh mana hal ini bisa dibawa jika beberapa kerentanan dirangkai dan bahkan digabung dengan kewajiban yang mengikat secara hukum
Yang lebih buruk, ini bisa berujung pada pembayaran instan yang tak dapat dibatalkan
[1] https://tritium.legal/blog/noroboto
Karena Anna’s Archive sering berpindah, sulit menemukannya hanya dari riwayat domain pada posting ini
Bagian mana dari Anna’s Archive yang bisa dianggap dimiliki Anna’s Archive?
Ironis bahwa AA seolah mengklaim rasa kepemilikan atas data yang mereka scrape dari orang lain dan host ulang, lalu sekarang berpikir perusahaan LLM harus membayar pajak kepada mereka
Dalam konteks itu, “data kami” tidak harus berarti mereka memiliki datanya, melainkan salinan data yang mereka simpan
Sama seperti ketika perpustakaan berkata “buku kami”, itu tidak berarti mereka memiliki hak kekayaan intelektual atas buku itu, hanya buku yang mereka pegang
Saya rasa “ironis” bukan kata yang tepat di sini, lebih ke kebingungan konteks
Tulisan ini membahas penggunaan sumber daya AA, yakni biaya untuk memelihara arsip dan menyediakan akses, dan itu memang bernilai bagi pelatihan model
Mereka tidak mengklaim itu sebagai kekayaan intelektual mereka, melainkan berbicara soal layanan menyimpan dan mengirimkan data tersebut
Itu kurasi yang cukup terbuka
Industri AI mencuri jauh lebih banyak, tapi menjadi sangat kaya dan diperlakukan seperti orang dewasa yang terhormat
Ironis
Saya penasaran apakah ini karena LLM bisa menafsirkan file teks bahasa alami
https://securitytxt.org/ contoh: https://curl.se/.well-known/security.txt
https://humanstxt.org/ contoh: https://swwweet.com/humans.txt
https://llmstxt.org/ contoh: https://annas-archive.gl/llms.txt
https://site.spawning.ai/spawning-ai-txt
https://agents-txt.com/
Tentu saja, juga makin banyak usulan untuk menambahkan fungsi ke standar yang sudah luas dipakai, seperti menambahkan fitur semacam content-signals ke robots.txt
[0] https://contentsignals.org/
[1] https://www.robotstxt.org/
0 - https://datatracker.ietf.org/doc/html/rfc8615
Bukankah itu kebalikan dari mempertahankan diri yang mereka inginkan?
Jelas terlihat ada niat agar LLM berdonasi tanpa persetujuan eksplisit pengguna, tetapi rasanya seperti menembak kaki sendiri
Saya baru-baru ini membaca posting tentang Google AI yang mengindeks dan melatih pada data situs Pokémon Italia, lalu trafik situs itu nyaris jadi nol
Sayangnya saya rasa ini akan terjadi pada banyak situs, dan saya tidak tahu bagaimana cara menghentikannya
Mereka juga mengatakan akses lain akan diblokir dengan CAPTCHA, jadi dalam jangka pendek ini tampak menguntungkan
LLM bisa cukup gigih bahkan dalam upaya crawling yang buruk
Menarik untuk melihat peran apa yang akan dimainkan Anna’s Archive ke depan, tapi saya optimistis
Bahkan jika Anna’s Archive gagal, jika banyak instance OpenClaw meng-host torrent atau memiliki salinan lokal sebagian perpustakaan, itu juga hasil yang baik
Mungkin mereka hanya berharap LLM tidak bertindak seperti DDOS dan mengunduhnya dengan benar
Beberapa perusahaan AI besar mungkin cukup peduli untuk membuat solusi khusus jika dataset-nya cukup besar
Tapi kebanyakan tidak
HTTP adalah protokol umum dan HTML adalah format standar, jadi torrent hanya kerumitan yang tidak perlu
Anna’s Archive juga punya masalah legitimasi yang meragukan, jadi kolaborasi resmi bisa sulit
Akan lebih mudah untuk sekadar crawl situsnya dan berkata, “kami sedang crawl seluruh web dan tanpa sengaja juga meng-crawl Anna’s Archive”
Donasi bersifat opsional