- Edisi digital dari Encyclopædia Britannica edisi ke-11 1910–1911, dengan pencarian penuh, referensi silang, dan fitur anotasi
- Menyediakan pemisahan navigasi atas menjadi Articles, Contributors, Topics, Ancillary
- Pada judul tercantum Encyclopædia Britannica dan Eleventh Edition · 1910–1911
- Frasa pengantar Fully searchable, cross-referenced, and annotated ditampilkan secara langsung
- Penjelasan isi tambahan, contoh, atau pengenalan fitur terperinci tidak disajikan
Ikhtisar
- Edisi digital dari Encyclopædia Britannica edisi ke-11 1910–1911, dengan pencarian penuh, referensi silang, dan fitur anotasi
- Menyediakan pemisahan navigasi atas menjadi Articles, Contributors, Topics, Ancillary
- Pada judul tercantum Encyclopædia Britannica, Eleventh Edition · 1910–1911
- Frasa pengantar Fully searchable, cross-referenced, and annotated ditampilkan secara langsung
- Penjelasan isi tambahan, contoh, dan rincian fitur tidak disediakan
Informasi yang disediakan
- Karakteristik inti edisi digital yang dapat langsung dipastikan adalah kemampuan pencarian, referensi silang, dan penambahan anotasi
- Tidak mencakup penjelasan lanjutan yang setara dengan isi artikel atau pengenalan terperinci untuk setiap entri
- Metadata seperti informasi penulis, informasi penerbitan, dan informasi referensi dikecualikan dari ringkasan
1 komentar
Komentar Hacker News
Saya membangun ulang Encyclopædia Britannica 1911 menjadi situs penjelajahan yang rapi dan terstruktur. Bisa dilihat di https://britannica11.org/
Sekitar 37 ribu artikel saya pulihkan berdasarkan volume aslinya, lalu saya tambahkan klik daftar isi per bagian, tautan silang, pencarian kontributor, penanda volume dan halaman asli, tautan ke scan halaman asli untuk setiap halaman, materi lampiran, indeks subjek, serta pencarian full-text yang mencakup metadata
Pekerjaan intinya adalah menangani pipeline pemulihan untuk struktur judul, artikel yang membentang di beberapa halaman, tabel, rumus, multibahasa, catatan kaki, dan pelat ilustrasi
Tujuannya adalah mempertahankan nuansa aslinya sambil membuatnya dalam bentuk yang benar-benar berguna dipakai
Saya terutama ingin mendapat masukan soal kualitas pencarian, perpindahan antarbagian dan tautan silang, serta bagian-bagian yang strukturnya terasa janggal
Pertanyaan tentang pipeline atau model data juga sangat disambut
Namun, setelah masuk ke sebuah artikel, kotak pencarian di atas dengan tulisan "Search titles and full text..." tidak berfungsi saat saya mencoba berpindah ke topik lain
Selain itu, saat pertama kali masuk saya agak bingung harus mulai dari mana, dan tidak langsung paham bahwa eksplorasi dimulai dengan menekan "Articles" atau "Topics". Sepertinya saya mengira gambar utama itu sendiri akan berfungsi sebagai pintu masuk
Menurut saya proyek ini benar-benar keren. Saya sendiri sudah lama berpikir untuk membuat sesuatu yang mirip dalam cakupan yang lebih kecil
Ada beberapa alasan mengapa Britannica 1911 sangat terkenal, tetapi yang paling dikenal luas menurut saya adalah bahwa ini adalah ensiklopedia terakhir sebelum Perang Dunia I
Karena itu, masih terasa optimisme era revolusi industri pertama dan kedua serta Progressive Era, dan suasananya belum tercemar oleh guncangan dari "perang untuk mengakhiri semua perang"
Saya langsung mencoba mencari Portuguese East Africa secara acak di https://britannica11.org, dan langsung ketemu serta ditampilkan dengan baik; hasilnya ada di https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa
Sebagai permintaan sopan, saya rasa akan sangat bagus jika ada opsi tampilan berdampingan antara teks dan gambar halaman asli
Dengan begitu orang bisa langsung memeriksa fidelitas OCR sambil tetap melihat indahnya cetakan asli, dan tidak perlu membuka jendela baru untuk setiap halaman
Secara pribadi, saya ingin memakai situs ini sebagai titik masuk dokumen, lalu membaca dengan fokus pada gambar dan beralih ke teks saat perlu memeriksa atau menyalin sesuatu
Saya tahu gambar aslinya sudah ada sekarang, tetapi tampilannya kurang menonjol sampai-sampai saya baru menemukannya setelah tiga kali berkunjung. Solusi tengah seperti thumbnail opsional juga tampak bagus
Yang paling penting, situsnya juga cepat
Dan pada versi OP saya juga melihat beberapa masalah fidelitas. Di https://britannica11.org/article/18-0684-s2/molecule, ada sebagian rumus yang hilang di bawah "the molecules of other kinds", dan itu bisa dicek dengan membandingkan [1] https://britannica11.org/article/18-0684-s2/molecule#:~:text=the%20molecules%20of%20other%20kinds dan [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688
Selain itu, catatan kaki 1 di versi OP melekat pada "as they have always done", padahal seharusnya melekat pada "Atom" di p. 654. Itu bisa dibandingkan lewat [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text=as%20they%20have%20always%20done, [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/684#cite_note-654f1-1
Karena alasan yang kamu sebutkan, saya juga sudah lama berpikir bahwa tampilan teks dan halaman berdampingan akan bagus, tetapi belum saya buat
Masukan bahwa tautan ke scan tidak langsung terlihat juga berguna, dan saya merasa itu perlu dibuat lebih jelas
Sebagai informasi, jika menekan tautan vol:page di margin kiri, kamu bisa langsung pindah ke scan halaman yang sedang dibaca
Kalau melihat artikel seperti "Adolescence", terasa ada keyakinan-keyakinan yang hari ini akan terbaca cukup mengejutkan
Misalnya, ada bagian yang mengatakan bahwa pada masa pubertas anak perempuan sebaiknya dikurangi olahraga dan beban pendidikan intelektualnya, lalu dipaksa beristirahat
Dalam praktiknya, banyak orang sebenarnya menjalani bentuk kehidupan yang mirip, dan gerakan perempuan pun pernah sangat mendorong arah sebaliknya lalu belakangan menyesuaikan diri dengan lebih menekankan kebebasan memilih untuk tidak masuk ke pasar kerja
Preferensi terhadap apa yang disebut "soft life" tidak bergantung pada zaman, dan saya pikir laki-laki pun akan memilih peran yang bebannya intelektualnya lebih ringan dan bertahap dalam jumlah yang cukup besar jika pilihan budaya untuk ditopang secara ekonomi oleh orang lain terbuka luas bagi mereka
Kalau begitu, sebagian ketimpangan representasi di bidang lain juga bisa berkurang bukan karena perempuan dipaksa masuk, melainkan karena laki-laki secara sukarela keluar, menurut sudut pandang ini
Menariknya, LLM juga berguna untuk merapikan paragraf-paragraf padat khas dokumen sejarah dengan formatting yang agak berlebihan
Dan kalau diberi prompt lanjutan seperti "Bagaimana teks ini akan diterima hari ini?", model juga bisa menjelaskan dengan cukup rinci bagian-bagian yang menurut standar sekarang terasa tidak pantas atau sulit diterima
Saya penasaran bagaimana struktur informasinya di balik layar. Saya baru belakangan tahu bahwa di ranah digital humanities, pekerjaan seperti ini sering memakai markup semantik seperti XML-TEI
Saya belajar BaseX dan XQuery sambil melihat data kamus Latin-Inggris Lewis & Short yang dienkodekan dalam XML-TEI, dan saya senang bisa mengajukan pertanyaan seperti "penulis klasik mana yang memakai kata yang hanya muncul sekali di seluruh korpus" atau "apa kata hapax terpanjang"
Menarik juga bahwa Tufts University membagikan materi seperti itu secara terbuka
Saya rasa akan sangat seru kalau Britannica 1911 juga bisa dimasukkan ke BaseX lalu diulik dengan XQuery
Teksnya sendiri memang domain publik, tetapi saya belum merilis ekspor terstruktur massal
Namun, karena ada banyak permintaan akses dataset juga di thread ini, saya sedang mempertimbangkannya dengan serius, dan jika dirilis saya ingin bentuknya tetap mempertahankan struktur, bukan sekadar dump teks biasa
Menarik melihat bahwa gaya bahasa dan strukturnya cukup berbeda dibanding teks modern
Misalnya, jika melihat entri Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen, penulis menjelaskan geografi dan tempat-tempat utama dengan akurat, tetapi juga tanpa ragu memasukkan kata sifat emosional dan opini pribadi tentang hal-hal yang mereka anggap menarik atau ganjil
Selain itu, bagian Battle of Copenhagen di bawahnya terasa seperti berganti genre secara tiba-tiba, dari penjelasan geografi langsung berpindah menjadi deskripsi adegan demi adegan pertempuran laut
Geografi, sejarah, dan kadang opini yang cukup kuat tercampur di satu tempat, dan justru menurut saya jadi lebih enak dibaca
Saya juga merangkum pemikiran soal ini di tulisan pengantar saya: https://britannica11.org/about.html
Contohnya bagian yang memuji Les Misérables sebagai "novel epik dan dramatik terbesar yang pernah diciptakan atau dibayangkan"
Saya sudah lama bertanya-tanya apakah ensiklopedia yang relatif baru seperti Encarta atau Britannica edisi 2021 masih bisa didapatkan
Sebelum era LLM dan sesudah COVID, rasanya seperti berharap ada semacam sumber informasi terakhir yang belum terlalu terkontaminasi AI
Salah satu benda favorit saya semasa kecil adalah ensiklopedia CD-ROM, dan pada sore hujan di masa internet belum umum, saya sangat suka membuka artikel favorit lalu membaca dan belajar darinya
Salah satu motivasi proyek ini juga untuk menghidupkan lagi rasa eksplorasi itu berdasarkan teks dan struktur asli tahun 1911
Kalau kamu suka Encyclopedia Britannica 1911, saya rasa https://OldEncyc.com juga akan menarik
Di sana, kamu bisa menelusuri ensiklopedia lama dari 22 edisi antara 1728 sampai 1926 berdasarkan volume dan rentang huruf. Memang tidak berbasis pencarian seperti situs OP, tetapi cakupan materinya luas
Laporan bug yang sangat kecil, tetapi font yang sekarang dipilih tampaknya tidak mendukung karakter ℔, jadi artikel seperti https://britannica11.org/article/22-0688-s2/putting_the_shot terlihat aneh
Mungkin juga layak mempertimbangkan normalisasi ke lb, yang sekarang lebih familiar
Kelihatannya sepele, tetapi proyek ini memang penuh dengan hal-hal semacam ini
Dunia memang sempit. Saat ini saya sedang merapikan scan EB edisi ke-9 dan mengunggahnya ke situs MediaWiki, dan karena saya juga memasukkan ilustrasi dan pelat gambar, sejauh ini saya baru mencapai sekitar sepertiga
Saya sudah mencoba berbagai alat OCR, dan sejauh ini paddleOCR yang paling mengesankan
Ia cukup bagus dalam memisahkan kolom teks, memberi label ilustrasi, dan mengenali teks di margin
Tentu belum sempurna, jadi beberapa tabel masih saya perbaiki manual, dan saya juga berencana mengunggah halaman sumber agar orang bisa bolak-balik antara scan halaman asli dan teks elektronik
Kalau di-online-kan dengan gaya seperti ini lengkap dengan hyperlink dan indeks, bahan lain yang terasa menarik antara lain atlas geografi, atlas kedokteran, dan panduan wisata Baedeker
Saya langsung teringat entri burung yang sangat panjang karya Alfred Newton, atau beberapa esai klasik Macaulay
Beberapa bagiannya terasa cukup unik dan agak ganjil jika dibaca sekarang. Misalnya, di entri stars https://britannica11.org/article/25-0806-star/star#section-10, dijelaskan bahwa jika bintang-bintang tersebar tak terbatas dan merata di ruang angkasa tanpa penyerapan cahaya, maka latar langit seharusnya menjadi sangat terang menyilaukan
Hasilnya ada di https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, dan itu membuat terasa betapa berbedanya zamannya
Sebaliknya, mereka menganggap semacam penyusunan ulang pada struktur atom unsur sebagai penjelasan yang paling masuk akal, dan menjelaskan bahwa energi dilepaskan saat nebula mengembun menjadi matahari lalu materi berkembang menjadi unsur-unsur yang dikenal
Mengingat tingkat pengetahuan saat itu, menurut saya itu tebakan yang mengejutkan dekatnya