1 poin oleh GN⁺ 9 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Edisi digital dari Encyclopædia Britannica edisi ke-11 1910–1911, dengan pencarian penuh, referensi silang, dan fitur anotasi
  • Menyediakan pemisahan navigasi atas menjadi Articles, Contributors, Topics, Ancillary
  • Pada judul tercantum Encyclopædia Britannica dan Eleventh Edition · 1910–1911
  • Frasa pengantar Fully searchable, cross-referenced, and annotated ditampilkan secara langsung
  • Penjelasan isi tambahan, contoh, atau pengenalan fitur terperinci tidak disajikan

Ikhtisar

  • Edisi digital dari Encyclopædia Britannica edisi ke-11 1910–1911, dengan pencarian penuh, referensi silang, dan fitur anotasi
  • Menyediakan pemisahan navigasi atas menjadi Articles, Contributors, Topics, Ancillary
  • Pada judul tercantum Encyclopædia Britannica, Eleventh Edition · 1910–1911
  • Frasa pengantar Fully searchable, cross-referenced, and annotated ditampilkan secara langsung
  • Penjelasan isi tambahan, contoh, dan rincian fitur tidak disediakan

Informasi yang disediakan

  • Karakteristik inti edisi digital yang dapat langsung dipastikan adalah kemampuan pencarian, referensi silang, dan penambahan anotasi
  • Tidak mencakup penjelasan lanjutan yang setara dengan isi artikel atau pengenalan terperinci untuk setiap entri
  • Metadata seperti informasi penulis, informasi penerbitan, dan informasi referensi dikecualikan dari ringkasan

1 komentar

 
GN⁺ 9 hari lalu
Komentar Hacker News
  • Saya membangun ulang Encyclopædia Britannica 1911 menjadi situs penjelajahan yang rapi dan terstruktur. Bisa dilihat di https://britannica11.org/
    Sekitar 37 ribu artikel saya pulihkan berdasarkan volume aslinya, lalu saya tambahkan klik daftar isi per bagian, tautan silang, pencarian kontributor, penanda volume dan halaman asli, tautan ke scan halaman asli untuk setiap halaman, materi lampiran, indeks subjek, serta pencarian full-text yang mencakup metadata
    Pekerjaan intinya adalah menangani pipeline pemulihan untuk struktur judul, artikel yang membentang di beberapa halaman, tabel, rumus, multibahasa, catatan kaki, dan pelat ilustrasi
    Tujuannya adalah mempertahankan nuansa aslinya sambil membuatnya dalam bentuk yang benar-benar berguna dipakai
    Saya terutama ingin mendapat masukan soal kualitas pencarian, perpindahan antarbagian dan tautan silang, serta bagian-bagian yang strukturnya terasa janggal
    Pertanyaan tentang pipeline atau model data juga sangat disambut

    • Saya rasa akan cocok juga menambahkan The Reader's Guide to the Encyclopaedia Britannica sebagai materi lampiran. Teks domain publiknya bisa dilihat di https://www.gutenberg.org/ebooks/74039, dan scan-nya di https://archive.org/details/readersguidetoen00londuoft
    • Menurut saya ini dibuat dengan sangat baik. Sebagai usulan fitur, akan bagus jika pipeline-nya juga mendukung pembuatan EPUB. Jadi meskipun situsnya turun, orang masih bisa mencari dan membaca secara offline, dan berkat kompresi EPUB ukuran seluruh berkas ensiklopedianya mungkin tidak akan sebesar yang dibayangkan
    • Saya merasa ada masalah escape di bagian daftar isi. Misalnya, di artikel United States penulisan Roosevelt's terlihat rusak. https://britannica11.org/article/27-0635-united-states-the/united_states__the
    • Ini cukup bagus sampai saya benar-benar menghabiskan waktu lama menjelajahi beberapa topik
      Namun, setelah masuk ke sebuah artikel, kotak pencarian di atas dengan tulisan "Search titles and full text..." tidak berfungsi saat saya mencoba berpindah ke topik lain
      Selain itu, saat pertama kali masuk saya agak bingung harus mulai dari mana, dan tidak langsung paham bahwa eksplorasi dimulai dengan menekan "Articles" atau "Topics". Sepertinya saya mengira gambar utama itu sendiri akan berfungsi sebagai pintu masuk
    • Saya rasa akan lebih baik jika ada tautan internal gaya Wikipedia yang menghubungkan topik-topik yang disebut di dalam satu artikel ke artikel lainnya
  • Menurut saya proyek ini benar-benar keren. Saya sendiri sudah lama berpikir untuk membuat sesuatu yang mirip dalam cakupan yang lebih kecil
    Ada beberapa alasan mengapa Britannica 1911 sangat terkenal, tetapi yang paling dikenal luas menurut saya adalah bahwa ini adalah ensiklopedia terakhir sebelum Perang Dunia I
    Karena itu, masih terasa optimisme era revolusi industri pertama dan kedua serta Progressive Era, dan suasananya belum tercemar oleh guncangan dari "perang untuk mengakhiri semua perang"
    Saya langsung mencoba mencari Portuguese East Africa secara acak di https://britannica11.org, dan langsung ketemu serta ditampilkan dengan baik; hasilnya ada di https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa
    Sebagai permintaan sopan, saya rasa akan sangat bagus jika ada opsi tampilan berdampingan antara teks dan gambar halaman asli
    Dengan begitu orang bisa langsung memeriksa fidelitas OCR sambil tetap melihat indahnya cetakan asli, dan tidak perlu membuka jendela baru untuk setiap halaman
    Secara pribadi, saya ingin memakai situs ini sebagai titik masuk dokumen, lalu membaca dengan fokus pada gambar dan beralih ke teks saat perlu memeriksa atau menyalin sesuatu
    Saya tahu gambar aslinya sudah ada sekarang, tetapi tampilannya kurang menonjol sampai-sampai saya baru menemukannya setelah tiga kali berkunjung. Solusi tengah seperti thumbnail opsional juga tampak bagus
    Yang paling penting, situsnya juga cepat

  • Kalau melihat artikel seperti "Adolescence", terasa ada keyakinan-keyakinan yang hari ini akan terbaca cukup mengejutkan
    Misalnya, ada bagian yang mengatakan bahwa pada masa pubertas anak perempuan sebaiknya dikurangi olahraga dan beban pendidikan intelektualnya, lalu dipaksa beristirahat

    • Saya setuju. Itu juga salah satu alasan saya tertarik pada edisi 1911. Para penulis bisa mengungkapkan opini mereka dengan lebih langsung, dan opini itu secara alami mencerminkan pandangan umum zamannya
    • Saya rasa hal-hal seperti itu juga tampak mengejutkan terutama ketika diformalkan dalam tulisan
      Dalam praktiknya, banyak orang sebenarnya menjalani bentuk kehidupan yang mirip, dan gerakan perempuan pun pernah sangat mendorong arah sebaliknya lalu belakangan menyesuaikan diri dengan lebih menekankan kebebasan memilih untuk tidak masuk ke pasar kerja
      Preferensi terhadap apa yang disebut "soft life" tidak bergantung pada zaman, dan saya pikir laki-laki pun akan memilih peran yang bebannya intelektualnya lebih ringan dan bertahap dalam jumlah yang cukup besar jika pilihan budaya untuk ditopang secara ekonomi oleh orang lain terbuka luas bagi mereka
      Kalau begitu, sebagian ketimpangan representasi di bidang lain juga bisa berkurang bukan karena perempuan dipaksa masuk, melainkan karena laki-laki secara sukarela keluar, menurut sudut pandang ini
    • Sekarang, untuk teks domain publik, saya merasa hampir apa pun bisa dimasukkan ke LLM kelas mutakhir seperti Kimi atau GLM untuk mendapatkan ringkasan bahasa modern yang cukup bagus
      Menariknya, LLM juga berguna untuk merapikan paragraf-paragraf padat khas dokumen sejarah dengan formatting yang agak berlebihan
      Dan kalau diberi prompt lanjutan seperti "Bagaimana teks ini akan diterima hari ini?", model juga bisa menjelaskan dengan cukup rinci bagian-bagian yang menurut standar sekarang terasa tidak pantas atau sulit diterima
  • Saya penasaran bagaimana struktur informasinya di balik layar. Saya baru belakangan tahu bahwa di ranah digital humanities, pekerjaan seperti ini sering memakai markup semantik seperti XML-TEI
    Saya belajar BaseX dan XQuery sambil melihat data kamus Latin-Inggris Lewis & Short yang dienkodekan dalam XML-TEI, dan saya senang bisa mengajukan pertanyaan seperti "penulis klasik mana yang memakai kata yang hanya muncul sekali di seluruh korpus" atau "apa kata hapax terpanjang"
    Menarik juga bahwa Tufts University membagikan materi seperti itu secara terbuka
    Saya rasa akan sangat seru kalau Britannica 1911 juga bisa dimasukkan ke BaseX lalu diulik dengan XQuery

    • Struktur internalnya bukan XML-TEI, melainkan berbasis data relasional dan pipeline. Batas artikel, bagian, kontributor, tautan silang, dan informasi sumber halaman asli dipulihkan sebagai record terstruktur
      Teksnya sendiri memang domain publik, tetapi saya belum merilis ekspor terstruktur massal
      Namun, karena ada banyak permintaan akses dataset juga di thread ini, saya sedang mempertimbangkannya dengan serius, dan jika dirilis saya ingin bentuknya tetap mempertahankan struktur, bukan sekadar dump teks biasa
  • Menarik melihat bahwa gaya bahasa dan strukturnya cukup berbeda dibanding teks modern
    Misalnya, jika melihat entri Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen, penulis menjelaskan geografi dan tempat-tempat utama dengan akurat, tetapi juga tanpa ragu memasukkan kata sifat emosional dan opini pribadi tentang hal-hal yang mereka anggap menarik atau ganjil
    Selain itu, bagian Battle of Copenhagen di bawahnya terasa seperti berganti genre secara tiba-tiba, dari penjelasan geografi langsung berpindah menjadi deskripsi adegan demi adegan pertempuran laut

    • Saya setuju. Itu salah satu hal yang paling saya sukai dari edisi ini. Artikel-artikelnya memiliki nada yang lebih personal dan kurang terseragamkan
      Geografi, sejarah, dan kadang opini yang cukup kuat tercampur di satu tempat, dan justru menurut saya jadi lebih enak dibaca
      Saya juga merangkum pemikiran soal ini di tulisan pengantar saya: https://britannica11.org/about.html
    • Begitu melihat entri Victor Hugo, saya langsung menemukan kalimat yang jelas sekali menunjukkan penulisnya adalah penggemar
      Contohnya bagian yang memuji Les Misérables sebagai "novel epik dan dramatik terbesar yang pernah diciptakan atau dibayangkan"
  • Saya sudah lama bertanya-tanya apakah ensiklopedia yang relatif baru seperti Encarta atau Britannica edisi 2021 masih bisa didapatkan
    Sebelum era LLM dan sesudah COVID, rasanya seperti berharap ada semacam sumber informasi terakhir yang belum terlalu terkontaminasi AI
    Salah satu benda favorit saya semasa kecil adalah ensiklopedia CD-ROM, dan pada sore hujan di masa internet belum umum, saya sangat suka membuka artikel favorit lalu membaca dan belajar darinya

  • Kalau kamu suka Encyclopedia Britannica 1911, saya rasa https://OldEncyc.com juga akan menarik
    Di sana, kamu bisa menelusuri ensiklopedia lama dari 22 edisi antara 1728 sampai 1926 berdasarkan volume dan rentang huruf. Memang tidak berbasis pencarian seperti situs OP, tetapi cakupan materinya luas

    • Situs ini baru bagi saya, tetapi menurut saya koleksinya sangat bagus. Saya terutama suka karena mencakup banyak edisi yang berbeda secara luas
  • Laporan bug yang sangat kecil, tetapi font yang sekarang dipilih tampaknya tidak mendukung karakter ℔, jadi artikel seperti https://britannica11.org/article/22-0688-s2/putting_the_shot terlihat aneh
    Mungkin juga layak mempertimbangkan normalisasi ke lb, yang sekarang lebih familiar

    • Poin yang bagus. Itu masalah cakupan glif, jadi saya berpikir untuk menambahkan font fallback untuk karakter yang hilang atau menormalisasikannya dalam kasus seperti itu
      Kelihatannya sepele, tetapi proyek ini memang penuh dengan hal-hal semacam ini
  • Dunia memang sempit. Saat ini saya sedang merapikan scan EB edisi ke-9 dan mengunggahnya ke situs MediaWiki, dan karena saya juga memasukkan ilustrasi dan pelat gambar, sejauh ini saya baru mencapai sekitar sepertiga
    Saya sudah mencoba berbagai alat OCR, dan sejauh ini paddleOCR yang paling mengesankan
    Ia cukup bagus dalam memisahkan kolom teks, memberi label ilustrasi, dan mengenali teks di margin
    Tentu belum sempurna, jadi beberapa tabel masih saya perbaiki manual, dan saya juga berencana mengunggah halaman sumber agar orang bisa bolak-balik antara scan halaman asli dan teks elektronik

    • Sebagai referensi, edisi ke-9 tahun 1875 dikenal sebagai scholar's edition karena banyak tokoh ternama yang berkontribusi, dan terasa seperti snapshot yang memikat dari akhir abad ke-19
      Kalau di-online-kan dengan gaya seperti ini lengkap dengan hyperlink dan indeks, bahan lain yang terasa menarik antara lain atlas geografi, atlas kedokteran, dan panduan wisata Baedeker
    • Terdengar sangat menarik. Edisi ke-9 itu hebat dengan sendirinya, dan banyak isinya berlanjut ke edisi ke-11
      Saya langsung teringat entri burung yang sangat panjang karya Alfred Newton, atau beberapa esai klasik Macaulay
  • Beberapa bagiannya terasa cukup unik dan agak ganjil jika dibaca sekarang. Misalnya, di entri stars https://britannica11.org/article/25-0806-star/star#section-10, dijelaskan bahwa jika bintang-bintang tersebar tak terbatas dan merata di ruang angkasa tanpa penyerapan cahaya, maka latar langit seharusnya menjadi sangat terang menyilaukan

    • Saya mencari "computer" dan ternyata tidak ada komputer dalam arti modern, yang muncul justru Chauncey Wright yang bekerja sebagai computer sebagai nama profesi di American Ephemeris and Nautical Almanac
      Hasilnya ada di https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, dan itu membuat terasa betapa berbedanya zamannya
    • Entri Sun juga cukup menarik. Mereka belum tahu tentang fusi nuklir, tetapi kebanyakan teori seperti pembakaran kimia atau kontraksi gravitasi untuk menjelaskan energi besar matahari sudah mereka tolak
      Sebaliknya, mereka menganggap semacam penyusunan ulang pada struktur atom unsur sebagai penjelasan yang paling masuk akal, dan menjelaskan bahwa energi dilepaskan saat nebula mengembun menjadi matahari lalu materi berkembang menjadi unsur-unsur yang dikenal
      Mengingat tingkat pengetahuan saat itu, menurut saya itu tebakan yang mengejutkan dekatnya
    • Menurut saya bagian itu bisa dipahami dengan mengaitkannya ke Olbers' paradox