2 poin oleh GN⁺ 2025-12-08 | 1 komentar | Bagikan ke WhatsApp
  • arXiv mulai menyediakan makalah dalam format HTML bersama PDF untuk meningkatkan aksesibilitas riset
  • Dari lebih dari 2 juta makalah, sebagian tidak menyediakan versi HTML karena keterbatasan konversi otomatis, dan kualitas konversi akan terus ditingkatkan
  • HTML lebih unggul dari sisi aksesibilitas karena sangat kompatibel dengan screen reader, text-to-speech, dan perangkat seluler
  • Komunitas dapat berpartisipasi langsung dalam proyek ini melalui pelaporan error dan perbaikan konversi LaTeX
  • Upaya ini menunjukkan arah jangka panjang arXiv untuk memperluas inklusivitas dan aksesibilitas riset ilmiah

Gambaran umum penyediaan makalah format HTML

  • arXiv meningkatkan aksesibilitas riset dengan memperkenalkan format makalah HTML selain PDF yang sudah ada
    • Menurut umpan balik komunitas, penyediaan HTML dinilai sebagai langkah yang dapat memberi dampak terbesar dalam waktu dekat
  • Versi HTML ditampilkan di bawah tautan unduh PDF pada halaman abstrak makalah
    • Penulis dapat memeriksa pratinjau HTML makalah mereka selama proses pengiriman
  • arXiv sedang menambahkan HTML secara bertahap untuk lebih dari 2 juta makalah, dan sebagian makalah tidak menyediakan HTML karena kegagalan konversi
  • Peluncuran beta HTML masih berada pada tahap awal, dan peningkatan kualitas konversi LaTeX serta pengumpulan umpan balik terus berlangsung

Mengapa disebut HTML “eksperimental”?

  • Lebih dari 90% pengiriman ke arXiv menggunakan format TeX (terutama LaTeX), sehingga ada tantangan teknis untuk mengonversinya secara akurat ke HTML
    • LaTeX sangat fleksibel dan cara pemakaiannya berbeda-beda pada tiap penulis
    • HTML sangat kompatibel dengan screen reader, text-to-speech, screen magnifier, dan perangkat seluler
    Iklan
  • Karena konversi harus tetap menjaga otomatisasi dan kecepatan, rendering yang sepenuhnya sempurna sulit dicapai
  • Ada dua alasan HTML dirilis sebagai “eksperimental”
    1. Makalah yang aksesibel dibutuhkan sekarang juga — para peneliti yang memiliki kebutuhan aksesibilitas meminta agar peluncuran tidak ditunda
    2. Butuh bantuan komunitas — untuk menerima laporan error dan melacak masalah pada paket LaTeX tertentu

Error yang dapat muncul pada makalah HTML

  • Makalah HTML masih merupakan hasil kerja yang terus disempurnakan, sehingga dapat muncul error konversi atau masalah rendering
  • arXiv membagikan penyebab error dan cara yang dapat dilakukan penulis untuk meminimalkannya
  • Rincian terkait dapat dilihat di halaman terpisah

Cara komunitas dapat berpartisipasi

  • 1) Membaca makalah HTML dan melaporkan masalah

    Iklan
    • Buka dengan mengeklik tautan HTML pada halaman abstrak makalah yang diminati
    • Pelaporan masalah dapat dilakukan melalui tombol Open Issue, laporkan setelah memilih teks, atau pintasan Ctrl+?
    • Pengguna screen reader dapat mengganti tombol pelaporan aksesibilitas per paragraf dengan Alt+y
    • Diminta untuk tidak melaporkan hanya karena tampilan HTML tidak sama persis dengan PDF
    • HTML mengutamakan fungsi dibanding bentuk, sehingga perbedaan line break dan spasi adalah desain yang disengaja
    • HTML lebih unggul daripada PDF dari sisi kompatibilitas dengan teknologi bantu dan kemampuan beradaptasi dengan perangkat
  • 2) Mendukung peningkatan konversi LaTeX

    • Penulis dapat meningkatkan kualitas konversi dengan mengikuti panduan praktik terbaik markup LaTeX dari arXiv
    • Pengembang dapat berkontribusi pada peningkatan konversi melalui daftar issue proyek LaTeXML
    • Komunitas akademik atau penerbit dapat meninjau file .cls yang menggunakan paket yang belum didukung untuk membantu meningkatkan aksesibilitas

Ucapan terima kasih kepada para kolaborator

  • Sepanjang proyek ini, saran dan keahlian ilmuwan penyandang disabilitas memainkan peran besar
  • Implementasi makalah HTML dimungkinkan berkat kolaborasi dengan LaTeX Project dan tim LaTeXML dari NIST
  • Disampaikan apresiasi mendalam atas pengetahuan, keterampilan, dan dedikasi mereka terhadap aksesibilitas

1 komentar

 
GN⁺ 2025-12-08
Komentar Hacker News
  • Sebagai pengembang arXiv HTML Papers, saya ingin menyampaikan pembaruan singkat
    Saya sadar saat ini ada banyak masalah kualitas dan cakupan pada rendering makalah. Jika menemukan masalah seperti ini, mohon laporkan di halaman issue GitHub
    Keterbatasan waktu pengembangan adalah hambatan terbesar, dan inti perbaikan di sisi LaTeX masih tetap LaTeXML

  • Saya jauh lebih suka membaca makalah arXiv dalam format HTML daripada PDF
    Ekstensi browser bisa langsung dimanfaatkan untuk berbagai hal seperti terjemahan, membuat catatan, mengirim ke LLM, dan lain-lain
    Saat ini arXiv memiliki layanan HTML bawaan (https://arxiv.org/html/xxxx.xxxxx) dan layanan alternatif (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
    Namun layanan bawaan punya masalah cakupan yang serius; misalnya makalah ini tidak berfungsi. Kadang beralih ke layanan alternatif menyelesaikannya, tetapi ada juga kasus ketika keduanya gagal (contoh)

  • Seandainya konsorsium Unicode lebih fokus pada dukungan simbol matematika ketimbang emoji, kita mungkin bisa lepas dari struktur yang berpusat pada (LA)TeX/PDF
    OpenType dan TrueType sudah mendukung rendering yang kompleks, dan fallback font juga dimungkinkan
    Masalahnya bukan batasan teknis, melainkan keputusan kebijakan bahwa itu “tidak termasuk dalam lapisan simbol”
    Menariknya, Gemini 3 Pro tetap memaksa keluaran rumus LaTeX apa pun pengaturannya. Saya membagikan hasil eksperimennya di sini

    • Sehebat apa pun penanganan superskrip dan subskrip, ekspresi dasar seperti pecahan atau tanda kurung variabel tetap tidak bisa dilakukan
      Karena Unicode pada dasarnya adalah sistem karakter, bukan sistem tata letak
    • Ekspresi matematika jauh lebih kompleks daripada emoji. Saya rasa keduanya sulit dibandingkan secara langsung
    • Cukup mengejutkan kalau hanya Gemini 3 yang punya masalah itu. Kebanyakan LLM pasti berpusat pada LaTeX, jadi justru terasa wajar sebagai standar
    • Sebenarnya, anggapan bahwa “LaTeX diperlukan karena matematika” hanyalah alasan lama
      Makalah berbasis HTML juga sangat mungkin dibuat, tetapi peneliti masih bersikeras mempertahankan layout dua kolom dan font serif tradisional
      Masalah budayanya adalah harus “terlihat seperti makalah sungguhan”, bukan soal aksesibilitas atau keterbacaan di perangkat seluler
    • Saya mengusulkan pendekatan dua tahap.
      Pada tahap 1 ajukan pertanyaan, lalu pada tahap 2 gunakan model kecil untuk mengubah notasi LaTeX menjadi ekspresi Unicode
  • Makalah HTML sebenarnya sudah disediakan sejak beberapa tahun lalu
    Saya memastikan dari blog resmi bahwa ini memang diperkenalkan pada 2023

    • Mengapa HTML-nya “eksperimental (Experimental)”?
      Karena 90% makalah arXiv berbasis LaTeX, sehingga konversinya sangat sulit.
      Tantangan utamanya adalah meningkatkan aksesibilitas sambil tetap menjaga konversi yang cepat dan otomatis
    • Ada dokumen terkait di halaman dokumentasi GitHub. Disebutkan bahwa tag 2023 diperlukan
  • Sebagai penulis yang sering memakai struktur TeX yang kompleks, sejak konversi HTML diperkenalkan beban kerja saya meningkat tajam
    Kecepatan konversinya juga lambat, dan tidak ada cara untuk mensimulasikannya secara lokal
    Meski begitu, saya tetap menganggap ini sebagai upaya yang baik demi meningkatkan aksesibilitas

  • Saya pikir akan bagus jika makalah juga tersedia dalam format epub. Saya tidak tahu apakah ada kesulitan teknis, atau hanya permintaannya yang rendah

    • epub pada dasarnya berbasis HTML
      Namun saya belum pernah melihat pembaca yang menampilkannya senyaman atau seindah PDF. Fitur anotasinya juga kurang kompatibel antarplatform
    • epub pada akhirnya adalah hasil HTML/CSS yang dipoles dengan baik.
      Tidak efisien jika peneliti juga harus menjamin kualitas itu, jadi kalau perlu cukup gunakan konverter HTML→epub sendiri
    • Ada juga pertanyaan, “untuk apa epub diperlukan?” Karena pada akhirnya itu tetap HTML
  • Masalah aksesibilitas riset memang bukan hal baru, tetapi sekarang adalah momen yang paling mendesak
    Jika arXiv menyediakan makalah HTML bersama PDF, perubahan yang dihasilkan bisa menjadi yang paling cepat dan paling besar

    • Saya merasa bersyukur bisa melihat preprint saya dalam HTML. Saya juga ingin tahu bagaimana komunitas bisa berkontribusi
  • Keluhan terbesar saya adalah keterbatasan penyematan video dalam makalah
    Video hanya bisa dilampirkan sebagai materi tambahan atau diberikan lewat tautan eksternal.
    Saya berharap GIF atau video bisa disematkan langsung di isi makalah

  • Melihat penjelasan bahwa “90% berbasis LaTeX sehingga konversinya sulit”, saya merasa ini benar-benar pekerjaan yang menantang. Upaya yang bagus

  • Sekitar tahun 1998, ketika saya menangani penyuntingan koran sekolah, saya pernah mengusulkan beralih ke HTML alih-alih Corel Draw
    Pada akhirnya, bahkan saat itu kami juga membatalkan adopsi HTML karena alasan yang sama seperti di komentar-komentar sekarang