Jebakan ISBN

(rygoldstein.com)

8 poin oleh GN⁺ 2026-02-21 | 4 komentar | Bagikan ke WhatsApp

Saat mencoba membuat aplikasi pencatatan buku yang rapi dan praktis seperti aplikasi pencatatan film Letterboxd, masalah struktural dalam sistem ISBN menjadi hambatan utama
Ditemukan bahwa Google Books API untuk fitur pencarian buku mengembalikan beberapa versi ISBN dari karya yang sama sebagai entri yang berbeda
Hal ini terjadi karena dalam struktur bibliografis (model FRBR), ‘karya (work)’, ‘ekspresi (expression)’, dan ‘manifestasi (manifestation)’ dibedakan, sehingga data terpecah-pecah meski pengguna hanya ingin mencatat fakta sederhana bahwa mereka ‘telah membaca sebuah buku’
OpenLibrary menyediakan struktur data yang berpusat pada ‘karya’, tetapi tetap memiliki duplikasi dan ketidaklengkapan, sehingga belum bisa menjadi alternatif yang sepenuhnya memadai
Tidak adanya infrastruktur metadata terbuka berkualitas tinggi untuk buku seperti basis data film TMDB menjadi hambatan utama dalam pengembangan platform sosial yang berpusat pada buku

Perbandingan Letterboxd dan platform buku

Letterboxd memudahkan pengelolaan catatan tontonan film berkat antarmuka yang rapi dan fitur sosial yang tidak mengganggu
- Pengguna dapat dengan mudah mencatat film yang ditonton dan kapan menontonnya
Sebaliknya, GoodReads membuat pencatatan buku terasa tidak nyaman karena UI yang rumit dan struktur klik bertingkat
- ‘Buku yang dibaca’ dan ‘buku yang ingin dibaca’ bercampur dalam satu layar, sementara tantangan membaca, newsletter, dan elemen tambahan lain memakan ruang
- Alasan GoodReads terasa seperti ini adalah karena ia merupakan produk turunan berprioritas rendah dari bisnis penjualan buku Amazon
Storygraph juga memiliki masalah serupa, sehingga pengguna pada akhirnya mengelola catatan pribadi mereka lewat file Obsidian

Google Books API dan masalah ISBN

Untuk membuat fitur pencarian buku, digunakan Google Books API, tetapi karya yang sama muncul berulang karena memiliki beberapa ISBN
- Sebagai contoh, pencarian “The Last Unicorn” mengembalikan hardcover, paperback, eBook, edisi revisi, dan lainnya masing-masing sebagai ISBN berbeda
Setiap ISBN berarti format atau edisi yang berbeda, tetapi pengguna hanya ingin mencatat fakta sederhana bahwa mereka telah membaca buku tersebut
Struktur seperti ini menyulitkan pencarian dan integrasi data, sehingga tidak cocok untuk membangun sistem pencatatan berbasis satu karya tunggal

Model FRBR dan pendekatan berbasis ‘karya’

Model FRBR yang digunakan dalam ilmu perpustakaan membagi data buku ke dalam empat lapisan
- Work (karya): karya kreatif abstrak itu sendiri (contoh: novel "The Last Unicorn")
- Expression (ekspresi): versi tertentu dari karya tersebut
- Manifestation (manifestasi): format fisik dari versi tertentu (paperback, hardcover, dan sebagainya)
- Item (item): benda fisik individual dalam suatu koleksi
Google Books terutama mengembalikan data pada tingkat ‘ekspresi’ atau ‘manifestasi’, sedangkan pengguna membutuhkan satuan abstrak pada tingkat ‘karya’
OpenLibrary menyediakan struktur data yang berpusat pada ‘karya’, tetapi tetap memiliki entri duplikat
- Contoh: saat mencari Hotel Iris karya Yoko Ogawa, karya yang sama muncul empat kali secara duplikat

Kualitas data dan keterbatasan ekosistem

Letterboxd berjalan di atas The Movie Database (TMDB), dan TMDB memiliki sekitar 1 juta data film
Sebaliknya, OpenLibrary mencakup lebih dari 40 juta karya, tetapi banyak datanya tidak lengkap dan belum dibersihkan
Data film memiliki kualitas tinggi karena didukung kombinasi platform komersial dan kontribusi komunitas, sedangkan data buku menghadapi skala yang lebih besar dan kekurangan pendanaan
Akibatnya, tidak ada fondasi data yang memadai untuk membuat layanan bergaya Letterboxd yang berfokus pada buku

Kesimpulan dan upaya berikutnya

Karena tidak ada infrastruktur metadata buku open source yang benar-benar lengkap, pengembangan platform pencatatan buku menjadi tantangan yang jauh lebih sulit daripada film
Penulis tetap berencana mencoba membangun sistem pencatatan buku yang independen
Seperti pengalaman menemukan selera film, pencatatan buku juga memerlukan pendekatan yang dipersonalisasi

4 komentar

nemorize 2026-02-21

Yah... ISBN itu pengenal untuk publikasi, bukan pengenal untuk konten...
Judulnya terlalu clickbait wkwk

roxie 2026-02-27

Sepertinya bagian pengenal kontennya kosong :(

yeobi222 2026-02-22

Memang benar bahwa sistem ISBN sendiri tidak terlalu mempertimbangkan klasifikasi yang benar-benar sistematis...
Meskipun menurut aturan setiap cetak ulang harus diberi nomor terpisah, karena kategori paling bawahnya adalah penerbit, pengelolaannya jadi tidak mudah meski ada kebutuhan untuk mengklasifikasikan per karya.

GN⁺ 2026-02-21

Komentar Hacker News

Mengingatkan pada struktur basis data MusicBrainz
Misalnya album Nevermind dari Nirvana adalah satu release group, tetapi ada berbagai versi media dan rilis ulang menurut negara seperti kaset, CD, LP, dan promosi
Dalam beberapa kasus perbedaannya bisa dikenali dari nomor katalog atau barcode, tetapi di kasus lain, meski kodenya sama, versinya sebenarnya berbeda
Bahkan rekaman yang sama bisa berubah karena remastering, penyuntingan, atau sensor
MusicBrainz melacak perbedaan semacam ini dengan sangat rinci, dan membedakan dengan jelas apakah itu rekaman yang sama atau bukan
Untuk lagu cover atau lagu standar yang direkam oleh banyak artis, informasi komposer dan penulis lirik dihubungkan pada level ‘work’
Rasanya desain basis data relasional yang presisi seperti ini sangat berguna untuk mencatat kesamaan dan perbedaan dalam karya kreatif
Tautan terkait
- Belakangan ini ada juga basis data untuk buku bernama BookBrainz yang sedang berjalan dalam versi alfa
  bookbrainz.org/about
  Jika skemanya mirip dengan MusicBrainz, data seharusnya akan sangat mudah diekstrak
- Saya pernah mengalami kesalahan pengindeksan CD-ID saat mencoba mendaftarkan CD konserto biola ganda Bach ke MusicBrainz
  Saya membuat akun, mengunggah datanya sendiri, dan setelah beberapa kali revisi akhirnya berhasil terdaftar
  Saya bahkan menemukan info CD edisi Australia yang sama di situs web Tiongkok dan menjadikannya referensi, lalu sadar bahwa ada versi yang sedikit berbeda untuk tiap pasar
  Dari situ saya sangat berempati dengan tim MusicBrainz soal betapa longgarnya orang-orang dalam memperbarui ‘pengenal unik’
- Album In My Tribe dari 10000 Maniacs adalah contoh yang bagus
  Edisi 1987 dan edisi 1989 (versi tanpa ‘Peace Train’) memiliki nomor UPC yang sama
  Saya masih ingat betapa repotnya mencari versi sebelum penghapusan itu di toko CD bekas pada pertengahan 1990-an
- Baru-baru ini saya memindai barcode CD, dan sekitar 90~95% dikenali oleh MusicBrainz
  Sisanya membingungkan karena ada banyak versi dengan jumlah trek berbeda menurut wilayah
  Seandainya ada fitur untuk mencantumkan informasi artis per trek, akurasi pencarian mungkin akan lebih tinggi
- Untuk buku yang diterbitkan lewat Kindle Press, ISBN-nya sama tetapi ada setidaknya 3 edisi revisi resmi dan beberapa versi dengan revisi kecil
  Bahkan jika perbedaannya hanya perbaikan typo, tetap sulit dibedakan
Wikidata adalah basis data terbuka yang kompatibel dengan FRBR, dan kualitas data terkait buku telah banyak meningkat dalam beberapa tahun terakhir
Hotel Iris karya Yoko Ogawa yang dijadikan contoh bukan karya yang sama, melainkan terjemahan yang berbeda
Terjemahan seharusnya dipandang sebagai karya turunan yang berbeda dari karya asli
Namun daftar-daftarnya tercampur sehingga banyak kesalahan
- Dalam FRBR, terjemahan umumnya juga dianggap sebagai karya (work) yang sama
  Di OpenLibrary, semuanya dikelompokkan dalam satu work, dan informasi bahasa serta penerjemah disimpan di edition
  Duplikasi saat ini tampaknya muncul dari proses penggabungan otomatis per bahasa
- Sekalipun terjemahan dipandang sebagai turunan terpisah, dalam pencarian semuanya tetap perlu dikelompokkan sebagai satu entitas
  Idealnya pengguna bisa menjelajahi karya asli dan terjemahannya bersama-sama
Merekomendasikan LibraryThing
Rasanya jauh lebih baik daripada Goodreads
Penting untuk membedakan struktur WEMI (work, expression, manifestation, item) pada buku
“Saya sudah membaca Don Quixote” adalah pernyataan di level work, sedangkan “Buku saya ada noda kopi” adalah pernyataan di level item
Dalam lomba membaca tingkat negara bagian, buku dikelola hanya berdasarkan ISBN sehingga sulit ditemukan oleh siswa
Karena itu ditambahkan join SQL yang menghubungkan ISBN lain untuk isi yang sama dengan memanfaatkan basis data pemetaan ISBN milik WorldCat
Hasilnya, selama 10 tahun para siswa membaca lebih dari satu juta buku tambahan
- Lalu muncul pertanyaan yang menanyakan query SQL-nya
Anna’s Archive memberi kontribusi besar dalam perapian data terkait ISBN
Mereka memanfaatkan hasil scraping dari WorldCat, dan sekarang juga sedang membangun basis data ISSN (terbitan berkala)
Dibandingkan buku, data ISSN saat ini masih sangat kurang
Mengingatkan bahwa Open Library berawal dari kerja awal Brewster Kahle (pendiri Internet Archive) dan Aaron Swartz
Blog terkait
Pernah beberapa kali melihat buku di toko lalu membelinya, tetapi setelah sampai di rumah ternyata sudah punya edisi yang sama
Kalau bisa mencari daftar koleksi pribadi berdasarkan ISBN, pembelian duplikat seperti ini bisa dicegah
- Ada tanggapan bahwa karena memiliki hampir seribu ebook dan tahu persis buku apa saja yang dimiliki, hal seperti itu tidak terjadi
Ada pengalaman membuat situs manajemen buku sebagai proyek pribadi dengan memakai ISBNDB API
Saat mencari berdasarkan judul, hasilnya sangat rumit karena banyak edisi, bahasa, dan format jilid bercampur
Hasilnya dirapikan dengan berbasis kemiripan Jaccard, tetapi tidak sempurna
OpenLibrary sedang dipertimbangkan sebagai alternatif
Aplikasi StoryGraph terasa lumayan bagus
Antarmukanya disukai karena mempertimbangkan pengguna yang ingin menghindari fitur AI
Fitur pencariannya juga bagus
- Hardcover.app juga alternatif yang baik
  Secara pribadi sudah dipakai sejak 2017, dan dipilih dengan tujuan keluar dari oligopoli
ISBN mengandung pengenal penerbit, sehingga buku yang sama bisa memiliki ISBN berbeda menurut pasar
- Di Selandia Baru, ISBN diterbitkan lewat layanan perpustakaan pemerintah, dan nama penerbit harus didaftarkan
  Layanannya gratis, jadi mungkin berbeda di tiap negara
- ISBN dibeli oleh penerbit atau perusahaan dalam bentuk blok, lalu dialokasikan secara internal ke masing-masing imprint
  Jadi nama penerbit memang tidak tercantum langsung, tetapi tetap bisa diidentifikasi dari strukturnya