- Saat mencoba membuat aplikasi pencatatan buku yang rapi dan praktis seperti aplikasi pencatatan film Letterboxd, masalah struktural dalam sistem ISBN menjadi hambatan utama
- Ditemukan bahwa Google Books API untuk fitur pencarian buku mengembalikan beberapa versi ISBN dari karya yang sama sebagai entri yang berbeda
- Hal ini terjadi karena dalam struktur bibliografis (model FRBR), ‘karya (work)’, ‘ekspresi (expression)’, dan ‘manifestasi (manifestation)’ dibedakan, sehingga data terpecah-pecah meski pengguna hanya ingin mencatat fakta sederhana bahwa mereka ‘telah membaca sebuah buku’
- OpenLibrary menyediakan struktur data yang berpusat pada ‘karya’, tetapi tetap memiliki duplikasi dan ketidaklengkapan, sehingga belum bisa menjadi alternatif yang sepenuhnya memadai
- Tidak adanya infrastruktur metadata terbuka berkualitas tinggi untuk buku seperti basis data film TMDB menjadi hambatan utama dalam pengembangan platform sosial yang berpusat pada buku
Perbandingan Letterboxd dan platform buku
- Letterboxd memudahkan pengelolaan catatan tontonan film berkat antarmuka yang rapi dan fitur sosial yang tidak mengganggu
- Pengguna dapat dengan mudah mencatat film yang ditonton dan kapan menontonnya
- Sebaliknya, GoodReads membuat pencatatan buku terasa tidak nyaman karena UI yang rumit dan struktur klik bertingkat
- ‘Buku yang dibaca’ dan ‘buku yang ingin dibaca’ bercampur dalam satu layar, sementara tantangan membaca, newsletter, dan elemen tambahan lain memakan ruang
- Alasan GoodReads terasa seperti ini adalah karena ia merupakan produk turunan berprioritas rendah dari bisnis penjualan buku Amazon
- Storygraph juga memiliki masalah serupa, sehingga pengguna pada akhirnya mengelola catatan pribadi mereka lewat file Obsidian
Google Books API dan masalah ISBN
- Untuk membuat fitur pencarian buku, digunakan Google Books API, tetapi karya yang sama muncul berulang karena memiliki beberapa ISBN
- Sebagai contoh, pencarian “The Last Unicorn” mengembalikan hardcover, paperback, eBook, edisi revisi, dan lainnya masing-masing sebagai ISBN berbeda
- Setiap ISBN berarti format atau edisi yang berbeda, tetapi pengguna hanya ingin mencatat fakta sederhana bahwa mereka telah membaca buku tersebut
- Struktur seperti ini menyulitkan pencarian dan integrasi data, sehingga tidak cocok untuk membangun sistem pencatatan berbasis satu karya tunggal
Model FRBR dan pendekatan berbasis ‘karya’
- Model FRBR yang digunakan dalam ilmu perpustakaan membagi data buku ke dalam empat lapisan
- Work (karya): karya kreatif abstrak itu sendiri (contoh: novel "The Last Unicorn")
- Expression (ekspresi): versi tertentu dari karya tersebut
- Manifestation (manifestasi): format fisik dari versi tertentu (paperback, hardcover, dan sebagainya)
- Item (item): benda fisik individual dalam suatu koleksi
- Google Books terutama mengembalikan data pada tingkat ‘ekspresi’ atau ‘manifestasi’, sedangkan pengguna membutuhkan satuan abstrak pada tingkat ‘karya’
- OpenLibrary menyediakan struktur data yang berpusat pada ‘karya’, tetapi tetap memiliki entri duplikat
- Contoh: saat mencari Hotel Iris karya Yoko Ogawa, karya yang sama muncul empat kali secara duplikat
Kualitas data dan keterbatasan ekosistem
- Letterboxd berjalan di atas The Movie Database (TMDB), dan TMDB memiliki sekitar 1 juta data film
- Sebaliknya, OpenLibrary mencakup lebih dari 40 juta karya, tetapi banyak datanya tidak lengkap dan belum dibersihkan
- Data film memiliki kualitas tinggi karena didukung kombinasi platform komersial dan kontribusi komunitas, sedangkan data buku menghadapi skala yang lebih besar dan kekurangan pendanaan
- Akibatnya, tidak ada fondasi data yang memadai untuk membuat layanan bergaya Letterboxd yang berfokus pada buku
Kesimpulan dan upaya berikutnya
- Karena tidak ada infrastruktur metadata buku open source yang benar-benar lengkap, pengembangan platform pencatatan buku menjadi tantangan yang jauh lebih sulit daripada film
- Penulis tetap berencana mencoba membangun sistem pencatatan buku yang independen
- Seperti pengalaman menemukan selera film, pencatatan buku juga memerlukan pendekatan yang dipersonalisasi
3 komentar
Yah... ISBN itu pengenal untuk publikasi, bukan pengenal untuk konten...
Judulnya terlalu clickbait wkwk
Memang benar bahwa sistem ISBN sendiri tidak terlalu mempertimbangkan klasifikasi yang benar-benar sistematis...
Meskipun menurut aturan setiap cetak ulang harus diberi nomor terpisah, karena kategori paling bawahnya adalah penerbit, pengelolaannya jadi tidak mudah meski ada kebutuhan untuk mengklasifikasikan per karya.
Komentar Hacker News
Mengingatkan pada struktur basis data MusicBrainz
Misalnya album Nevermind dari Nirvana adalah satu release group, tetapi ada berbagai versi media dan rilis ulang menurut negara seperti kaset, CD, LP, dan promosi
Dalam beberapa kasus perbedaannya bisa dikenali dari nomor katalog atau barcode, tetapi di kasus lain, meski kodenya sama, versinya sebenarnya berbeda
Bahkan rekaman yang sama bisa berubah karena remastering, penyuntingan, atau sensor
MusicBrainz melacak perbedaan semacam ini dengan sangat rinci, dan membedakan dengan jelas apakah itu rekaman yang sama atau bukan
Untuk lagu cover atau lagu standar yang direkam oleh banyak artis, informasi komposer dan penulis lirik dihubungkan pada level ‘work’
Rasanya desain basis data relasional yang presisi seperti ini sangat berguna untuk mencatat kesamaan dan perbedaan dalam karya kreatif
Tautan terkait
bookbrainz.org/about
Jika skemanya mirip dengan MusicBrainz, data seharusnya akan sangat mudah diekstrak
Saya membuat akun, mengunggah datanya sendiri, dan setelah beberapa kali revisi akhirnya berhasil terdaftar
Saya bahkan menemukan info CD edisi Australia yang sama di situs web Tiongkok dan menjadikannya referensi, lalu sadar bahwa ada versi yang sedikit berbeda untuk tiap pasar
Dari situ saya sangat berempati dengan tim MusicBrainz soal betapa longgarnya orang-orang dalam memperbarui ‘pengenal unik’
Edisi 1987 dan edisi 1989 (versi tanpa ‘Peace Train’) memiliki nomor UPC yang sama
Saya masih ingat betapa repotnya mencari versi sebelum penghapusan itu di toko CD bekas pada pertengahan 1990-an
Sisanya membingungkan karena ada banyak versi dengan jumlah trek berbeda menurut wilayah
Seandainya ada fitur untuk mencantumkan informasi artis per trek, akurasi pencarian mungkin akan lebih tinggi
Bahkan jika perbedaannya hanya perbaikan typo, tetap sulit dibedakan
Wikidata adalah basis data terbuka yang kompatibel dengan FRBR, dan kualitas data terkait buku telah banyak meningkat dalam beberapa tahun terakhir
Hotel Iris karya Yoko Ogawa yang dijadikan contoh bukan karya yang sama, melainkan terjemahan yang berbeda
Terjemahan seharusnya dipandang sebagai karya turunan yang berbeda dari karya asli
Namun daftar-daftarnya tercampur sehingga banyak kesalahan
Di OpenLibrary, semuanya dikelompokkan dalam satu work, dan informasi bahasa serta penerjemah disimpan di edition
Duplikasi saat ini tampaknya muncul dari proses penggabungan otomatis per bahasa
Idealnya pengguna bisa menjelajahi karya asli dan terjemahannya bersama-sama
Merekomendasikan LibraryThing
Rasanya jauh lebih baik daripada Goodreads
Penting untuk membedakan struktur WEMI (work, expression, manifestation, item) pada buku
“Saya sudah membaca Don Quixote” adalah pernyataan di level work, sedangkan “Buku saya ada noda kopi” adalah pernyataan di level item
Dalam lomba membaca tingkat negara bagian, buku dikelola hanya berdasarkan ISBN sehingga sulit ditemukan oleh siswa
Karena itu ditambahkan join SQL yang menghubungkan ISBN lain untuk isi yang sama dengan memanfaatkan basis data pemetaan ISBN milik WorldCat
Hasilnya, selama 10 tahun para siswa membaca lebih dari satu juta buku tambahan
Anna’s Archive memberi kontribusi besar dalam perapian data terkait ISBN
Mereka memanfaatkan hasil scraping dari WorldCat, dan sekarang juga sedang membangun basis data ISSN (terbitan berkala)
Dibandingkan buku, data ISSN saat ini masih sangat kurang
Mengingatkan bahwa Open Library berawal dari kerja awal Brewster Kahle (pendiri Internet Archive) dan Aaron Swartz
Blog terkait
Pernah beberapa kali melihat buku di toko lalu membelinya, tetapi setelah sampai di rumah ternyata sudah punya edisi yang sama
Kalau bisa mencari daftar koleksi pribadi berdasarkan ISBN, pembelian duplikat seperti ini bisa dicegah
Ada pengalaman membuat situs manajemen buku sebagai proyek pribadi dengan memakai ISBNDB API
Saat mencari berdasarkan judul, hasilnya sangat rumit karena banyak edisi, bahasa, dan format jilid bercampur
Hasilnya dirapikan dengan berbasis kemiripan Jaccard, tetapi tidak sempurna
OpenLibrary sedang dipertimbangkan sebagai alternatif
Aplikasi StoryGraph terasa lumayan bagus
Antarmukanya disukai karena mempertimbangkan pengguna yang ingin menghindari fitur AI
Fitur pencariannya juga bagus
Secara pribadi sudah dipakai sejak 2017, dan dipilih dengan tujuan keluar dari oligopoli
ISBN mengandung pengenal penerbit, sehingga buku yang sama bisa memiliki ISBN berbeda menurut pasar
Layanannya gratis, jadi mungkin berbeda di tiap negara
Jadi nama penerbit memang tidak tercantum langsung, tetapi tetap bisa diidentifikasi dari strukturnya