- 20 tahun lalu, Joel menekankan bahwa "Tidak ada yang namanya Plain Text", dan bahwa encoding wajib dipahami
- Unicode adalah standar yang menyatukan semua bahasa manusia agar dapat digunakan di komputer
- Sistem code point yang menetapkan nomor unik untuk setiap karakter yang berbeda
- Code point terbesar adalah 0x10FFFF, menyediakan ruang sekitar 1,1 juta code point
- UTF-8 adalah encoding yang paling umum, digunakan dengan probabilitas 98%
- UTF-8 adalah encoding dengan panjang variabel, dan code point dapat dikodekan sebagai urutan 1–4 byte
- UTF-8 kompatibel pada level byte dengan ASCII, dan efisien dalam penggunaan ruang untuk Latin dasar
- UTF-8 memiliki kemampuan deteksi dan pemulihan kesalahan bawaan, sehingga dapat mengidentifikasi urutan byte UTF-8 yang lengkap dan valid
- Extended grapheme cluster atau grapheme adalah unit yang harus diiterasi, bukan code point
- Unicode diperbarui setiap tahun, dan aturan yang mendefinisikan grapheme cluster berubah setiap tahun
- Unicode dapat dirender secara berbeda tergantung locale
- Surrogate pair dalam Unicode adalah dua unit UTF-16 yang digunakan untuk mengodekan satu code point Unicode
- UTF-16 masih digunakan sebagai representasi dalam memori di beberapa sistem
- String Unicode harus dinormalisasi sebelum dibandingkan
- Artikel ini menekankan pentingnya menggunakan pustaka Unicode bahkan untuk operasi dasar seperti
strlen, indexOf, dan substring
3 komentar
Untuk
.lengthdari"♂️", di Python 3.11 tampaknya mengembalikan 1.Emoji di komentar tampil rusak.
Komentar Hacker News