- Arsip email Epstein yang dirilis Departemen Kehakiman AS menuai kritik keras karena kesalahan encoding dan sensor berlebihan yang menyebabkan kerusakan serius
- Beberapa email masih menyertakan lampiran dalam format
Content-Transfer-Encoding: base64 apa adanya, sehingga data tersebut secara teori bisa dipulihkan untuk merekonstruksi PDF asli
- Namun, karena kualitas OCR yang buruk, masalah pembedaan karakter 1 dan l pada font Courier New, serta kualitas pemindaian yang buruk, pemulihan otomatis nyaris mustahil
- Penulis mencoba pemulihan dengan tesseract, Adobe Acrobat Pro, AWS Textract, dan lainnya, tetapi semuanya hanya menghasilkan hasil yang tidak lengkap
- Kasus ini menyoroti batasan forensik digital dan teknik pemulihan dokumen, sekaligus menjadi tantangan teknis yang perlu diselesaikan bersama oleh komunitas
Masalah pada materi rilis Departemen Kehakiman
- Arsip Epstein yang baru dirilis didistribusikan dalam kondisi disensor berlebihan, mulai dari nama kaki tangan hingga foto perempuan yang tidak terkait
- Sebagian file rusak akibat kesalahan encoding Quoted-Printable sehingga tidak bisa dibuka
- Bahkan kredensial email sempat terekspos, memungkinkan pengguna Reddit mengakses akun Epstein
- Penanganan yang buruk ini memicu kritik terhadap kurangnya profesionalisme Departemen Kehakiman yang dipimpin Pam Bondi
Menemukan lampiran base64
- Dalam email
EFTA00400459, ditemukan data base64 sepanjang 76 halaman
- Data itu adalah bentuk hasil encoding SMTP dari file
DBC12 One Page Invite with Reply.pdf
- Secara teori, file tersebut seharusnya bisa dipulihkan hanya dengan menyalin lalu menjalankan perintah
base64 -d > output.pdf, tetapi yang tersedia ternyata hanya hasil pemindaian OCR dengan banyak kesalahan
- Hasil OCR mengandung penyisipan karakter yang salah, karakter hilang, dan karakter base64 tidak valid (misalnya [, ,) sehingga tidak bisa didekodekan
Masalah OCR dan font
- Upaya pemrosesan ulang OCR menggunakan Adobe Acrobat Pro dan tesseract sama-sama menghasilkan penyisipan spasi dan kesalahan pengenalan karakter
- Meski
tesseract dibatasi hanya ke himpunan karakter valid base64, tetap muncul masalah panjang baris yang tidak konsisten dan penghentian pengenalan di tengah
- Penyebab terbesar adalah font Courier New, karena membedakan
1 dan l hampir mustahil
- Resolusi JPEG hasil pemindaian yang rendah dan artefak kompresi membuat identifikasi visual pun sangat sulit
- Akibatnya, koreksi manual menjadi wajib, dan saat decoding perlu mencoba menukar
1 dan l satu per satu
Upaya pemulihan dan perbandingan alat
imagemagick dan ghostscript gagal karena kehabisan memori saat memproses data besar, sehingga pdftoppm dipakai sebagai alternatif
AWS Textract memberikan hasil terbaik, tetapi masih menyisakan kesalahan panjang baris dan hasil yang tidak deterministik
- Gambar input diperbesar 2x untuk meningkatkan tingkat pengenalan, namun tetap gagal mencapai pemulihan penuh
- Upaya memulihkan struktur PDF dengan
qpdf gagal karena cross-reference table yang rusak
Usulan komunitas dan diskusi lanjutan
- Di akhir tulisan, penulis mengajak komunitas untuk mencoba memulihkan lampiran lain
- Pencarian
Content-Transfer-Encoding dan base64 menunjukkan masih ada beberapa data yang berpotensi berguna
- Berbagai pengguna mengusulkan pendekatan seperti OCR berbasis ML, pelatihan CNN khusus per font, dan crowdsourcing ala CAPTCHA
- Sebagian membagikan contoh keberhasilan pemulihan PDF, serta melaporkan bahwa penggunaan
pdfimages memberi hasil lebih tajam dibanding pdftoppm
- Pada akhirnya, turut dibahas teknik pemulihan lanjutan seperti algoritme otomatis untuk membedakan 1/l, deteksi kesalahan berbasis streaming decompressor, dan perbandingan tingkat piksel
Makna teknis
- Kasus ini menunjukkan bagaimana kesalahan encoding dokumen digital dan keterbatasan OCR dapat benar-benar menghambat akses terhadap informasi
- Peristiwa ini menegaskan pentingnya kontrol kualitas pemrosesan digital untuk barang bukti hukum serta teknologi otomatisasi forensik dokumen
- Upaya pemulihan kolaboratif oleh komunitas dipandang sebagai contoh peningkatan transparansi data publik dan kemungkinan verifikasi teknis
1 komentar
Komentar Hacker News
Sepertinya tim DOJ Pam Bondi tidak mengerahkan orang terbaik mereka untuk pekerjaan ini
Membagikan skrip yang dibuat oleh Claude Opus
Tautan skrip / Keluaran teks / Versi yang dirapikan
Skrip itu menghasilkan PDF yang setidaknya halaman pertamanya bisa dibaca
Tesseract bisa dilatih untuk font tertentu. Ini tampaknya bisa jadi titik awal yang bagus
Referensi: Panduan data pelatihan Tesseract
Ini masalah dekoding PDF biner. Karena jumlah encoding yang mungkin terbatas, saya mengusulkan pendekatan berikut
Dengan cara ini, hanya karakter di tengah yang perlu diuji cepat sehingga penelusuran penuh bisa dilakukan secara linear
Ini terlihat seperti nerd snipe, tapi sebenarnya bisa selesai lebih cepat dengan brute force. Jika 76 orang mengetik satu halaman masing-masing, ini selesai sebelum posting blog-nya terbit
Karena PDF adalah format yang sangat kompleks, saya rasa lebih baik pemerintah membuat dan menstandarkan format terbuka yang aman yang benar-benar baru
DjVu sederhana dan tool open-source-nya bagus, tetapi fiturnya kurang
TIFF justru lebih kompleks daripada PDF, jadi tidak cocok
Referensi: XPS, DjVu, TIFF
Di kotak pencarian justice.gov, saya bisa menemukan beberapa versi dari email yang sama
Asli: EFTA00400459.pdf
Versi tambahan:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Jika beberapa versi ini dibandingkan, sepertinya akan lebih mudah diselesaikan
Masalah “1” dan “l” tetap ada, tetapi ini bisa berguna sebagai referensi
Saya berpikir, bagaimana jika mencoba semua permutasi kombinasi (1, l). Jika diasumsikan 76 halaman × 69 baris × 1 kemunculan, berarti ada 2^5244 kemungkinan. Ada yang punya CPU nganggur?
Jika kompresi digunakan secara default, checksum malah membuatnya lebih mudah. Namun ini tidak bisa dilakukan dengan tool yang ada; perlu membuat test harness berinstrumentasi di dalam decoder secara langsung
Detail acara: Dubin Breast Center 2nd Annual Benefit (Arsip)
untuk menghormati Elisa Port dan keluarga Ruttenberg.
Pembawa acaranya Cynthia McFadden, dan pertunjukannya melibatkan beberapa musisi
pdftoppm dan Ghostscript (dipanggil lewat Imagemagick) lambat karena meraster ulang seluruh halaman
Mengekstrak langsung gambar hasil scan dengan pdfimages atau mutool jauh lebih cepat
Hasil pengujian menunjukkan pdfimages 13 kali lebih cepat daripada pdftoppm