1 poin oleh GN⁺ 2026-02-06 | 1 komentar | Bagikan ke WhatsApp
  • Arsip email Epstein yang dirilis Departemen Kehakiman AS menuai kritik keras karena kesalahan encoding dan sensor berlebihan yang menyebabkan kerusakan serius
  • Beberapa email masih menyertakan lampiran dalam format Content-Transfer-Encoding: base64 apa adanya, sehingga data tersebut secara teori bisa dipulihkan untuk merekonstruksi PDF asli
  • Namun, karena kualitas OCR yang buruk, masalah pembedaan karakter 1 dan l pada font Courier New, serta kualitas pemindaian yang buruk, pemulihan otomatis nyaris mustahil
  • Penulis mencoba pemulihan dengan tesseract, Adobe Acrobat Pro, AWS Textract, dan lainnya, tetapi semuanya hanya menghasilkan hasil yang tidak lengkap
  • Kasus ini menyoroti batasan forensik digital dan teknik pemulihan dokumen, sekaligus menjadi tantangan teknis yang perlu diselesaikan bersama oleh komunitas

Masalah pada materi rilis Departemen Kehakiman

  • Arsip Epstein yang baru dirilis didistribusikan dalam kondisi disensor berlebihan, mulai dari nama kaki tangan hingga foto perempuan yang tidak terkait
    • Sebagian file rusak akibat kesalahan encoding Quoted-Printable sehingga tidak bisa dibuka
    • Bahkan kredensial email sempat terekspos, memungkinkan pengguna Reddit mengakses akun Epstein
  • Penanganan yang buruk ini memicu kritik terhadap kurangnya profesionalisme Departemen Kehakiman yang dipimpin Pam Bondi

Menemukan lampiran base64

  • Dalam email EFTA00400459, ditemukan data base64 sepanjang 76 halaman
    • Data itu adalah bentuk hasil encoding SMTP dari file DBC12 One Page Invite with Reply.pdf
    • Secara teori, file tersebut seharusnya bisa dipulihkan hanya dengan menyalin lalu menjalankan perintah base64 -d > output.pdf, tetapi yang tersedia ternyata hanya hasil pemindaian OCR dengan banyak kesalahan
  • Hasil OCR mengandung penyisipan karakter yang salah, karakter hilang, dan karakter base64 tidak valid (misalnya [, ,) sehingga tidak bisa didekodekan

Masalah OCR dan font

  • Upaya pemrosesan ulang OCR menggunakan Adobe Acrobat Pro dan tesseract sama-sama menghasilkan penyisipan spasi dan kesalahan pengenalan karakter
  • Meski tesseract dibatasi hanya ke himpunan karakter valid base64, tetap muncul masalah panjang baris yang tidak konsisten dan penghentian pengenalan di tengah
  • Penyebab terbesar adalah font Courier New, karena membedakan 1 dan l hampir mustahil
    • Resolusi JPEG hasil pemindaian yang rendah dan artefak kompresi membuat identifikasi visual pun sangat sulit
    • Akibatnya, koreksi manual menjadi wajib, dan saat decoding perlu mencoba menukar 1 dan l satu per satu

Upaya pemulihan dan perbandingan alat

  • imagemagick dan ghostscript gagal karena kehabisan memori saat memproses data besar, sehingga pdftoppm dipakai sebagai alternatif
  • AWS Textract memberikan hasil terbaik, tetapi masih menyisakan kesalahan panjang baris dan hasil yang tidak deterministik
    • Gambar input diperbesar 2x untuk meningkatkan tingkat pengenalan, namun tetap gagal mencapai pemulihan penuh
  • Upaya memulihkan struktur PDF dengan qpdf gagal karena cross-reference table yang rusak

Usulan komunitas dan diskusi lanjutan

  • Di akhir tulisan, penulis mengajak komunitas untuk mencoba memulihkan lampiran lain
    • Pencarian Content-Transfer-Encoding dan base64 menunjukkan masih ada beberapa data yang berpotensi berguna
  • Berbagai pengguna mengusulkan pendekatan seperti OCR berbasis ML, pelatihan CNN khusus per font, dan crowdsourcing ala CAPTCHA
    • Sebagian membagikan contoh keberhasilan pemulihan PDF, serta melaporkan bahwa penggunaan pdfimages memberi hasil lebih tajam dibanding pdftoppm
  • Pada akhirnya, turut dibahas teknik pemulihan lanjutan seperti algoritme otomatis untuk membedakan 1/l, deteksi kesalahan berbasis streaming decompressor, dan perbandingan tingkat piksel

Makna teknis

  • Kasus ini menunjukkan bagaimana kesalahan encoding dokumen digital dan keterbatasan OCR dapat benar-benar menghambat akses terhadap informasi
  • Peristiwa ini menegaskan pentingnya kontrol kualitas pemrosesan digital untuk barang bukti hukum serta teknologi otomatisasi forensik dokumen
  • Upaya pemulihan kolaboratif oleh komunitas dipandang sebagai contoh peningkatan transparansi data publik dan kemungkinan verifikasi teknis

1 komentar

 
GN⁺ 2026-02-06
Komentar Hacker News
  • Sepertinya tim DOJ Pam Bondi tidak mengerahkan orang terbaik mereka untuk pekerjaan ini

    • Percakapan antar agen FB lewat pesan di bagian awal cukup menarik. Mungkin ini semacam malicious compliance yang disengaja berantakan supaya informasinya bocor lagi sebelum disensor ulang
    • Internet sedang menemukan semua kesalahannya untuknya, jadi justru tampaknya terselesaikan dengan baik lewat crowdsourcing. Berkat banyak orang, kesalahannya terus diperbaiki
  • Membagikan skrip yang dibuat oleh Claude Opus
    Tautan skrip / Keluaran teks / Versi yang dirapikan
    Skrip itu menghasilkan PDF yang setidaknya halaman pertamanya bisa dibaca

    • Penasaran apakah bisa diekspor ulang sebagai PDF yang dinormalisasi atau dibagikan screenshot-nya. Semua pembaca PDF saya menolak membukanya
    • Mengonfirmasi bahwa ini adalah acara publik yang dihadiri 450 orang. Nama-namanya cocok dengan artikel Mount Sinai dan artikel Business Insider, tetapi tanggalnya berbeda
    • Kerja yang keren
  • Tesseract bisa dilatih untuk font tertentu. Ini tampaknya bisa jadi titik awal yang bagus
    Referensi: Panduan data pelatihan Tesseract

  • Ini masalah dekoding PDF biner. Karena jumlah encoding yang mungkin terbatas, saya mengusulkan pendekatan berikut

    1. Gunakan decoder PDF open-source
    2. Dekode byte sampai karakter ambigu pertama
    3. Jika bit berikutnya valid, anggap sebagai 1, jika tidak sebagai l
    4. Jika keduanya valid, lakukan backtracking
      Dengan cara ini, hanya karakter di tengah yang perlu diuji cepat sehingga penelusuran penuh bisa dilakukan secara linear
    • Tetapi ada tahap kompresi di tengah, jadi jumlah backtracking bisa jauh lebih banyak
    • Hal seperti ini cocok ditangani dengan afl
  • Ini terlihat seperti nerd snipe, tapi sebenarnya bisa selesai lebih cepat dengan brute force. Jika 76 orang mengetik satu halaman masing-masing, ini selesai sebelum posting blog-nya terbit

    • Satu orang juga bisa mengetik semua 76 halaman. Dulu saya cukup sering melakukan pekerjaan seperti itu
    • Tapi membuat 76 orang menyalin dengan benar-benar akurat bukan hal mudah
    • Saya tidak punya 76 teman, jadi sepertinya harus dipasang di Craigslist atau Fiverr. Mengelolanya kelihatannya cukup rumit
  • Karena PDF adalah format yang sangat kompleks, saya rasa lebih baik pemerintah membuat dan menstandarkan format terbuka yang aman yang benar-benar baru

    • XPS adalah standar resmi berbasis XML dan dukungan open-source-nya lumayan, tetapi kualitas tool-nya rendah dan tetap kompleks
      DjVu sederhana dan tool open-source-nya bagus, tetapi fiturnya kurang
      TIFF justru lebih kompleks daripada PDF, jadi tidak cocok
      Referensi: XPS, DjVu, TIFF
    • Tetapi menurut saya ini bukan masalah tool, melainkan masalah sikap yang meremehkan hukum atau sengaja membuatnya berantakan
    • Bahkan jika format baru dibuat, dalam 3~5 tahun itu akhirnya akan menjadi serumit PDF juga
    • Setengah bercanda setengah serius, ada juga yang mengusulkan pakai JPEG saja
  • Di kotak pencarian justice.gov, saya bisa menemukan beberapa versi dari email yang sama
    Asli: EFTA00400459.pdf
    Versi tambahan:
    EFTA02153691.pdf
    EFTA02154109.pdf
    EFTA02154246.pdf
    Jika beberapa versi ini dibandingkan, sepertinya akan lebih mudah diselesaikan

    • Juga menemukan versi dengan encoding base64 dan font berbeda: EFTA00775520.pdf.
      Masalah “1” dan “l” tetap ada, tetapi ini bisa berguna sebagai referensi
  • Saya berpikir, bagaimana jika mencoba semua permutasi kombinasi (1, l). Jika diasumsikan 76 halaman × 69 baris × 1 kemunculan, berarti ada 2^5244 kemungkinan. Ada yang punya CPU nganggur?

    • Sebenarnya jauh lebih mudah. Cukup periksa secara berurutan apakah tiap perbaikan terdekode menjadi struktur PDF yang valid.
      Jika kompresi digunakan secara default, checksum malah membuatnya lebih mudah. Namun ini tidak bisa dilakukan dengan tool yang ada; perlu membuat test harness berinstrumentasi di dalam decoder secara langsung
    • Atau buat saja mata uang kripto seperti Epsteincoin untuk mengumpulkan daya komputasi guna memecahkan masalah ini
  • Detail acara: Dubin Breast Center 2nd Annual Benefit (Arsip)

    • Poster acara menyebut ini sebagai acara amal 2 tahun Dubin Breast Center yang diadakan pada 10 Desember 2012 di Mandarin Oriental,
      untuk menghormati Elisa Port dan keluarga Ruttenberg.
      Pembawa acaranya Cynthia McFadden, dan pertunjukannya melibatkan beberapa musisi
  • pdftoppm dan Ghostscript (dipanggil lewat Imagemagick) lambat karena meraster ulang seluruh halaman
    Mengekstrak langsung gambar hasil scan dengan pdfimages atau mutool jauh lebih cepat
    Hasil pengujian menunjukkan pdfimages 13 kali lebih cepat daripada pdftoppm