Memulihkan PDF Epstein dari lampiran berkode asli

(neosmart.net)

1 poin oleh GN⁺ 2026-02-06 | 1 komentar | Bagikan ke WhatsApp

Arsip email Epstein yang dirilis Departemen Kehakiman AS menuai kritik keras karena kesalahan encoding dan sensor berlebihan yang menyebabkan kerusakan serius
Beberapa email masih menyertakan lampiran dalam format Content-Transfer-Encoding: base64 apa adanya, sehingga data tersebut secara teori bisa dipulihkan untuk merekonstruksi PDF asli
Namun, karena kualitas OCR yang buruk, masalah pembedaan karakter 1 dan l pada font Courier New, serta kualitas pemindaian yang buruk, pemulihan otomatis nyaris mustahil
Penulis mencoba pemulihan dengan tesseract, Adobe Acrobat Pro, AWS Textract, dan lainnya, tetapi semuanya hanya menghasilkan hasil yang tidak lengkap
Kasus ini menyoroti batasan forensik digital dan teknik pemulihan dokumen, sekaligus menjadi tantangan teknis yang perlu diselesaikan bersama oleh komunitas

Masalah pada materi rilis Departemen Kehakiman

Arsip Epstein yang baru dirilis didistribusikan dalam kondisi disensor berlebihan, mulai dari nama kaki tangan hingga foto perempuan yang tidak terkait
- Sebagian file rusak akibat kesalahan encoding Quoted-Printable sehingga tidak bisa dibuka
- Bahkan kredensial email sempat terekspos, memungkinkan pengguna Reddit mengakses akun Epstein
Penanganan yang buruk ini memicu kritik terhadap kurangnya profesionalisme Departemen Kehakiman yang dipimpin Pam Bondi

Menemukan lampiran base64

Dalam email EFTA00400459, ditemukan data base64 sepanjang 76 halaman
- Data itu adalah bentuk hasil encoding SMTP dari file DBC12 One Page Invite with Reply.pdf
- Secara teori, file tersebut seharusnya bisa dipulihkan hanya dengan menyalin lalu menjalankan perintah base64 -d > output.pdf, tetapi yang tersedia ternyata hanya hasil pemindaian OCR dengan banyak kesalahan
Hasil OCR mengandung penyisipan karakter yang salah, karakter hilang, dan karakter base64 tidak valid (misalnya [, ,) sehingga tidak bisa didekodekan

Masalah OCR dan font

Upaya pemrosesan ulang OCR menggunakan Adobe Acrobat Pro dan tesseract sama-sama menghasilkan penyisipan spasi dan kesalahan pengenalan karakter
Meski tesseract dibatasi hanya ke himpunan karakter valid base64, tetap muncul masalah panjang baris yang tidak konsisten dan penghentian pengenalan di tengah
Penyebab terbesar adalah font Courier New, karena membedakan 1 dan l hampir mustahil
- Resolusi JPEG hasil pemindaian yang rendah dan artefak kompresi membuat identifikasi visual pun sangat sulit
- Akibatnya, koreksi manual menjadi wajib, dan saat decoding perlu mencoba menukar 1 dan l satu per satu

Upaya pemulihan dan perbandingan alat

imagemagick dan ghostscript gagal karena kehabisan memori saat memproses data besar, sehingga pdftoppm dipakai sebagai alternatif
AWS Textract memberikan hasil terbaik, tetapi masih menyisakan kesalahan panjang baris dan hasil yang tidak deterministik
- Gambar input diperbesar 2x untuk meningkatkan tingkat pengenalan, namun tetap gagal mencapai pemulihan penuh
Upaya memulihkan struktur PDF dengan qpdf gagal karena cross-reference table yang rusak

Usulan komunitas dan diskusi lanjutan

Di akhir tulisan, penulis mengajak komunitas untuk mencoba memulihkan lampiran lain
- Pencarian Content-Transfer-Encoding dan base64 menunjukkan masih ada beberapa data yang berpotensi berguna
Berbagai pengguna mengusulkan pendekatan seperti OCR berbasis ML, pelatihan CNN khusus per font, dan crowdsourcing ala CAPTCHA
- Sebagian membagikan contoh keberhasilan pemulihan PDF, serta melaporkan bahwa penggunaan pdfimages memberi hasil lebih tajam dibanding pdftoppm
Pada akhirnya, turut dibahas teknik pemulihan lanjutan seperti algoritme otomatis untuk membedakan 1/l, deteksi kesalahan berbasis streaming decompressor, dan perbandingan tingkat piksel

Makna teknis

Kasus ini menunjukkan bagaimana kesalahan encoding dokumen digital dan keterbatasan OCR dapat benar-benar menghambat akses terhadap informasi
Peristiwa ini menegaskan pentingnya kontrol kualitas pemrosesan digital untuk barang bukti hukum serta teknologi otomatisasi forensik dokumen
Upaya pemulihan kolaboratif oleh komunitas dipandang sebagai contoh peningkatan transparansi data publik dan kemungkinan verifikasi teknis

1 komentar

GN⁺ 2026-02-06

Komentar Hacker News

Sepertinya tim DOJ Pam Bondi tidak mengerahkan orang terbaik mereka untuk pekerjaan ini
- Percakapan antar agen FB lewat pesan di bagian awal cukup menarik. Mungkin ini semacam malicious compliance yang disengaja berantakan supaya informasinya bocor lagi sebelum disensor ulang
- Internet sedang menemukan semua kesalahannya untuknya, jadi justru tampaknya terselesaikan dengan baik lewat crowdsourcing. Berkat banyak orang, kesalahannya terus diperbaiki
Membagikan skrip yang dibuat oleh Claude Opus
Tautan skrip / Keluaran teks / Versi yang dirapikan
Skrip itu menghasilkan PDF yang setidaknya halaman pertamanya bisa dibaca
- Penasaran apakah bisa diekspor ulang sebagai PDF yang dinormalisasi atau dibagikan screenshot-nya. Semua pembaca PDF saya menolak membukanya
- Mengonfirmasi bahwa ini adalah acara publik yang dihadiri 450 orang. Nama-namanya cocok dengan artikel Mount Sinai dan artikel Business Insider, tetapi tanggalnya berbeda
- Kerja yang keren
Tesseract bisa dilatih untuk font tertentu. Ini tampaknya bisa jadi titik awal yang bagus
Referensi: Panduan data pelatihan Tesseract
Ini masalah dekoding PDF biner. Karena jumlah encoding yang mungkin terbatas, saya mengusulkan pendekatan berikut
1. Gunakan decoder PDF open-source
2. Dekode byte sampai karakter ambigu pertama
3. Jika bit berikutnya valid, anggap sebagai 1, jika tidak sebagai l
4. Jika keduanya valid, lakukan backtracking
  Dengan cara ini, hanya karakter di tengah yang perlu diuji cepat sehingga penelusuran penuh bisa dilakukan secara linear
- Tetapi ada tahap kompresi di tengah, jadi jumlah backtracking bisa jauh lebih banyak
- Hal seperti ini cocok ditangani dengan afl
Ini terlihat seperti nerd snipe, tapi sebenarnya bisa selesai lebih cepat dengan brute force. Jika 76 orang mengetik satu halaman masing-masing, ini selesai sebelum posting blog-nya terbit
- Satu orang juga bisa mengetik semua 76 halaman. Dulu saya cukup sering melakukan pekerjaan seperti itu
- Tapi membuat 76 orang menyalin dengan benar-benar akurat bukan hal mudah
- Saya tidak punya 76 teman, jadi sepertinya harus dipasang di Craigslist atau Fiverr. Mengelolanya kelihatannya cukup rumit
Karena PDF adalah format yang sangat kompleks, saya rasa lebih baik pemerintah membuat dan menstandarkan format terbuka yang aman yang benar-benar baru
- XPS adalah standar resmi berbasis XML dan dukungan open-source-nya lumayan, tetapi kualitas tool-nya rendah dan tetap kompleks
  DjVu sederhana dan tool open-source-nya bagus, tetapi fiturnya kurang
  TIFF justru lebih kompleks daripada PDF, jadi tidak cocok
  Referensi: XPS, DjVu, TIFF
- Tetapi menurut saya ini bukan masalah tool, melainkan masalah sikap yang meremehkan hukum atau sengaja membuatnya berantakan
- Bahkan jika format baru dibuat, dalam 3~5 tahun itu akhirnya akan menjadi serumit PDF juga
- Setengah bercanda setengah serius, ada juga yang mengusulkan pakai JPEG saja
Di kotak pencarian justice.gov, saya bisa menemukan beberapa versi dari email yang sama
Asli: EFTA00400459.pdf
Versi tambahan:
EFTA02153691.pdf
EFTA02154109.pdf
EFTA02154246.pdf
Jika beberapa versi ini dibandingkan, sepertinya akan lebih mudah diselesaikan
- Juga menemukan versi dengan encoding base64 dan font berbeda: EFTA00775520.pdf.
  Masalah “1” dan “l” tetap ada, tetapi ini bisa berguna sebagai referensi
Saya berpikir, bagaimana jika mencoba semua permutasi kombinasi (1, l). Jika diasumsikan 76 halaman × 69 baris × 1 kemunculan, berarti ada 2^5244 kemungkinan. Ada yang punya CPU nganggur?
- Sebenarnya jauh lebih mudah. Cukup periksa secara berurutan apakah tiap perbaikan terdekode menjadi struktur PDF yang valid.
  Jika kompresi digunakan secara default, checksum malah membuatnya lebih mudah. Namun ini tidak bisa dilakukan dengan tool yang ada; perlu membuat test harness berinstrumentasi di dalam decoder secara langsung
- Atau buat saja mata uang kripto seperti Epsteincoin untuk mengumpulkan daya komputasi guna memecahkan masalah ini
Detail acara: Dubin Breast Center 2nd Annual Benefit (Arsip)
- Poster acara menyebut ini sebagai acara amal 2 tahun Dubin Breast Center yang diadakan pada 10 Desember 2012 di Mandarin Oriental,
  untuk menghormati Elisa Port dan keluarga Ruttenberg.
  Pembawa acaranya Cynthia McFadden, dan pertunjukannya melibatkan beberapa musisi
pdftoppm dan Ghostscript (dipanggil lewat Imagemagick) lambat karena meraster ulang seluruh halaman
Mengekstrak langsung gambar hasil scan dengan pdfimages atau mutool jauh lebih cepat
Hasil pengujian menunjukkan pdfimages 13 kali lebih cepat daripada pdftoppm

Memulihkan PDF Epstein dari lampiran berkode asli

Masalah pada materi rilis Departemen Kehakiman

Menemukan lampiran base64

Masalah OCR dan font

Upaya pemulihan dan perbandingan alat

Usulan komunitas dan diskusi lanjutan

Makna teknis

Bacaan terkait

1 komentar

Komentar Hacker News