- Terhadap dokumen PDF yang dirilis oleh Departemen Kehakiman AS berdasarkan Epstein Files Transparency Act, dilakukan analisis forensik digital yang berfokus pada struktur dan sintaks file
- Hasil analisis menunjukkan bahwa PDF dalam dataset EFTA 01–07 yang dirilis telah diedit (redaction) dengan benar, dan klaim di media sosial tentang “edit yang bisa dipulihkan” tidak benar
- Semua PDF tidak memiliki enkripsi, anotasi, JavaScript, maupun lampiran, dan sebagian besar berupa dokumen berbasis gambar hasil pemindaian dengan OCR; beberapa file memiliki metadata tersembunyi (dictionary)
- Ditemukan detail teknis seperti penomoran Bates, object stream tak terkompresi, penandaan versi yang keliru, dan anotasi yang hilang, tetapi hal ini tidak banyak memengaruhi validitas file
- Kasus ini menunjukkan kompleksitas forensik PDF dan batas keandalan alat, serta menekankan pentingnya workflow pembersihan dan penyuntingan yang akurat sebelum dokumen sensitif dipublikasikan
Ikhtisar data yang dirilis DoJ
- Pada 19 Desember 2025, Departemen Kehakiman merilis 7 arsip ZIP (total 2,97GB), yang berisi 4.085 PDF, 1 file AVI, serta file data
.DAT dan .OPT untuk tiap set
- Nama file PDF disusun berurutan dari
EFTA00000001.pdf hingga EFTA00009664.pdf
- Sekitar 5.879 PDF masih belum dirilis
- Sebagian besar PDF adalah dokumen berbasis gambar hasil pemindaian, dengan sebagian teks dapat dicari melalui OCR
- Redaksi berbentuk “kotak hitam” diterapkan, dan dipastikan dilakukan dengan benar pada level piksel
- Tidak ditemukan dokumen born-digital
Analisis validitas file dan versi
- Hasil pemeriksaan validitas menggunakan beberapa alat forensik PDF menemukan hanya satu kesalahan kecil
- Pada 109 file, nilai FontDescriptor Descent diatur positif, tetapi ini hanya kesalahan kecil pencocokan font dan tidak memengaruhi validitas secara keseluruhan
- Perbandingan dua jenis alat
pdfinfo menunjukkan hasil pembacaan versi PDF yang berbeda
- Tool A melaporkan 209 file versi 1.3 dan 3.875 file versi 1.5
- Tool B melaporkan 3.817 file versi 1.3 dan 267 file versi 1.5
- Perbedaan ini disebabkan oleh perbedaan cara menangani entri Version pada incremental update, dan hasil Tool A dinilai akurat
- Semua PDF tidak memiliki enkripsi, tag, anotasi, bookmark, formulir, JavaScript, maupun lampiran
- Total jumlah halaman adalah 9.659, dan sebagian besar merupakan dokumen satu halaman
Incremental update dan nomor Bates
- PDF menyimpan riwayat perubahan secara bertahap melalui beberapa incremental update
- PDF pertama (
EFTA00000001.pdf) mencakup 2 kali incremental update
- Pada pembaruan terakhir, nomor Bates ditambahkan ke setiap halaman
- Penambahan nomor Bates menggunakan cross-reference stream
/Type /XRef, dan pola yang sama ditemukan pada semua PDF sampel
- Pada incremental update pertama, versi PDF berubah dari 1.3 ke 1.5, tetapi ada kesalahan teknis karena tidak cocok dengan header
- Ada juga Info dictionary dokumen tersembunyi yang tidak dirujuk di trailer akhir, sehingga tidak terlihat di PDF viewer biasa
- Dictionary tersebut memuat informasi
/Creator (OmniPage CSDK 21.1) dan /Producer (Processing-CLI)
Analisis metadata dan tanggal
- Hasil
pdfinfo menunjukkan bahwa sebagian besar PDF tidak memiliki metadata eksplisit maupun stream XMP
- Namun, pada beberapa file terdapat orphaned Info dictionary, dan entri
/Info muncul beberapa kali
- Hanya file
EFTA00003212.pdf yang memiliki entri Title, Author, Subject, Keywords, Creator
- Terdapat 215 file dengan nilai
/Producer yang ditampilkan sebagai “pypdf”
- Tanggal pembuatan (
CreationDate) dan tanggal modifikasi (ModDate) semuanya sama, yakni antara 18–19 Desember 2025
- Ini mengindikasikan pemrosesan batch oleh DoJ berlangsung sekitar 36 jam
Karakteristik gambar dan hasil pemindaian
- Semua PDF tidak memiliki gambar JPEG (DCTDecode), dan sebagai gantinya menggunakan bitmap terkompresi FLATE
- Resolusinya sekitar 96 DPI, dengan palet warna dibatasi hingga 256 warna
- Hal ini diperkirakan bertujuan untuk menghapus metadata EXIF, IPTC, XMP
- Beberapa dokumen menunjukkan jejak pemindaian nyata (tepi kertas, lubang, coretan, dan sebagainya), tetapi sebagian lain tampak sebagai gambar hasil simulasi pemindaian setelah rendering digital
- Dapat dibedakan dari kemiringan (skew) yang sama dan tidak adanya noise
- Penggunaan font monospace Courier menimbulkan risiko bahwa jumlah karakter yang disunting dapat diperkirakan dengan menghitung lebar teks yang ditutupi
Kualitas OCR dan akurasi redaksi
- Hasil OCR memiliki akurasi rendah dan tidak memiliki kemampuan pengenalan bahasa, hanya pada tingkat pengenalan karakter sederhana
- Teks OCR pada PDF pertama (
EFTA00000001.pdf) sebagian besar tidak akurat
- Redaksi “kotak hitam” diterapkan langsung pada level piksel gambar, bukan berupa penutup persegi panjang di atas objek teks
- Karena itu, tidak ada teks yang bisa dipulihkan
Kesimpulan dan implikasi
- Pipeline pembuatan PDF milik DoJ terdiri dari penghapusan JPEG, minimalisasi metadata, rendering berbasis gambar, dan penerapan OCR
- Namun, objek yang tidak perlu, stream kosong, dan sisa incremental update meningkatkan ukuran file dan kompleksitasnya
- Sebagian komentar PDF dan orphaned object masih tertinggal, sehingga tetap ada kemungkinan kebocoran informasi
- Forensik PDF memiliki risiko salah tafsir yang tinggi karena perbedaan hasil antar alat dan kompleksitas format
- Untuk itu, PDF Association mengoperasikan PDF Forensic Liaison Working Group guna mendorong standardisasi industri dan edukasi
1 komentar
Opini Hacker News
Beberapa dokumen tampak seperti hasil pindaian asli, tetapi ternyata merupakan PDF artifisial tanpa noise fisik sama sekali
Karena setiap halaman memiliki kemiringan (skew) yang sama dan tepi yang sempurna, tampaknya dokumen digital asli dirender menjadi gambar lalu diberi pascapemrosesan seperti kemiringan, pengecilan, dan pengurangan warna
Alasan seseorang melakukan ini kemungkinan untuk membuat gambar buatan AI atau materi yang dimanipulasi terlihat seperti asli
~/.local/share/nautilus/agar langsung bisa membuat PDF pindaian palsu dari menu klik kananSaya tidak ingat sumber aslinya, tetapi sepertinya pernah melihatnya di Stack Exchange. Perintah
magickdipakai untuk menerapkan rotasi, noise, konversi grayscale, dan sebagainyaJika benar, muncul pertanyaan mengapa FBI menyamarkannya agar terlihat seperti hasil pindaian. Apakah ada bagian dari transaksi antara Epstein dan Acosta yang tidak ingin mereka buka
Tautan PDF terkait
Saya rasa secara hukum bermasalah bahwa DOJ merilis salinan yang telah dimodifikasi, bukan dokumen asli
Perangkat lunak yang dipakai, OmniPage CSDK 21.1, menghapus semua metadata dan juga menghapus file terenkripsi
Saya penasaran apakah ada yang pernah menganalisis gaya penulisan Epstein (JE) dan membandingkannya dengan postingan di tempat seperti 4chan
Untuk Ghislaine juga seharusnya ada cukup banyak data; saya tidak percaya klaim terkait MaxwellHill, tetapi mungkin ada petunjuk tertentu
Tulisan terkait
Situsnya ditutup karena masalah privasi, tetapi akurasinya tinggi. Saya juga jadi ingin membuat asisten browser AI yang merandomisasi gaya komentar saya
Meski begitu, email Epstein sangat khas sehingga mungkin jadi pengecualian
Tautan demo HN
Metode seperti ini juga bagus untuk membedakan tulisan buatan AI. Saya rasa ini jauh lebih baik daripada pendekatan melatih “transformer untuk deteksi AI”
Bisa jadi orang-orang elite jarang menulis sendiri sampai kehilangan kemampuan menyusun kalimat, atau mungkin itu semacam bahasa internal mereka sendiri
Lucu juga bahwa pada pop-up cookie di halaman ini, tombol ‘tolak’ ditulis sebagai “Continue without consent”
Informasi mungkin bocor lewat objek yatim di anotasi PDF atau di dalam aliran objek terkompresi
Semoga ada yang mengarsipkan semua dokumen secara independen. Sebagian tampaknya sudah dihapus
Tetapi diskusi masih berlangsung di komunitas Lemmy
sempat semuanya hilang, lalu sekarang sebagian besar sudah dipulihkan
Saat ini saya sedang membandingkan hasil OCR yang diberikan DOJ dengan model allenai/olmocr-2-7b
Ada sekitar 500 ribu gambar, jadi butuh waktu cukup lama. Meski begitu, tingkat pengenalan olmocr-2-7b cukup tinggi
Saya juga ingin tahu pada ukuran berapa teks mulai sulit dikenali
Saya penasaran mengapa beberapa file terbaru berisi karakter ‘=’ acak
Ini tidak tampak seperti kesalahan OCR, lebih seperti upaya untuk mempersulit pencarian
Pengembang gnus, Lars Ingebrigtsen, menjelaskannya di blog
Di beberapa PDF, lampiran yang di-encode dengan Base64 masuk mentah-mentah ke badan dokumen
Kualitas OCR-nya sangat buruk, jadi perlu usaha besar untuk memulihkannya
Contoh PDF,
thread Reddit terkait
Secara pribadi, yang lebih menarik bagi saya adalah rekening bank Epstein
Intinya adalah siapa yang memberinya uang, dan siapa yang menerima uang darinya
Sebagai gantinya, yang diungkap hanya secukupnya agar opini publik mengarah pada kebencian antarkelompok tertentu
Akses diblokir oleh Cloudflare