1 poin oleh GN⁺ 2026-02-05 | 1 komentar | Bagikan ke WhatsApp
  • Terhadap dokumen PDF yang dirilis oleh Departemen Kehakiman AS berdasarkan Epstein Files Transparency Act, dilakukan analisis forensik digital yang berfokus pada struktur dan sintaks file
  • Hasil analisis menunjukkan bahwa PDF dalam dataset EFTA 01–07 yang dirilis telah diedit (redaction) dengan benar, dan klaim di media sosial tentang “edit yang bisa dipulihkan” tidak benar
  • Semua PDF tidak memiliki enkripsi, anotasi, JavaScript, maupun lampiran, dan sebagian besar berupa dokumen berbasis gambar hasil pemindaian dengan OCR; beberapa file memiliki metadata tersembunyi (dictionary)
  • Ditemukan detail teknis seperti penomoran Bates, object stream tak terkompresi, penandaan versi yang keliru, dan anotasi yang hilang, tetapi hal ini tidak banyak memengaruhi validitas file
  • Kasus ini menunjukkan kompleksitas forensik PDF dan batas keandalan alat, serta menekankan pentingnya workflow pembersihan dan penyuntingan yang akurat sebelum dokumen sensitif dipublikasikan

Ikhtisar data yang dirilis DoJ

  • Pada 19 Desember 2025, Departemen Kehakiman merilis 7 arsip ZIP (total 2,97GB), yang berisi 4.085 PDF, 1 file AVI, serta file data .DAT dan .OPT untuk tiap set
    • Nama file PDF disusun berurutan dari EFTA00000001.pdf hingga EFTA00009664.pdf
    • Sekitar 5.879 PDF masih belum dirilis
  • Sebagian besar PDF adalah dokumen berbasis gambar hasil pemindaian, dengan sebagian teks dapat dicari melalui OCR
    • Redaksi berbentuk “kotak hitam” diterapkan, dan dipastikan dilakukan dengan benar pada level piksel
    • Tidak ditemukan dokumen born-digital

Analisis validitas file dan versi

  • Hasil pemeriksaan validitas menggunakan beberapa alat forensik PDF menemukan hanya satu kesalahan kecil
    • Pada 109 file, nilai FontDescriptor Descent diatur positif, tetapi ini hanya kesalahan kecil pencocokan font dan tidak memengaruhi validitas secara keseluruhan
  • Perbandingan dua jenis alat pdfinfo menunjukkan hasil pembacaan versi PDF yang berbeda
    • Tool A melaporkan 209 file versi 1.3 dan 3.875 file versi 1.5
    • Tool B melaporkan 3.817 file versi 1.3 dan 267 file versi 1.5
    • Perbedaan ini disebabkan oleh perbedaan cara menangani entri Version pada incremental update, dan hasil Tool A dinilai akurat
  • Semua PDF tidak memiliki enkripsi, tag, anotasi, bookmark, formulir, JavaScript, maupun lampiran
    • Total jumlah halaman adalah 9.659, dan sebagian besar merupakan dokumen satu halaman

Incremental update dan nomor Bates

  • PDF menyimpan riwayat perubahan secara bertahap melalui beberapa incremental update
    • PDF pertama (EFTA00000001.pdf) mencakup 2 kali incremental update
    • Pada pembaruan terakhir, nomor Bates ditambahkan ke setiap halaman
  • Penambahan nomor Bates menggunakan cross-reference stream /Type /XRef, dan pola yang sama ditemukan pada semua PDF sampel
  • Pada incremental update pertama, versi PDF berubah dari 1.3 ke 1.5, tetapi ada kesalahan teknis karena tidak cocok dengan header
    • Ada juga Info dictionary dokumen tersembunyi yang tidak dirujuk di trailer akhir, sehingga tidak terlihat di PDF viewer biasa
    • Dictionary tersebut memuat informasi /Creator (OmniPage CSDK 21.1) dan /Producer (Processing-CLI)

Analisis metadata dan tanggal

  • Hasil pdfinfo menunjukkan bahwa sebagian besar PDF tidak memiliki metadata eksplisit maupun stream XMP
    • Namun, pada beberapa file terdapat orphaned Info dictionary, dan entri /Info muncul beberapa kali
  • Hanya file EFTA00003212.pdf yang memiliki entri Title, Author, Subject, Keywords, Creator
    • Terdapat 215 file dengan nilai /Producer yang ditampilkan sebagai “pypdf”
  • Tanggal pembuatan (CreationDate) dan tanggal modifikasi (ModDate) semuanya sama, yakni antara 18–19 Desember 2025
    • Ini mengindikasikan pemrosesan batch oleh DoJ berlangsung sekitar 36 jam

Karakteristik gambar dan hasil pemindaian

  • Semua PDF tidak memiliki gambar JPEG (DCTDecode), dan sebagai gantinya menggunakan bitmap terkompresi FLATE
    • Resolusinya sekitar 96 DPI, dengan palet warna dibatasi hingga 256 warna
    • Hal ini diperkirakan bertujuan untuk menghapus metadata EXIF, IPTC, XMP
  • Beberapa dokumen menunjukkan jejak pemindaian nyata (tepi kertas, lubang, coretan, dan sebagainya), tetapi sebagian lain tampak sebagai gambar hasil simulasi pemindaian setelah rendering digital
    • Dapat dibedakan dari kemiringan (skew) yang sama dan tidak adanya noise
  • Penggunaan font monospace Courier menimbulkan risiko bahwa jumlah karakter yang disunting dapat diperkirakan dengan menghitung lebar teks yang ditutupi

Kualitas OCR dan akurasi redaksi

  • Hasil OCR memiliki akurasi rendah dan tidak memiliki kemampuan pengenalan bahasa, hanya pada tingkat pengenalan karakter sederhana
    • Teks OCR pada PDF pertama (EFTA00000001.pdf) sebagian besar tidak akurat
  • Redaksi “kotak hitam” diterapkan langsung pada level piksel gambar, bukan berupa penutup persegi panjang di atas objek teks
    • Karena itu, tidak ada teks yang bisa dipulihkan

Kesimpulan dan implikasi

  • Pipeline pembuatan PDF milik DoJ terdiri dari penghapusan JPEG, minimalisasi metadata, rendering berbasis gambar, dan penerapan OCR
    • Namun, objek yang tidak perlu, stream kosong, dan sisa incremental update meningkatkan ukuran file dan kompleksitasnya
  • Sebagian komentar PDF dan orphaned object masih tertinggal, sehingga tetap ada kemungkinan kebocoran informasi
  • Forensik PDF memiliki risiko salah tafsir yang tinggi karena perbedaan hasil antar alat dan kompleksitas format
    • Untuk itu, PDF Association mengoperasikan PDF Forensic Liaison Working Group guna mendorong standardisasi industri dan edukasi

1 komentar

 
GN⁺ 2026-02-05
Opini Hacker News
  • Beberapa dokumen tampak seperti hasil pindaian asli, tetapi ternyata merupakan PDF artifisial tanpa noise fisik sama sekali
    Karena setiap halaman memiliki kemiringan (skew) yang sama dan tepi yang sempurna, tampaknya dokumen digital asli dirender menjadi gambar lalu diberi pascapemrosesan seperti kemiringan, pengecilan, dan pengurangan warna

    • Yang benar-benar membuat penasaran adalah dokumen mana saja yang merupakan ‘pindaian palsu’ seperti ini, dan narasi politik apa yang ingin diperkuat dengan itu
      Alasan seseorang melakukan ini kemungkinan untuk membuat gambar buatan AI atau materi yang dimanipulasi terlihat seperti asli
    • Jika memakai GNOME Desktop, skrip Bash bisa ditaruh di ~/.local/share/nautilus/ agar langsung bisa membuat PDF pindaian palsu dari menu klik kanan
      Saya tidak ingat sumber aslinya, tetapi sepertinya pernah melihatnya di Stack Exchange. Perintah magick dipakai untuk menerapkan rotasi, noise, konversi grayscale, dan sebagainya
    • Cara membuat seperti ini terasa aneh. Jauh lebih mudah jika dokumennya cukup dicetak lalu dipindai ulang
    • Dokumen yang disebut secara khusus tampaknya adalah materi wawancara DoJ dengan A. Acosta pada 2019.
      Jika benar, muncul pertanyaan mengapa FBI menyamarkannya agar terlihat seperti hasil pindaian. Apakah ada bagian dari transaksi antara Epstein dan Acosta yang tidak ingin mereka buka
      Tautan PDF terkait
    • Saya juga kadang melakukan hal serupa. Jika diminta tanda tangan, saya menandatangani kertas kosong, memindainya, lalu nanti menggabungkan dokumen di atasnya dan mengirimkannya
  • Saya rasa secara hukum bermasalah bahwa DOJ merilis salinan yang telah dimodifikasi, bukan dokumen asli
    Perangkat lunak yang dipakai, OmniPage CSDK 21.1, menghapus semua metadata dan juga menghapus file terenkripsi

  • Saya penasaran apakah ada yang pernah menganalisis gaya penulisan Epstein (JE) dan membandingkannya dengan postingan di tempat seperti 4chan
    Untuk Ghislaine juga seharusnya ada cukup banyak data; saya tidak percaya klaim terkait MaxwellHill, tetapi mungkin ada petunjuk tertentu

    • Dulu ada proyek stylometry yang menganalisis gaya penulisan pengguna HN untuk menemukan akun yang mirip
      Tulisan terkait
      Situsnya ditutup karena masalah privasi, tetapi akurasinya tinggi. Saya juga jadi ingin membuat asisten browser AI yang merandomisasi gaya komentar saya
    • Namun saya tetap skeptis. Menurut saya, hanya dari gaya menulis dan kosakata, terlalu banyak orang yang akan tumpang tindih sehingga sulit diidentifikasi secara spesifik
      Meski begitu, email Epstein sangat khas sehingga mungkin jadi pengecualian
    • Bahkan hanya dengan analisis n-gram, stylometry sudah cukup canggih sampai bisa mengidentifikasi penulis
      Tautan demo HN
      Metode seperti ini juga bagus untuk membedakan tulisan buatan AI. Saya rasa ini jauh lebih baik daripada pendekatan melatih “transformer untuk deteksi AI”
    • Tulisan Epstein hampir seburuk paragraf orang dengan disleksia, penuh kalimat janggal
      Bisa jadi orang-orang elite jarang menulis sendiri sampai kehilangan kemampuan menyusun kalimat, atau mungkin itu semacam bahasa internal mereka sendiri
  • Lucu juga bahwa pada pop-up cookie di halaman ini, tombol ‘tolak’ ditulis sebagai “Continue without consent”

    • Rasanya benar-benar seperti ungkapan yang dimaksudkan untuk membuat pengguna merasa bersalah
    • Ironis bahwa situs tentang Epstein bertingkah seperti Epstein
  • Informasi mungkin bocor lewat objek yatim di anotasi PDF atau di dalam aliran objek terkompresi
    Semoga ada yang mengarsipkan semua dokumen secara independen. Sebagian tampaknya sudah dihapus

    • Di Reddit juga ada postingan terkait yang dihapus atau kena shadowban
      Tetapi diskusi masih berlangsung di komunitas Lemmy
    • Beberapa dokumen mungkin diburamkan lagi karena memuat nama korban
    • Awalnya, halaman Epstein Files Transparency Act memiliki tautan .zip untuk semua dataset,
      sempat semuanya hilang, lalu sekarang sebagian besar sudah dipulihkan
  • Saat ini saya sedang membandingkan hasil OCR yang diberikan DOJ dengan model allenai/olmocr-2-7b
    Ada sekitar 500 ribu gambar, jadi butuh waktu cukup lama. Meski begitu, tingkat pengenalan olmocr-2-7b cukup tinggi

    • Saya penasaran apakah ada yang sudah mencoba metode mengecilkan ukuran gambar untuk meningkatkan performa.
      Saya juga ingin tahu pada ukuran berapa teks mulai sulit dikenali
  • Saya penasaran mengapa beberapa file terbaru berisi karakter ‘=’ acak
    Ini tidak tampak seperti kesalahan OCR, lebih seperti upaya untuk mempersulit pencarian

    • Kemarin ada tulisan terkait di halaman utama HN: tautan
    • Sebenarnya ini akibat kesalahan pemrosesan encoding quoted-printable pada email
      Pengembang gnus, Lars Ingebrigtsen, menjelaskannya di blog
  • Di beberapa PDF, lampiran yang di-encode dengan Base64 masuk mentah-mentah ke badan dokumen
    Kualitas OCR-nya sangat buruk, jadi perlu usaha besar untuk memulihkannya
    Contoh PDF,
    thread Reddit terkait

    • Saya penasaran apakah hanya beberapa byte yang salah saja sudah bisa membuat pemulihan biner menjadi mustahil
  • Secara pribadi, yang lebih menarik bagi saya adalah rekening bank Epstein
    Intinya adalah siapa yang memberinya uang, dan siapa yang menerima uang darinya

    • DOJ mungkin sudah mengetahui informasi seperti ini, atau bisa langsung memeriksanya jika mau
    • Namun analisis akar penyebab pelacakan dana tidak dibuka ke publik
      Sebagai gantinya, yang diungkap hanya secukupnya agar opini publik mengarah pada kebencian antarkelompok tertentu
  • Akses diblokir oleh Cloudflare