DeepSeek OCR
(github.com/deepseek-ai)Ringkasan satu baris
Mengusulkan dan memverifikasi kompresi konteks optik yang mengubah dokumen/riwayat percakapan menjadi gambar (token visual) untuk secara signifikan mengurangi konteks LLM (≈7–20×), lalu memulihkannya kembali secara akurat menjadi teks (OCR). Dengan menggabungkan encoder visi baru (DeepEncoder) dan decoder 3B MoE, sistem ini menunjukkan kinerja parsing dokumen setara SOTA bahkan dengan jumlah token visual yang sedikit.
Definisi masalah
• Biaya kuadratik pada LLM meningkat seiring konteks yang makin panjang.
• Jika teks dokumen dirender menjadi gambar, jumlah token visual jauh lebih sedikit daripada token teks → jika pemulihan gambar→teks dilakukan dengan baik, kompresi berefisiensi tinggi menjadi memungkinkan.
• OCR adalah elemen eksperimen yang baik karena memungkinkan pemetaan kompresi/pemulihan alami antara visual↔teks dan evaluasi kuantitatif.
Gambaran metode
Arsitektur: DeepEncoder (encoder) + DeepSeek-3B-MoE-A570M (decoder)
• DeepEncoder (inti)
• Terdiri dari dua tahap:
1. Blok persepsi visual berbasis window attention (keluarga SAM-base, ~80M) → memori aktivasi rendah bahkan pada resolusi tinggi
2. Setelah jumlah token dikurangi drastis dengan kompresor konvolusi 16×,
3. Blok pengetahuan visual berbasis global attention (CLIP-large, patch embedding pertama dihapus)
• Mendukung multi-resolusi (mode): Tiny (64 token, 512²), Small (100, 640²), Base (256, 1024²), Large (400,1280²) +
Gundam (n tile 640² + tampilan global 1024² → token = n×100+256),
Gundam-M (tile 1024² + global 1280²)
• Konsep token valid: hanya menghitung token efektif dengan mengecualikan ruang kosong akibat padding (didefinisikan dengan rumus).
• Decoder MoE: menggunakan DeepSeek-3B-MoE (12 lapis) untuk memulihkan token visual terkompresi yang dibuat encoder → teks asli.
Mesin data & pelatihan
• OCR 1.0 (OCR tradisional):
• 30 juta halaman PDF internet (sekitar 100 bahasa):
• Coarse: diekstrak dengan fitz (untuk pelatihan pengenalan teks optik)
• Fine: masing-masing 2 juta halaman bahasa Mandarin dan Inggris diberi label presisi tinggi dengan layout/OCR lanjutan (box+teks yang diselingi), ditambah 3 juta halaman dokumen Word
• OCR adegan alami: masing-masing 10 juta sampel bahasa Mandarin/Inggris (label PaddleOCR)
• OCR 2.0 (parsing gambar sintetis majemuk):
• Grafik (pyecharts/matplotlib) 10 juta gambar → diberi label sebagai tabel HTML
• Rumus kimia: 5 juta render RDKit dari PubChem SMILES
• Geometri bidang: pembuatan data dengan metode Slow Perception (kamus segmen garis, dll.)
• Visi umum: 100 juta sampel LAION dicampurkan untuk prapelatihan encoder
• Infrastruktur pelatihan: 20 node (masing-masing 8×A100-40G), pipeline parallel 4 tahap (2 encoder, 2 decoder), DP=40, global batch 640.
• Teks saja 90B tok/hari, multimodal 70B tok/hari
• Produksi data skala produksi: dengan 20 node dapat menghasilkan 33 juta halaman per hari
Hasil eksperimen
-
Studi kompresi konteks optik (Compression) — benchmark Fox (100 halaman bahasa Inggris, 600–1300 token)
• Berdasarkan Small (100 token visual), presisi & rasio kompresi (token teks/token visual):
• 600–700: 98.5%, 6.7×
• 700–800: 97.3%, 7.5×
• 800–900: 96.8%, 8.5×
• 900–1000: 96.8%, 9.7×
• 1000–1100: 91.5%, 10.6×
• 1100–1200: 89.8%, 11.3×
• 1200–1300: 87.1%, 12.6ו Ringkasan: pada kompresi 9–10×, presisi 96%+, pada 10–12× sekitar 90%, dan di sekitar 20× sekitar 60%.
→ Sekitar 10× mendekati quasi-lossless, dan di atas itu kinerja menurun bertahap karena kompleksitas layout dan blur resolusi rendah. -
Parsing dokumen nyata (OmniDocBench) — edit distance (semakin rendah semakin baik)
• Hanya dengan 100 token (640²) sudah melampaui GOT-OCR2.0 (256 token)
• Pada 400 token (1280²), setara dengan SOTA terbaru
• Dengan mode Gundam (<800 token), melampaui kinerja MinerU-2.0 (≈6,790 token)
→ Efisiensi token sangat unggul (dengan sedikit token visual, kinerja setara/melampaui). -
Hasil kualitatif (fitur)
• Deep parsing:
• Grafik → tabel HTML,
• Rumus kimia → SMILES,
• Bentuk geometri → struktur kamus (segmen garis/koordinat/tipe, dll.)
• Gambar alami juga mendukung tanya jawab dasar
• Multibahasa: pengenalan PDF sekitar 100 bahasa (output layout/non-layout dapat dikendalikan dengan prompt)
Makna
• Memberikan bukti bahwa kompresi melalui token visual adalah solusi yang menjanjikan untuk masalah biaya konteks sangat panjang pada LLM.
• Mengusulkan strategi memory decay: konteks/percakapan terbaru dipertahankan pada resolusi tinggi, sedangkan riwayat lama dikecilkan bertahap (rasio kompresi↑) → alokasi sumber daya yang mirip dengan kurva pelupaan manusia.
• Optimasi anggaran token: memberikan panduan jumlah token yang diperlukan per tugas/jenis dokumen (untuk dokumen superpadat seperti koran, disarankan mode Gundam/M).
Keterbatasan & tugas lanjutan
• Saat ini masih dekat dengan PoC berbasis OCR, dan analisis kehilangan pada pipeline digital↔optik↔digital yang benar-benar utuh memerlukan penelitian tambahan.
• Perlu memperbaiki penyebab penurunan tajam kinerja di atas 10× (layout kompleks, blur resolusi rendah).
• Ada isu kesesuaian format/benchmark (misalnya, perbedaan format evaluasi Fox bisa membuat kinerja sebenarnya terukur lebih rendah).
Ringkasan poin kunci
• DeepEncoder: window attention (aktivasi rendah) → kompresi conv 16× → global attention (CLIP)
• Multi-resolusi + tile+global (Gundam) menyeimbangkan penghematan memori/token dan kinerja
• Pada kompresi ≈10×, diperoleh presisi pemulihan ~96% → petunjuk untuk memangkas drastis biaya konteks
• OmniDocBench: pada level 100–800 token visual, mendekati/melampaui SOTA
• Praktis untuk grafik/kimia/geometri/multibahasa
3 komentar
Wah, ini luar biasa banget wkwk. Tapi kalau dipulihkan, bukannya tetap token yang sama juga? Yang bisa dihemat cuma token saat disimpan saja, bukan? Aku agak kurang paham karena bodoh sih T_T. Ada yang bisa jelasin dengan gampang dimengerti?
Idenya DeepSeek memang sangat bagus.
DeepSeek OCR - model OCR super efisien melalui kompresi konteks visual
Lihat juga versi ringkasan oleh GN+ dan komentar Hacker News.