- Makalah DeepSeek-OCR yang baru-baru ini dipublikasikan mengeksplorasi kemungkinan model bahasa besar (LLM) dilatih dengan menerima piksel gambar secara langsung sebagai input, alih-alih teks
- Pendekatan ini mengusulkan cara untuk melewati tahap OCR (pengenalan karakter optik) tradisional dan langsung meneruskan informasi visual apa adanya ke model
- Karpathy menyinggung makalah ini dan mempertanyakan apakah input piksel dapat memberikan konteks yang lebih kaya daripada token teks
- Gagasan ini sejalan dengan arah perkembangan AI multimodal dan secara eksperimental mengeksplorasi apakah model bahasa dapat menginternalisasi kemampuan memahami visual
- Diskusi ini dinilai sebagai arus riset penting yang dapat mendefinisikan ulang struktur input dan paradigma pelatihan LLM di masa depan
Konsep inti makalah DeepSeek-OCR
- DeepSeek-OCR mengusulkan arsitektur model bahasa besar yang memproses langsung data piksel dari gambar dokumen, sebagai pengganti input berbasis teks yang ada saat ini
- Sistem OCR tradisional mengekstrak teks dari gambar lalu meneruskannya ke model bahasa, tetapi dalam proses ini bentuk karakter, tata letak, dan konteks visual dapat hilang
- Untuk mengurangi kehilangan tersebut, DeepSeek-OCR menggunakan informasi visual tingkat piksel apa adanya sebagai input model
- Model dirancang agar dapat memahami beragam elemen visual dalam gambar seperti huruf, tabel, rumus, dan diagram secara bersamaan
- Dengan demikian, model tidak hanya melakukan pengenalan teks sederhana, tetapi juga pemahaman struktur dokumen dan penalaran makna
Pertanyaan yang diajukan Karpathy
- Dalam thread Twitter-nya, Karpathy menyinggung makalah ini sambil melempar pertanyaan, “Apakah piksel merupakan input yang lebih baik daripada teks?”
- Ia menunjukkan bahwa cara pelatihan LLM saat ini yang hanya mengandalkan token teks dapat menyebabkan kehilangan informasi
- Secara khusus, ia menyebut bahwa jika model bahasa dapat mempelajari konteks visual secara langsung, maka struktur pelatihan terpadu yang melewati tahap OCR bisa dimungkinkan
- Karpathy menilai pendekatan ini berpotensi meningkatkan kemampuan generalisasi model dan pemahaman multimodal
- Namun, ia juga menyoroti keterbatasan praktis seperti biaya komputasi yang tinggi untuk input piksel dan sulitnya membangun dataset berskala besar
Makna teknis dan potensi dampaknya
- Input berbasis piksel memiliki keunggulan berupa kepadatan informasi yang lebih tinggi dan pelestarian konteks visual dibanding input berbasis teks
- Sebagai contoh, pada dokumen yang berisi tabel atau rumus, informasi struktural dapat hilang dalam proses konversi ke teks, sementara input piksel mempertahankannya apa adanya
- Di sisi lain, input piksel juga membawa tantangan seperti peningkatan jumlah parameter model, naiknya biaya pelatihan, dan melambatnya kecepatan inferensi
- Karena itu, dalam penerapan nyata, pendekatan hibrida antara teks dan piksel kerap disebut sebagai alternatif yang lebih realistis
- Diskusi ini dipandang sebagai eksplorasi eksperimental tentang apakah LLM dapat menginternalisasi kemampuan persepsi visual dan spasial, melampaui sekadar pemahaman bahasa
Implikasi industri
- Dalam industri yang menangani struktur dokumen kompleks seperti pemrosesan dokumen, keuangan, hukum, dan medis, pendekatan DeepSeek-OCR memiliki arti penting
- Misalnya, dimungkinkan membangun sistem AI yang memahami langsung tata letak visual kontrak atau tagihan hasil pemindaian
- Diskusi Karpathy memicu peninjauan ulang mendasar terhadap format input AI dan berpotensi memengaruhi arah desain LLM ke depan
- LLM berbasis input piksel dapat mengarah pada penggantian atau integrasi teknologi OCR, dan diperhatikan sebagai titik balik baru dalam riset AI multimodal
1 komentar
Komentar Hacker News
Ini bukan piksel melainkan percel. Piksel adalah titik pada gambar, sedangkan percel adalah unit informasi perseptual yang dapat mencakup suara, sensasi, bahkan token pemikiran
Dalam kasus manusia, kita mengenali percel yang menggabungkan banyak indra, dan jaringan saraf, terutama LLM, tidak memproses percel secara terpisah melainkan menanganinya bersama dalam konteks percel-percel di sekitarnya
Sangat disayangkan bahwa riset lintas disiplin punya potensi besar, tetapi sulit mendapat pendanaan hanya karena tidak cocok dengan kerangka yang sudah ada
“Kill the tokenizer” adalah usulan yang ekstrem tetapi mendasar
Tokenisasi hanyalah hack sementara untuk mengkuantifikasi bahasa, dan ia mendistorsi hakikat bahasa
Gagasan bahwa piksel bisa menjadi unit representasi yang lebih kuat memang terasa asing, tetapi seseorang tetap perlu mencoba pendekatan baru
Karena itu, input berbasis visual terasa seperti hasil evolusi yang alami
Jika alih-alih merender teks lalu membacanya dengan OCR kita mengenkode sampel suara lewat TTS, itu mungkin lebih efisien daripada piksel. Tentu saja ini bergantung pada resolusi atau sample rate
Sebagai riset terkait yang menarik, ada makalah oleh Lex Flagel dkk. yang mengubah data urutan DNA menjadi gambar lalu melatih CNN dengannya
Hasilnya, CNN mampu mereproduksi metrik genetika yang sebelumnya diperoleh dari analisis berbasis teks
Tautan makalah
Inti diskusi belakangan ini adalah kesadaran bahwa saat kita merepresentasikan bahasa ke mesin, kita memakai abstraksi yang lossy
Tokenisasi hanyalah salah satunya, dan piksel maupun sinyal suara juga merupakan pendekatan aproksimasi lain
Nilai sebenarnya dari eksperimen seperti ini adalah untuk memverifikasi asumsi desain arsitektur saat ini
Pendekatan yang mempelajari penyelarasan multimodal dapat membantu menemukan struktur laten atau metode pelatihan yang lebih baik, dan itu bisa berujung pada perbaikan encoder teks yang ada
Khususnya untuk bahasa yang batas antarkatanya ambigu, metode encoding alternatif bisa sangat membantu
Gagasan dalam makalah tentang “kompresi informasi → jendela konteks yang pendek → efisiensi meningkat” memang menarik, tetapi
saya jadi bertanya-tanya apakah ketika ukuran huruf, font, atau jarak berubah, rasio kompresinya justru bisa memburuk
Saya setuju dengan pendapat Karpathy.
Salah satu kelebihan token teks adalah model dapat mempelajari pemahaman inheren tentang metode input seperti keyboard QWERTY
Misalnya, “Hello” dan “Hwllo” dikenali cukup dekat secara semantik karena tombolnya berdekatan di keyboard
Mungkin butuh lebih banyak pelatihan, tetapi pada akhirnya bisa menghasilkan kemampuan pengenalan yang tergeneralisasi
Karena typo juga bisa dibuat dan dipakai untuk pelatihan pada gambar, menurut saya itu bukan masalah besar
Saat memikirkan diri saya sendiri, yang terdengar di kepala saya adalah aliran kata-kata
Bukan halaman atau gambar, melainkan rangkaian kata-kata sebagai suara
Tokenisasi saat ini mungkin tidak efisien. Bahasa sendiri sudah memiliki struktur kompresi tingkat tinggi,
tetapi mungkin ada cara representasi yang lebih baik di latent space
arsitektur LLM saat ini tidak efisien untuk menangani distribusi output yang terlalu besar
Saya merasa pendekatan ini masih jauh dari praktis.
Setiap kali ChatGPT menawarkan “mau divisualisasikan dalam bentuk gambar?”, hasilnya selalu penuh halusinasi
Yang dibahas di sini adalah mengubah teks menjadi gambar lalu memasukkannya ke LLM, bukan menghasilkan gambar
Untuk diskusi terkait terbaru, ada
kasus menjalankan DeepSeek-OCR di Nvidia Spark dan
proyek DeepSeek OCR.
Keduanya ramai dibahas pada Oktober 2025