Apakah input berbasis piksel lebih baik daripada teks? Pertanyaan Karpathy tentang makalah DeepSeek-OCR

(twitter.com/karpathy)

3 poin oleh GN⁺ 2025-10-24 | 1 komentar | Bagikan ke WhatsApp

Makalah DeepSeek-OCR yang baru-baru ini dipublikasikan mengeksplorasi kemungkinan model bahasa besar (LLM) dilatih dengan menerima piksel gambar secara langsung sebagai input, alih-alih teks
Pendekatan ini mengusulkan cara untuk melewati tahap OCR (pengenalan karakter optik) tradisional dan langsung meneruskan informasi visual apa adanya ke model
Karpathy menyinggung makalah ini dan mempertanyakan apakah input piksel dapat memberikan konteks yang lebih kaya daripada token teks
Gagasan ini sejalan dengan arah perkembangan AI multimodal dan secara eksperimental mengeksplorasi apakah model bahasa dapat menginternalisasi kemampuan memahami visual
Diskusi ini dinilai sebagai arus riset penting yang dapat mendefinisikan ulang struktur input dan paradigma pelatihan LLM di masa depan

Konsep inti makalah DeepSeek-OCR

DeepSeek-OCR mengusulkan arsitektur model bahasa besar yang memproses langsung data piksel dari gambar dokumen, sebagai pengganti input berbasis teks yang ada saat ini
- Sistem OCR tradisional mengekstrak teks dari gambar lalu meneruskannya ke model bahasa, tetapi dalam proses ini bentuk karakter, tata letak, dan konteks visual dapat hilang
- Untuk mengurangi kehilangan tersebut, DeepSeek-OCR menggunakan informasi visual tingkat piksel apa adanya sebagai input model
Model dirancang agar dapat memahami beragam elemen visual dalam gambar seperti huruf, tabel, rumus, dan diagram secara bersamaan
- Dengan demikian, model tidak hanya melakukan pengenalan teks sederhana, tetapi juga pemahaman struktur dokumen dan penalaran makna

Pertanyaan yang diajukan Karpathy

Dalam thread Twitter-nya, Karpathy menyinggung makalah ini sambil melempar pertanyaan, “Apakah piksel merupakan input yang lebih baik daripada teks?”
- Ia menunjukkan bahwa cara pelatihan LLM saat ini yang hanya mengandalkan token teks dapat menyebabkan kehilangan informasi
- Secara khusus, ia menyebut bahwa jika model bahasa dapat mempelajari konteks visual secara langsung, maka struktur pelatihan terpadu yang melewati tahap OCR bisa dimungkinkan
Karpathy menilai pendekatan ini berpotensi meningkatkan kemampuan generalisasi model dan pemahaman multimodal
- Namun, ia juga menyoroti keterbatasan praktis seperti biaya komputasi yang tinggi untuk input piksel dan sulitnya membangun dataset berskala besar

Makna teknis dan potensi dampaknya

Input berbasis piksel memiliki keunggulan berupa kepadatan informasi yang lebih tinggi dan pelestarian konteks visual dibanding input berbasis teks
- Sebagai contoh, pada dokumen yang berisi tabel atau rumus, informasi struktural dapat hilang dalam proses konversi ke teks, sementara input piksel mempertahankannya apa adanya
Di sisi lain, input piksel juga membawa tantangan seperti peningkatan jumlah parameter model, naiknya biaya pelatihan, dan melambatnya kecepatan inferensi
- Karena itu, dalam penerapan nyata, pendekatan hibrida antara teks dan piksel kerap disebut sebagai alternatif yang lebih realistis
Diskusi ini dipandang sebagai eksplorasi eksperimental tentang apakah LLM dapat menginternalisasi kemampuan persepsi visual dan spasial, melampaui sekadar pemahaman bahasa

Implikasi industri

Dalam industri yang menangani struktur dokumen kompleks seperti pemrosesan dokumen, keuangan, hukum, dan medis, pendekatan DeepSeek-OCR memiliki arti penting
- Misalnya, dimungkinkan membangun sistem AI yang memahami langsung tata letak visual kontrak atau tagihan hasil pemindaian
Diskusi Karpathy memicu peninjauan ulang mendasar terhadap format input AI dan berpotensi memengaruhi arah desain LLM ke depan
LLM berbasis input piksel dapat mengarah pada penggantian atau integrasi teknologi OCR, dan diperhatikan sebagai titik balik baru dalam riset AI multimodal

1 komentar

GN⁺ 2025-10-24

Komentar Hacker News

Ini bukan piksel melainkan percel. Piksel adalah titik pada gambar, sedangkan percel adalah unit informasi perseptual yang dapat mencakup suara, sensasi, bahkan token pemikiran
Dalam kasus manusia, kita mengenali percel yang menggabungkan banyak indra, dan jaringan saraf, terutama LLM, tidak memproses percel secara terpisah melainkan menanganinya bersama dalam konteks percel-percel di sekitarnya
- Saya pernah menulis proposal pendanaan riset berdasarkan ide ini. Para peneliti ML mengkritiknya habis-habisan karena dianggap kurang praktis, tetapi para neurosaintis sangat mendukungnya
  Sangat disayangkan bahwa riset lintas disiplin punya potensi besar, tetapi sulit mendapat pendanaan hanya karena tidak cocok dengan kerangka yang sudah ada
- Konsep ini begitu menarik sehingga saya mencarinya, tetapi tidak menemukan referensi apa pun. Saya penasaran apakah ini neologisme buatan sendiri, atau ada makalah maupun riset yang menjadi rujukan
- Pada akhirnya saya merasa ini mirip dengan konsep latent space. Keduanya serupa dalam hal adanya struktur tempat vektor-vektor terkait dikelompokkan
- Jika percel ingin direpresentasikan sebagai vektor, sepertinya perlu dipetakan ke latent space dengan membagi dimensi berdasarkan mode perseptual seperti penglihatan, pendengaran, dan sebagainya
- Ini bercanda, tetapi saya jadi ingin menyebutnya toxel alih-alih percel
“Kill the tokenizer” adalah usulan yang ekstrem tetapi mendasar
Tokenisasi hanyalah hack sementara untuk mengkuantifikasi bahasa, dan ia mendistorsi hakikat bahasa
Gagasan bahwa piksel bisa menjadi unit representasi yang lebih kuat memang terasa asing, tetapi seseorang tetap perlu mencoba pendekatan baru
- Saat membaca, saya memproses teks sekaligus secara visual dan auditorial
  Karena itu, input berbasis visual terasa seperti hasil evolusi yang alami
  Jika alih-alih merender teks lalu membacanya dengan OCR kita mengenkode sampel suara lewat TTS, itu mungkin lebih efisien daripada piksel. Tentu saja ini bergantung pada resolusi atau sample rate
- Byte Latent Transformer dari Meta mencoba menggantikan tokenizer, tetapi pada akhirnya tidak banyak mendapat perhatian
- Kalau begitu, muncul pertanyaan saat generasi keluaran nanti akan didekodekan menjadi apa. Token punya makna yang melampaui sekadar representasi visual, jadi hanya menghasilkan gambar teks saja tidak cukup
- Teks memiliki kepadatan informasi yang sangat tinggi. Karena itu, ia tetap efisien sebagai input
- Saya juga kurang paham. Benarkah gambar dari teks itu sendiri bisa lebih baik daripada teksnya? Kedengarannya malah seperti ajakan untuk memotret seluruh layar dan sekaligus melatih model kamera
Sebagai riset terkait yang menarik, ada makalah oleh Lex Flagel dkk. yang mengubah data urutan DNA menjadi gambar lalu melatih CNN dengannya
Hasilnya, CNN mampu mereproduksi metrik genetika yang sebelumnya diperoleh dari analisis berbasis teks
Tautan makalah
Inti diskusi belakangan ini adalah kesadaran bahwa saat kita merepresentasikan bahasa ke mesin, kita memakai abstraksi yang lossy
Tokenisasi hanyalah salah satunya, dan piksel maupun sinyal suara juga merupakan pendekatan aproksimasi lain
Nilai sebenarnya dari eksperimen seperti ini adalah untuk memverifikasi asumsi desain arsitektur saat ini
Pendekatan yang mempelajari penyelarasan multimodal dapat membantu menemukan struktur laten atau metode pelatihan yang lebih baik, dan itu bisa berujung pada perbaikan encoder teks yang ada
Khususnya untuk bahasa yang batas antarkatanya ambigu, metode encoding alternatif bisa sangat membantu
Gagasan dalam makalah tentang “kompresi informasi → jendela konteks yang pendek → efisiensi meningkat” memang menarik, tetapi
saya jadi bertanya-tanya apakah ketika ukuran huruf, font, atau jarak berubah, rasio kompresinya justru bisa memburuk
Saya setuju dengan pendapat Karpathy.
Salah satu kelebihan token teks adalah model dapat mempelajari pemahaman inheren tentang metode input seperti keyboard QWERTY
Misalnya, “Hello” dan “Hwllo” dikenali cukup dekat secara semantik karena tombolnya berdekatan di keyboard
- Jika AI bisa membaca lewat input berbasis piksel, variasi seperti “HWLLO” atau “H3LL0” juga dapat dikenali mirip lewat kemiripan visual
  Mungkin butuh lebih banyak pelatihan, tetapi pada akhirnya bisa menghasilkan kemampuan pengenalan yang tergeneralisasi
- Saya setuju dengan gagasan typo learning. Saya juga membahasnya dalam video saya
  Karena typo juga bisa dibuat dan dipakai untuk pelatihan pada gambar, menurut saya itu bukan masalah besar
Saat memikirkan diri saya sendiri, yang terdengar di kepala saya adalah aliran kata-kata
Bukan halaman atau gambar, melainkan rangkaian kata-kata sebagai suara
Tokenisasi saat ini mungkin tidak efisien. Bahasa sendiri sudah memiliki struktur kompresi tingkat tinggi,
tetapi mungkin ada cara representasi yang lebih baik di latent space
- Industri juga sangat memahami keterbatasan tokenizer. Namun, benar-benar mewujudkan metode yang scalable untuk menggantikannya sangat sulit
- Model gambar memakai token dengan unit yang lebih besar. Dalam teks juga dimungkinkan membuat kamus token besar berbasis n-gram, tetapi
  arsitektur LLM saat ini tidak efisien untuk menangani distribusi output yang terlalu besar
Saya merasa pendekatan ini masih jauh dari praktis.
Setiap kali ChatGPT menawarkan “mau divisualisasikan dalam bentuk gambar?”, hasilnya selalu penuh halusinasi
- Namun, generasi gambar dan input gambar adalah persoalan yang sepenuhnya berbeda
  Yang dibahas di sini adalah mengubah teks menjadi gambar lalu memasukkannya ke LLM, bukan menghasilkan gambar
Untuk diskusi terkait terbaru, ada
kasus menjalankan DeepSeek-OCR di Nvidia Spark dan
proyek DeepSeek OCR.
Keduanya ramai dibahas pada Oktober 2025

Apakah input berbasis piksel lebih baik daripada teks? Pertanyaan Karpathy tentang makalah DeepSeek-OCR

Konsep inti makalah DeepSeek-OCR

Pertanyaan yang diajukan Karpathy

Makna teknis dan potensi dampaknya

Implikasi industri

Bacaan terkait

1 komentar

Komentar Hacker News