Menggantikan OCR dengan Vision Language Model

(github.com/vlm-run)

14 poin oleh GN⁺ 2025-02-28 | 1 komentar | Bagikan ke WhatsApp

Buku resep ini adalah proyek open source yang mengeksplorasi algoritme pemrosesan video dan gambar melalui berbagai studi kasus serta praktik langsung
Mencakup beragam bidang aplikasi seperti inferensi video, katalog gambar, dan pencarian hibrida gambar fesyen
Dibandingkan proyek lain, keunggulannya adalah memungkinkan pembelajaran algoritme melalui berbagai kasus nyata
File dan notebook utama
- 00_quickstart.ipynb: panduan untuk memulai proyek dengan cepat
- 01_schema_showcase.ipynb: mencakup studi kasus yang menampilkan berbagai skema data
- 02_case_study_drivers_license.ipynb: mengenali surat izin mengemudi
- 03_case_study_tv_news.ipynb: memahami tampilan layar berita TV
- 04_visual_grounding.ipynb: mengeksplorasi algoritme visual grounding; mengekstrak JSON dari dalam kotak gambar
- 05_case_study_image_catalogue.ipynb: menganalisis katalog produk fesyen untuk mengenali deskripsi produk, kategori, gender target, dan musim
- 06_fashion_images_hybrid_search.ipynb: studi kasus pencarian hibrida gambar fesyen
- advanced_finetuning_video_inference.ipynb: teknik fine-tuning lanjutan untuk inferensi video

1 komentar

GN⁺ 2025-02-28

Komentar Hacker News

Ide yang menarik, tetapi masih kurang andal untuk digunakan di lingkungan produksi. Model OCR tradisional akan menghasilkan keluaran tak bermakna dengan tingkat kepercayaan rendah ketika tidak bisa membaca teks. Sebaliknya, VLM menghasilkan keluaran karangan dengan penuh percaya diri saat tidak bisa membacanya, dan tidak ada cara untuk melaporkan tingkat kepercayaannya. Dalam upaya pengenalan tulisan tangan, VLM mengarang nama dan tanggal palsu yang sesuai dengan nuansa dokumen. Tidak ada cara untuk mendasarkan model pada teks sumber
Baru-baru ini telah dirilis benchmark open source untuk mengevaluasi VLM dan OCR, dan secara umum VLM menunjukkan performa yang lebih baik daripada model OCR tradisional
Kelebihan VLM:
- Pengenalan tulisan tangan. Pemahaman konteks membantu. Artinya, model menafsirkan seluruh kata/kalimat, bukan huruf satu per satu
- Grafik/infografik. VLM dapat menafsirkan chart atau diagram alur dalam bentuk teks. Termasuk garis berkode warna
Kelebihan OCR tradisional:
- Dokumen yang terstandardisasi (misalnya formulir pajak AS)
- Teks padat. Bayangkan buku pelajaran dan makalah riset multi-kolom. Ini adalah use case termudah bagi OCR, tetapi VLM kesulitan saat jumlah token output meningkat
- Bounding box. Belum ada model yang memberikan bounding box yang sangat akurat. Gemini dan Qwen telah dilatih untuk ini, tetapi belum berkinerja sebaik model tradisional
Masih banyak ruang untuk perbaikan, tetapi khususnya model seperti Gemini sangat kompetitif dari sisi akurasi/biaya
Aku penasaran kenapa semua layanan OCR hanya menampilkan screenshot sempurna dari dokumen digital. Apakah benar ada begitu banyak orang yang ingin melakukan OCR pada data digital? Bukankah cukup menyalin HTML saja? Jika bukan dokumen digital, di mana screenshot dengan bekas lipatan, baris yang melenceng, gradasi pencahayaan, jari, dan sebagainya?
Saya telah bereksperimen dengan vlm-run dan definisi formulir kustom, dan hasilnya bekerja sangat baik dengan Gemini 2.0 Flash. Biayanya juga saya pahami rendah. Hasil terbaik bisa didapat pada formulir sederhana dengan kompleksitas menengah. Formulir yang secara manusiawi masih bisa diproses, dengan pelatihan kurang dari 10 menit
Alat OCR menjalankan tugas persis seperti yang tertulis di labelnya, misalnya mengenali karakter di atas kertas. Keuntungan menggunakan vision language model adalah bisa menambahkan logika seperti, "Ini memang string, tetapi apakah ini terlihat seperti timestamp?"
Yang saya inginkan: memindai/memotret dokumen (termasuk seluruh buku), memberikannya ke language model, lalu mendapatkan dokumen Latex yang persis sama dengan dokumen asli. Cacat mesin fotokopi/kamera dan sudut pengambilan dikecualikan. Sepertinya model reinforcement learning untuk ini mungkin saja dibuat. Model itu seharusnya bisa belajar menghasilkan Latex yang mereproduksi gambar hingga tingkat piksel
Keduanya harus dipakai. Setelah menggunakan OCR dan LLM lalu mengorelasikan kedua hasilnya, kualitas meningkat secara signifikan. Anda bisa mendapatkan pemahaman dokumen dan konteks, sekaligus bounding box dan sebagainya. Saya sedang membuat aplikasi "tidak perlu lagi mengisi formulir", dan ingin berbicara dengan siapa pun yang tertarik
Mungkin ini karena prompt saya, tetapi setelah image embedding tampaknya ada terlalu banyak interpretasi. Dalam contoh saya, model mulai merangkum sebagian teks, dan sayangnya hasilnya salah. Pada invoice dengan teks ketikan, dokumen aslinya mengatakan bahwa jika diajukan setelah Jumat pukul 14.00 maka tidak akan diposting sampai Senin berikutnya, tetapi model merangkumnya menjadi tidak akan diposting selama 2-3 hari kerja. Itu cukup berbeda. Saya penasaran apakah lapisan seperti ini bisa dihilangkan. Pengenalan deteksi teks terstruktur one-shot jauh lebih baik daripada OCR dasar
Senang melihat lebih banyak pekerjaan dilakukan di bidang ini, tetapi saya tidak mengerti kenapa ini harus terikat ke API proprietary milik seseorang. Mengganti penyedia model dan menambahkan logging dasar seharusnya tidak sampai menyakitkan seperti onboarding vendor lain. Terutama saat menangani hal sensitif seperti prompt LLM
Apa alat OCR CLI yang paling cepat dan akurat? Use case saya sederhana - saya ingin menangkap sebagian layar (Flameshot bagus untuk ini) lalu melakukan OCR. Saya membutuhkannya untuk menulis catatan saat pair programming di Zoom. Saat ini saya memakai tesseract; cepat dan bekerja dengan baik, tetapi masih membuat kesalahan. Akan bagus jika bisa membedakan format tabel dan mengubahnya menjadi tabel ASCII atau Markdown. Saya sudah mencoba docling, tetapi terasa agak berlebihan. Sepertinya lambat - saya perlu mengambil teks dari screenshot dengan sangat cepat. Saya baru mencoba pengaturan default, jadi mungkin bisa membaik jika disetel. Adakah yang bisa berbagi pendapat soal ini? Terima kasih!

Menggantikan OCR dengan Vision Language Model

Bacaan terkait

1 komentar

Komentar Hacker News