3 poin oleh GN⁺ 2024-11-17 | 1 komentar | Bagikan ke WhatsApp
  • Pengenalan proyek

    • Proyek ini adalah alat yang menggunakan llama-ocr dan Together AIOCR untuk mengubah gambar menjadi Markdown terstruktur.
    • Pengguna dapat mengunggah gambar untuk mengekstrak teks dan mengubahnya ke format Markdown.
  • Fitur utama

    • Menyediakan fitur unggah gambar
    • Mengekstrak teks dari gambar dan mengubahnya menjadi Markdown
    • Menyediakan gambar contoh agar pengguna dapat menguji fungsinya
  • Contoh kode

    • Menyediakan contoh kode yang menggunakan library llama-ocr untuk mengekstrak teks dari gambar
    • Menghasilkan Markdown dengan meneruskan path file gambar dan API key ke fungsi ocr
  • Pentingnya proyek ini

    • Proyek ini meningkatkan efisiensi pekerjaan dokumentasi dengan menyediakan kemampuan untuk mengekstrak teks dari gambar dengan mudah dan mengubahnya menjadi Markdown.
    • Dibandingkan dengan alat OCR yang sudah ada, proyek ini menawarkan kemudahan penggunaan dan fitur konversi ke Markdown.

1 komentar

 
GN⁺ 2024-11-17
Pendapat Hacker News
  • Penulis llama-ocr mengembangkan alat dengan API sederhana untuk mengubah gambar menjadi Markdown terstruktur. Ada rencana untuk menambahkan parsing PDF dan keluaran JSON ke depannya

    • Pada contoh webtoon, ditemukan masalah bahwa dialog dalam huruf kapital ditampilkan berbeda di setiap panel
    • Alat ini digunakan untuk mendigitalkan slide lama, dan warna kuning pada slide ternyata sebenarnya masalah white balance
    • Sebagai contoh yang menunjukkan bias model, slide tersebut salah dikenali sebagai barang antik sehingga menghasilkan judul yang keliru
    • Batas ukuran file atau resolusi API tidak didokumentasikan
  • Menggunakan llama3.2-vision untuk memproses formulir penawaran lelang amal, dan hasilnya cukup akurat meskipun tulisan tangannya kurang bagus

    • Keluaran yang tidak konsisten dalam format CSV terasa merepotkan
    • Skala masalahnya sekitar 100 halaman sehingga masih bisa dirapikan secara manual
  • Model OCR umum tidak cocok untuk mendigitalkan teks pada foto keluarga, dan Gemini Flash adalah yang terbaik

    • Namun, kesalahannya masih banyak sehingga pekerjaan manual lebih cepat
  • Diragukan apakah ini cocok sebagai postingan "Show HN", dan kaitannya dengan nama Llama juga kurang jelas

  • Kalimat yang dihasilkan dengan algoritma genetik digambar sebagai lingkaran sungguhan, tetapi tidak dikenali sebagai teks

  • Mengunggah PDF multi-halaman, tetapi diberi tahu bahwa itu tidak didukung

  • Mengunggah tangkapan layar HN, tetapi kode Markdown tidak dihasilkan

  • OCR bahasa Jepang bekerja dengan baik melalui ChatGPT API

  • Pada struk Walmart, angka 9 salah dikenali sebagai 0