2 poin oleh GN⁺ 2024-10-29 | 1 komentar | Bagikan ke WhatsApp

Kembali ke Catatan Tulisan Tangan melalui Membaca dan Menulis Tulisan Tangan

  • Pendahuluan

    • Blagoj Mitrevski dan Andrii Maksai, software engineer di Google Research, memperkenalkan model yang mengubah foto tulisan tangan ke format digital.
    • Model ini dapat mereproduksi stroke pena tanpa peralatan khusus.
    • Catatan digital memiliki keunggulan dalam daya tahan, kemudahan diedit, dan kemudahan pengindeksan, tetapi tetap ada perbedaan dibanding tulisan tangan tradisional.
    • Untuk memperkecil kesenjangan ini, dibutuhkan teknik de-rendering yang mengubah tulisan tangan menjadi tinta digital.
  • Keunggulan tinta digital

    • Pengguna yang tetap menyukai tulisan tangan tradisional juga bisa mengakses catatan mereka dalam format digital.
    • Melampaui OCR, teknologi ini memungkinkan pembuatan dokumen yang bebas diedit sambil mempertahankan gaya tulisan tangan.
    • Integrasi dan pengorganisasian dengan konten digital menjadi lebih mudah.
  • InkSight: konversi tulisan tangan dari offline ke online

    • Mengusulkan metode untuk mengekstrak stroke dari foto tulisan tangan tanpa peralatan khusus.
    • Tanpa bergantung pada struktur geometris tradisional, model ini belajar untuk 'membaca' dan 'menulis' sehingga menunjukkan performa yang kuat dalam beragam situasi.
  • Gambaran umum

    • Tujuannya adalah menangkap detail trajektori pada tingkat stroke dalam tulisan tangan.
    • Stroke hasilnya dapat disimpan ke aplikasi catatan pilihan pengguna.
  • Tantangan

    • Data supervisi yang terbatas: memperoleh data berpasangan antara gambar dan tinta digital mahal serta memakan waktu.
    • Skalabilitas untuk gambar berukuran besar: perlu memproses gambar input dengan beragam resolusi dan jumlah konten secara efektif.
  • Metodologi

    • Dengan mempelajari membaca dan menulis, tugas de-rendering dapat digeneralisasi untuk input gambar dengan berbagai gaya.
    • Tanpa bergantung pada struktur geometris, metode ini mengekstrak elemen teks secara akurat dan menghasilkan representasi vektor yang mirip dengan cara manusia menulis.
  • Alur kerja sistem

    • Menggunakan OCR untuk mengekstrak bounding box pada tingkat kata, lalu melakukan de-rendering pada tiap kata secara terpisah.
    • Melalui augmentasi data, perbedaan domain antara gambar sintetis dan foto nyata dikurangi.
  • Model vision-language

    • Membuat campuran pelatihan yang mencakup lima jenis tugas.
    • Tiap tugas dibedakan saat pelatihan dan inferensi menggunakan teks input khusus tugas.
  • Hasil

    • Untuk mengevaluasi performa model, dikumpulkan dataset evaluasi dan dilatih tiga varian model.
    • Evaluasi otomatis dan evaluasi manusia menunjukkan bahwa output model mirip dengan gambar input dan tinta digital buatan manusia.
  • Kesimpulan

    • Menyajikan pendekatan pertama untuk mengubah foto tulisan tangan menjadi tinta digital.
    • Mengusulkan metode yang dapat dibangun dari building block standar tanpa pemodelan yang rumit.

Ringkasan GN⁺

  • Teknologi yang mengubah tulisan tangan ke format digital menggabungkan kelebihan tulisan tangan tradisional dan catatan digital untuk memberi pengalaman yang lebih baik bagi pengguna.
  • Teknologi ini dapat menunjukkan performa kuat dalam berbagai situasi tanpa peralatan khusus, sehingga berpotensi diadopsi secara luas.
  • Produk industri dengan fungsi serupa antara lain smart pen dari Wacom atau smartpen dari Livescribe.

1 komentar

 
GN⁺ 2024-10-29
Pendapat Hacker News
  • Aplikasi yang bisa mengubah tulisan tangan yang kurang bagus menjadi rapi lewat sebuah sistem terasa menarik

    • Tulisan yang dibuat cepat saat kelas bisa diubah menjadi lebih rapi
  • Ada harapan tentang belajar kembali menulis tangan, tetapi riset Google justru membantu meningkatkan catatan digital

    • Ingin memperbaiki tulisan tangan tanpa bergantung pada teknologi
  • Tertarik pada teknologi terbaru untuk mengenali tulisan tangan dari foto

    • Lebih tertarik pada konversi catatan tulisan tangan menjadi Markdown
  • Sepuluh tahun lalu pernah mencoba OCR bahasa Inggris dengan tesseract, tetapi performanya kurang baik untuk bahasa non-Inggris

    • Senang melihat riset OCR berbasis transformer
  • Penasaran apakah ini juga bisa berjalan di perangkat berdaya rendah

  • Ide meniru tulisan tangan manusia terasa menarik

    • Ini pernah menjadi tujuan untuk diimplementasikan dalam model machine learning
  • Pertanyaan apakah teknologi ini bisa dipakai untuk membuat tanda tangan atau tulisan tangan palsu

  • Ini adalah proyek riset yang bisa berdampak besar pada bidang pendidikan, catatan tulisan digital, atau pelestarian dokumen lama

  • Sedang mencari solusi OCR yang bagus untuk tulisan tangan

    • Model sebelumnya hanya bekerja pada PDF, dan menginginkan solusi kustom offline
  • Memperkenalkan model yang mengubah foto tulisan tangan ke format digital

    • Ada juga pandangan skeptis bahwa ini mungkin cara Google mengumpulkan data