Belajar Membaca dan Menulis, Kembali ke Catatan Tulisan Tangan
(research.google)Kembali ke Catatan Tulisan Tangan melalui Membaca dan Menulis Tulisan Tangan
-
Pendahuluan
- Blagoj Mitrevski dan Andrii Maksai, software engineer di Google Research, memperkenalkan model yang mengubah foto tulisan tangan ke format digital.
- Model ini dapat mereproduksi stroke pena tanpa peralatan khusus.
- Catatan digital memiliki keunggulan dalam daya tahan, kemudahan diedit, dan kemudahan pengindeksan, tetapi tetap ada perbedaan dibanding tulisan tangan tradisional.
- Untuk memperkecil kesenjangan ini, dibutuhkan teknik
de-renderingyang mengubah tulisan tangan menjadi tinta digital.
-
Keunggulan tinta digital
- Pengguna yang tetap menyukai tulisan tangan tradisional juga bisa mengakses catatan mereka dalam format digital.
- Melampaui OCR, teknologi ini memungkinkan pembuatan dokumen yang bebas diedit sambil mempertahankan gaya tulisan tangan.
- Integrasi dan pengorganisasian dengan konten digital menjadi lebih mudah.
-
InkSight: konversi tulisan tangan dari offline ke online
- Mengusulkan metode untuk mengekstrak stroke dari foto tulisan tangan tanpa peralatan khusus.
- Tanpa bergantung pada struktur geometris tradisional, model ini belajar untuk 'membaca' dan 'menulis' sehingga menunjukkan performa yang kuat dalam beragam situasi.
-
Gambaran umum
- Tujuannya adalah menangkap detail trajektori pada tingkat stroke dalam tulisan tangan.
- Stroke hasilnya dapat disimpan ke aplikasi catatan pilihan pengguna.
-
Tantangan
- Data supervisi yang terbatas: memperoleh data berpasangan antara gambar dan tinta digital mahal serta memakan waktu.
- Skalabilitas untuk gambar berukuran besar: perlu memproses gambar input dengan beragam resolusi dan jumlah konten secara efektif.
-
Metodologi
- Dengan mempelajari membaca dan menulis, tugas de-rendering dapat digeneralisasi untuk input gambar dengan berbagai gaya.
- Tanpa bergantung pada struktur geometris, metode ini mengekstrak elemen teks secara akurat dan menghasilkan representasi vektor yang mirip dengan cara manusia menulis.
-
Alur kerja sistem
- Menggunakan OCR untuk mengekstrak bounding box pada tingkat kata, lalu melakukan de-rendering pada tiap kata secara terpisah.
- Melalui augmentasi data, perbedaan domain antara gambar sintetis dan foto nyata dikurangi.
-
Model vision-language
- Membuat campuran pelatihan yang mencakup lima jenis tugas.
- Tiap tugas dibedakan saat pelatihan dan inferensi menggunakan teks input khusus tugas.
-
Hasil
- Untuk mengevaluasi performa model, dikumpulkan dataset evaluasi dan dilatih tiga varian model.
- Evaluasi otomatis dan evaluasi manusia menunjukkan bahwa output model mirip dengan gambar input dan tinta digital buatan manusia.
-
Kesimpulan
- Menyajikan pendekatan pertama untuk mengubah foto tulisan tangan menjadi tinta digital.
- Mengusulkan metode yang dapat dibangun dari building block standar tanpa pemodelan yang rumit.
Ringkasan GN⁺
- Teknologi yang mengubah tulisan tangan ke format digital menggabungkan kelebihan tulisan tangan tradisional dan catatan digital untuk memberi pengalaman yang lebih baik bagi pengguna.
- Teknologi ini dapat menunjukkan performa kuat dalam berbagai situasi tanpa peralatan khusus, sehingga berpotensi diadopsi secara luas.
- Produk industri dengan fungsi serupa antara lain smart pen dari Wacom atau smartpen dari Livescribe.
1 komentar
Pendapat Hacker News
Aplikasi yang bisa mengubah tulisan tangan yang kurang bagus menjadi rapi lewat sebuah sistem terasa menarik
Ada harapan tentang belajar kembali menulis tangan, tetapi riset Google justru membantu meningkatkan catatan digital
Tertarik pada teknologi terbaru untuk mengenali tulisan tangan dari foto
Sepuluh tahun lalu pernah mencoba OCR bahasa Inggris dengan tesseract, tetapi performanya kurang baik untuk bahasa non-Inggris
Penasaran apakah ini juga bisa berjalan di perangkat berdaya rendah
Ide meniru tulisan tangan manusia terasa menarik
Pertanyaan apakah teknologi ini bisa dipakai untuk membuat tanda tangan atau tulisan tangan palsu
Ini adalah proyek riset yang bisa berdampak besar pada bidang pendidikan, catatan tulisan digital, atau pelestarian dokumen lama
Sedang mencari solusi OCR yang bagus untuk tulisan tangan
Memperkenalkan model yang mengubah foto tulisan tangan ke format digital