HyperCLOVA X Vision: Membuka Mata

(clova.ai)

5 poin oleh GN⁺ 2024-08-21 | Belum ada komentar. | Bagikan ke WhatsApp

HCX Vision berkembang dari model bahasa besar (LLM) yang sudah ada dengan menambahkan kemampuan memahami gambar, sehingga menjadi model bahasa visual besar (LVLM)
Model ini dilatih tambahan dengan beragam data visual dan bahasa sehingga memiliki kemampuan memahami gambar dan teks secara bersamaan
Dengan mengumpulkan data yang disesuaikan untuk berbagai skenario, model ini dapat menjalankan tugas pemahaman visual dan bahasa dalam beragam situasi seperti pengenalan dokumen dan pemahaman teks di dalam gambar
Berdasarkan pengalaman teknologi OCR milik Naver, kemampuan pemrosesan dokumen dan pengenalan karakter diperkuat untuk menyediakan layanan yang akurat dan andal
Berbasis HCX, model ini memiliki pengetahuan terkait bahasa Korea dan budaya Korea sehingga menunjukkan performa unggul dalam memahami dokumen berbahasa Korea dan teks di dalam gambar

Metrik kuantitatif HyperCLOVA X Vision

Pada Public Benchmarks, model ini mencapai performa rata-rata 71,59%, setara dengan 99,94% dari tingkat GPT-4V
Pada soal ujian kualifikasi sekolah dasar, menengah pertama, dan menengah atas di Korea, model ini menunjukkan tingkat jawaban benar 83,8%, lebih tinggi daripada 77,8% milik GPT-4o

Detailed Image Captioning: mengenali dan mendeskripsikan hingga bagian-bagian detail dari gambar secara akurat
Reasoning: menyimpulkan situasi dan memprediksi langkah berikutnya berdasarkan pemahaman mendetail terhadap gambar
Entity Recognition: memahami entitas bermakna seperti nama orang, tempat, dan produk hanya dari gambar
Chart Understanding: memahami data numerik abstrak dalam bentuk grafik
Table Understanding: mengenali data tabel dari tangkapan gambar dan memahami hubungan posisionalnya
Document Understanding: memahami dokumen dalam berbagai bahasa seperti hanja dan bahasa Jepang
Culture and Humor (Meme Understanding): memahami meme yang terdiri dari pasangan gambar dan teks
Equation Understanding: mengenali persamaan yang dirender dan mengubahnya ke sintaks TeX
Code Generation: menghasilkan kode untuk membuat bentuk tertentu, chart, grafik, dan lainnya
Math Problem Solving: memahami soal matematika yang mencakup bentuk geometri dan memberikan penyelesaian
Creative Writing (with Image Grounding): mampu menulis kreatif berdasarkan elemen-elemen yang terdapat dalam gambar

Dengan memanfaatkan panjang konteks hingga jutaan unit, model ini diperkirakan akan memungkinkan pemahaman film berdurasi panjang dan pemrosesan video real-time
Jika dibarengi teknologi pemrosesan real-time, AI akan dapat merespons situasi secara fleksibel sebagai entitas yang lebih mandiri
Untuk LVLM juga, sovereignty berdasarkan wilayah atau latar budaya akan menjadi semakin penting
Naver berada pada posisi yang menguntungkan sebagai platform terbesar di Korea Selatan untuk mengamankan data yang dibutuhkan secara efektif

Teknologi LVLM milik Naver terus berkembang menuju bentuk komunikasi yang lebih dekat
Upaya terus dilakukan agar HCX Vision dapat menjadi AI yang bermanfaat bagi orang-orang dari berbagai latar belakang
Ada harapan agar HCX Vision ke depannya dapat menyatu dalam kehidupan sehari-hari manusia

HCX Vision diharapkan memungkinkan komunikasi yang lebih alami dengan manusia melalui kemampuan memahami gambar. Khususnya, model ini tampaknya akan sangat berguna di bidang yang menjadikan informasi visual sebagai unsur penting
Seperti terlihat dari performa tingginya dalam menyelesaikan soal ujian kualifikasi, HCX Vision dapat dimanfaatkan sebagai alat bantu belajar di bidang pendidikan. Namun, ada juga kekhawatiran terhadap penurunan kemampuan belajar mandiri siswa
Pengamanan data dan sovereignty akan menjadi faktor penting dalam pengembangan LVLM. Dengan memanfaatkan data berskala besar dan platform yang dimiliki Naver, diharapkan perusahaan ini dapat mengembangkan LVLM yang kompetitif
Jika berkembang dari pemahaman gambar tunggal saat ini menjadi pemahaman film dan video real-time, model ini akan dapat diterapkan di berbagai bidang seperti hiburan, keamanan, dan kendaraan otonom. Kesiapan terhadap tantangan teknis dan etis juga akan diperlukan
Dibandingkan dengan GPT-4 milik OpenAI, model ini menunjukkan performa yang serupa, tetapi dalam hal pemahaman bahasa Korea dan budaya Korea, HCX Vision tampaknya memiliki keunggulan. Untuk mengamankan daya saing global, peningkatan kemampuan pemrosesan multibahasa akan diperlukan