5 poin oleh GN⁺ 2024-08-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • HCX Vision berkembang dari model bahasa besar (LLM) yang sudah ada dengan menambahkan kemampuan memahami gambar, sehingga menjadi model bahasa visual besar (LVLM)
  • Model ini dilatih tambahan dengan beragam data visual dan bahasa sehingga memiliki kemampuan memahami gambar dan teks secara bersamaan
  • Dengan mengumpulkan data yang disesuaikan untuk berbagai skenario, model ini dapat menjalankan tugas pemahaman visual dan bahasa dalam beragam situasi seperti pengenalan dokumen dan pemahaman teks di dalam gambar
  • Berdasarkan pengalaman teknologi OCR milik Naver, kemampuan pemrosesan dokumen dan pengenalan karakter diperkuat untuk menyediakan layanan yang akurat dan andal
  • Berbasis HCX, model ini memiliki pengetahuan terkait bahasa Korea dan budaya Korea sehingga menunjukkan performa unggul dalam memahami dokumen berbahasa Korea dan teks di dalam gambar

Metrik kuantitatif HyperCLOVA X Vision

  • Pada Public Benchmarks, model ini mencapai performa rata-rata 71,59%, setara dengan 99,94% dari tingkat GPT-4V
  • Pada soal ujian kualifikasi sekolah dasar, menengah pertama, dan menengah atas di Korea, model ini menunjukkan tingkat jawaban benar 83,8%, lebih tinggi daripada 77,8% milik GPT-4o

Fitur-fitur HyperCLOVA X Vision berbasis contoh

  • Detailed Image Captioning: mengenali dan mendeskripsikan hingga bagian-bagian detail dari gambar secara akurat
  • Reasoning: menyimpulkan situasi dan memprediksi langkah berikutnya berdasarkan pemahaman mendetail terhadap gambar
  • Entity Recognition: memahami entitas bermakna seperti nama orang, tempat, dan produk hanya dari gambar
  • Chart Understanding: memahami data numerik abstrak dalam bentuk grafik
  • Table Understanding: mengenali data tabel dari tangkapan gambar dan memahami hubungan posisionalnya
  • Document Understanding: memahami dokumen dalam berbagai bahasa seperti hanja dan bahasa Jepang
  • Culture and Humor (Meme Understanding): memahami meme yang terdiri dari pasangan gambar dan teks
  • Equation Understanding: mengenali persamaan yang dirender dan mengubahnya ke sintaks TeX
  • Code Generation: menghasilkan kode untuk membuat bentuk tertentu, chart, grafik, dan lainnya
  • Math Problem Solving: memahami soal matematika yang mencakup bentuk geometri dan memberikan penyelesaian
  • Creative Writing (with Image Grounding): mampu menulis kreatif berdasarkan elemen-elemen yang terdapat dalam gambar

Prospek masa depan HyperCLOVA X Vision dan Sovereign AI

  • Dengan memanfaatkan panjang konteks hingga jutaan unit, model ini diperkirakan akan memungkinkan pemahaman film berdurasi panjang dan pemrosesan video real-time
  • Jika dibarengi teknologi pemrosesan real-time, AI akan dapat merespons situasi secara fleksibel sebagai entitas yang lebih mandiri
  • Untuk LVLM juga, sovereignty berdasarkan wilayah atau latar budaya akan menjadi semakin penting
  • Naver berada pada posisi yang menguntungkan sebagai platform terbesar di Korea Selatan untuk mengamankan data yang dibutuhkan secara efektif

Penutup

  • Teknologi LVLM milik Naver terus berkembang menuju bentuk komunikasi yang lebih dekat
  • Upaya terus dilakukan agar HCX Vision dapat menjadi AI yang bermanfaat bagi orang-orang dari berbagai latar belakang
  • Ada harapan agar HCX Vision ke depannya dapat menyatu dalam kehidupan sehari-hari manusia

Opini GN⁺

  • HCX Vision diharapkan memungkinkan komunikasi yang lebih alami dengan manusia melalui kemampuan memahami gambar. Khususnya, model ini tampaknya akan sangat berguna di bidang yang menjadikan informasi visual sebagai unsur penting
  • Seperti terlihat dari performa tingginya dalam menyelesaikan soal ujian kualifikasi, HCX Vision dapat dimanfaatkan sebagai alat bantu belajar di bidang pendidikan. Namun, ada juga kekhawatiran terhadap penurunan kemampuan belajar mandiri siswa
  • Pengamanan data dan sovereignty akan menjadi faktor penting dalam pengembangan LVLM. Dengan memanfaatkan data berskala besar dan platform yang dimiliki Naver, diharapkan perusahaan ini dapat mengembangkan LVLM yang kompetitif
  • Jika berkembang dari pemahaman gambar tunggal saat ini menjadi pemahaman film dan video real-time, model ini akan dapat diterapkan di berbagai bidang seperti hiburan, keamanan, dan kendaraan otonom. Kesiapan terhadap tantangan teknis dan etis juga akan diperlukan
  • Dibandingkan dengan GPT-4 milik OpenAI, model ini menunjukkan performa yang serupa, tetapi dalam hal pemahaman bahasa Korea dan budaya Korea, HCX Vision tampaknya memiliki keunggulan. Untuk mengamankan daya saing global, peningkatan kemampuan pemrosesan multibahasa akan diperlukan

Belum ada komentar.

Belum ada komentar.