Hal yang Dapat Dilakukan AI Multimodal Selain Pembuatan Gambar
(blog.naver.com)AI multimodal selain pembuatan gambar juga dapat melakukan penyelesaian gambar yang belum lengkap, prediksi ucapan berikutnya dalam video, pencarian terhubung teks+gambar, penerjemahan komik, prediksi risiko munculnya kanker, dan pendeteksian ujaran kebencian
- Menyelesaikan gambar yang belum lengkap
- Nüwa yang dikembangkan Microsoft Research Asia dan Universitas Peking menampilkan fungsi terkait
- Sistem ini dapat melengkapi gambar yang belum selesai ketika diberikan gambar yang tidak lengkap
- Jika diberi sketsa, sistem ini menghasilkan gambar atau video yang sesuai
- Sistem ini juga memprediksi dan menampilkan adegan berikutnya dalam video
- Prediksi ucapan berikutnya dalam video
- Model yang dikembangkan Google Research memprediksi ucapan berikutnya ketika diberikan adegan video dan transkrip ucapan pembicara
- Video dan teks digunakan sebagai ‘konteks’ untuk memprediksi ucapan pembicara
- Pencarian teks+gambar
- MUM yang dikembangkan Google dapat memahami gambar ketika pengguna mengunggah foto sepatu hiking ke kotak pencarian dan mengetik, “Bisakah saya memakai sepatu ini untuk mendaki Gunung Fuji?”, lalu mengaitkannya dengan pertanyaan pengguna dan memberi tahu bahwa ‘sepatu hiking itu kemungkinan akan berfungsi dengan baik’
- Sistem ini juga dapat menampilkan blog yang berisi daftar perlengkapan yang direkomendasikan
- Penerjemahan komik
- ‘Kerangka penerjemahan sadar konteks multimodal’ yang diperkenalkan peneliti Universitas Tokyo dan Mantra, perusahaan machine translation Jepang, dapat menerjemahkan komik ke bahasa lain dengan mempertimbangkan ilustrasi dan dialog secara bersama-sama
- Sistem ini mengekstrak informasi konteks seperti adegan, urutan pembacaan dialog, dan informasi visual dari gambar manga Jepang
- Informasi tersebut kemudian digunakan untuk menerjemahkan dialog di dalam balon kata dari bahasa Jepang ke bahasa Inggris
- Prediksi risiko munculnya kanker
- AI multimodal yang dikembangkan peneliti Brigham and Women’s Hospital, Harvard Medical School, dapat memprediksi kemungkinan terjadinya kanker dengan merujuk pada foto jaringan sel dan data genomik berbasis teks
- Para peneliti melatih dua model terpisah menggunakan foto mikroskopis jaringan sel dan data genomik berbasis teks
- Setelah itu, kedua model diintegrasikan ke dalam satu sistem untuk memprediksi ‘apakah pasien berisiko tinggi atau rendah terkena berbagai jenis kanker’
- Mempelajari ‘gambar’ objek tertentu lalu mengenali ‘data 3D’ atau ‘video’ dari objek yang sama
- Omnivore yang diperkenalkan Meta dapat mengenali model 3D labu meskipun hanya dilatih dengan gambar labu
- Selain itu, sistem ini juga dapat mengenali video kapal pesiar meskipun hanya dilatih dengan gambar kapal pesiar
- Pendeteksian ujaran kebencian
- AI multimodal juga dapat membantu menemukan ujaran kebencian dalam unggahan di media sosial dengan merujuk sekaligus pada isi gambar dan teks
- Ujaran kebencian juga hadir dalam bentuk meme yang menggabungkan gambar dan teks
- Meta menjelaskan, “agar (AI) dapat mengenali apakah sebuah meme bersifat kebencian atau tidak, AI harus mempertimbangkan baik gambar meme maupun isi teksnya”
- Meme bergambar gurun kosong dengan tulisan “Lihat betapa banyak orang yang mencintaimu” bersifat menyerang secara halus
- Agar AI dapat menemukan makna sebenarnya dari meme yang mengandung ujaran kebencian, AI harus menganalisis meme secara keseluruhan
- AI perlu menggabungkan gambar dan teks, serta memahami bagaimana maknanya berubah ketika keduanya muncul bersama
- AI multimodal diperkirakan akan menjalankan fungsi ini dengan memproses gambar dan teks secara bersamaan
- Meta memperkirakan kemampuannya untuk memahami isi unggahan media sosial secara komprehensif guna mengenali ujaran kebencian akan berkembang menjadi AI multimodal
- Meta membangun dan membagikan dataset ‘Hateful Memes’ yang membantu pengembangan sistem untuk mengidentifikasi ujaran kebencian multimodal
Belum ada komentar.