Hal yang Dapat Dilakukan AI Multimodal Selain Pembuatan Gambar

(blog.naver.com)

12 poin oleh ironlung 2022-09-22 | Belum ada komentar. | Bagikan ke WhatsApp

AI multimodal selain pembuatan gambar juga dapat melakukan penyelesaian gambar yang belum lengkap, prediksi ucapan berikutnya dalam video, pencarian terhubung teks+gambar, penerjemahan komik, prediksi risiko munculnya kanker, dan pendeteksian ujaran kebencian

Menyelesaikan gambar yang belum lengkap

Nüwa yang dikembangkan Microsoft Research Asia dan Universitas Peking menampilkan fungsi terkait
Sistem ini dapat melengkapi gambar yang belum selesai ketika diberikan gambar yang tidak lengkap
Jika diberi sketsa, sistem ini menghasilkan gambar atau video yang sesuai
Sistem ini juga memprediksi dan menampilkan adegan berikutnya dalam video

Prediksi ucapan berikutnya dalam video

Model yang dikembangkan Google Research memprediksi ucapan berikutnya ketika diberikan adegan video dan transkrip ucapan pembicara
Video dan teks digunakan sebagai ‘konteks’ untuk memprediksi ucapan pembicara

Pencarian teks+gambar

MUM yang dikembangkan Google dapat memahami gambar ketika pengguna mengunggah foto sepatu hiking ke kotak pencarian dan mengetik, “Bisakah saya memakai sepatu ini untuk mendaki Gunung Fuji?”, lalu mengaitkannya dengan pertanyaan pengguna dan memberi tahu bahwa ‘sepatu hiking itu kemungkinan akan berfungsi dengan baik’
Sistem ini juga dapat menampilkan blog yang berisi daftar perlengkapan yang direkomendasikan

Penerjemahan komik

‘Kerangka penerjemahan sadar konteks multimodal’ yang diperkenalkan peneliti Universitas Tokyo dan Mantra, perusahaan machine translation Jepang, dapat menerjemahkan komik ke bahasa lain dengan mempertimbangkan ilustrasi dan dialog secara bersama-sama
Sistem ini mengekstrak informasi konteks seperti adegan, urutan pembacaan dialog, dan informasi visual dari gambar manga Jepang
Informasi tersebut kemudian digunakan untuk menerjemahkan dialog di dalam balon kata dari bahasa Jepang ke bahasa Inggris

Prediksi risiko munculnya kanker

AI multimodal yang dikembangkan peneliti Brigham and Women’s Hospital, Harvard Medical School, dapat memprediksi kemungkinan terjadinya kanker dengan merujuk pada foto jaringan sel dan data genomik berbasis teks
Para peneliti melatih dua model terpisah menggunakan foto mikroskopis jaringan sel dan data genomik berbasis teks
Setelah itu, kedua model diintegrasikan ke dalam satu sistem untuk memprediksi ‘apakah pasien berisiko tinggi atau rendah terkena berbagai jenis kanker’

Mempelajari ‘gambar’ objek tertentu lalu mengenali ‘data 3D’ atau ‘video’ dari objek yang sama

Omnivore yang diperkenalkan Meta dapat mengenali model 3D labu meskipun hanya dilatih dengan gambar labu
Selain itu, sistem ini juga dapat mengenali video kapal pesiar meskipun hanya dilatih dengan gambar kapal pesiar

Pendeteksian ujaran kebencian

AI multimodal juga dapat membantu menemukan ujaran kebencian dalam unggahan di media sosial dengan merujuk sekaligus pada isi gambar dan teks
Ujaran kebencian juga hadir dalam bentuk meme yang menggabungkan gambar dan teks
Meta menjelaskan, “agar (AI) dapat mengenali apakah sebuah meme bersifat kebencian atau tidak, AI harus mempertimbangkan baik gambar meme maupun isi teksnya”
Meme bergambar gurun kosong dengan tulisan “Lihat betapa banyak orang yang mencintaimu” bersifat menyerang secara halus
Agar AI dapat menemukan makna sebenarnya dari meme yang mengandung ujaran kebencian, AI harus menganalisis meme secara keseluruhan
AI perlu menggabungkan gambar dan teks, serta memahami bagaimana maknanya berubah ketika keduanya muncul bersama
AI multimodal diperkirakan akan menjalankan fungsi ini dengan memproses gambar dan teks secara bersamaan
Meta memperkirakan kemampuannya untuk memahami isi unggahan media sosial secara komprehensif guna mengenali ujaran kebencian akan berkembang menjadi AI multimodal
Meta membangun dan membagikan dataset ‘Hateful Memes’ yang membantu pengembangan sistem untuk mengidentifikasi ujaran kebencian multimodal

Hal yang Dapat Dilakukan AI Multimodal Selain Pembuatan Gambar

Bacaan terkait

Belum ada komentar.