dataset baru

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) merilis berbagai hasil riset baru Mencakup 6 hasil riset yang berfokus pada tema inti inovasi, kreativitas, efisiensi, dan tanggung jawab Meta Chameleon Model arsitektur terpadu yang menerima teks dan gambar sebagai input, lalu dapat menghasilkan kombinasi teks dan gambar sebagai output Karena memproses teks dan gambar menggunakan tokenization, bukan pembelajaran berbasis diffusion, pendekatan terpadu menjadi memungkinkan serta lebih mudah untuk dirancang, dipelihara, dan dikembangkan Komponen utama model Chameleon 7B dan 34B dirilis dengan lisensi khusus riset Model pembuat gambar masih belum dirilis Multi-Token Prediction Mengusulkan pendekatan baru yang memprediksi beberapa kata sekaligus, alih-alih metode lama yang memprediksi kata satu per satu Kinerja model dan efisiensi pelatihan meningkat, serta kecepatannya juga lebih tinggi Merilis model yang telah dipra-latih untuk code completion dengan lisensi nonkomersial/khusus riset JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) Model generasi teks-ke-musik yang mengubah prompt teks menjadi klip musik Dapat menerima berbagai input seperti chord atau beat tertentu untuk mengendalikan output musik yang dihasilkan dengan lebih baik Menerapkan information bottleneck layer dan temporal blurring untuk mengekstrak informasi yang terkait dengan kontrol tertentu Hasil evaluasi menunjukkan kualitas generasi setara dengan model acuan, tetapi memungkinkan kontrol yang jauh lebih beragam Makalah riset dan halaman sampel telah dirilis, dengan kode inferensi dan model pralatih juga dijadwalkan dirilis kemudian AudioSeal Teknik audio watermarking untuk mendeteksi suara yang dihasilkan AI Dapat menemukan secara akurat bagian yang dihasilkan AI di dalam klip audio yang lebih panjang Meningkatkan kecepatan dan efisiensi dengan menggunakan metode deteksi lokal, bukan algoritme decoding kompleks yang ada sebelumnya Dirilis dengan lisensi komersial, sebagai bagian dari riset untuk mencegah penyalahgunaan berbagai alat AI generatif Dukungan pembukaan dataset PRISM Untuk meningkatkan LLM, penting untuk menerima umpan balik dari beragam orang Komunitas riset telah mengajukan pertanyaan tentang metode, domain, dan tujuan dalam proses pemberian umpan balik Meta mendukung pembukaan dataset PRISM, yang memetakan demografi sosial dan preferensi dari 1.500 peserta yang beragam di 75 negara Dataset ini memetakan preferensi tiap orang dan umpan balik terperinci terhadap 8.011 percakapan real-time dengan 21 LLM Meta berharap ini dapat mendorong partisipasi yang lebih luas dalam pengembangan AI dan pendekatan perancangan teknologi yang lebih inklusif Mengukur dan meningkatkan kesenjangan geografis pada sistem generasi teks-ke-gambar Penting agar model teks-ke-gambar bekerja baik untuk semua orang dan mencerminkan keragaman geografis serta budaya dunia Mengembangkan metrik otomatis bernama "DIG In" untuk mengevaluasi potensi kesenjangan geografis Mengumpulkan lebih dari 65.000 anotasi dan lebih dari 20 respons survei untuk meneliti bagaimana orang mengenali representasi geografis Menemukan bahwa orang mengenali representasi geografis melalui komponen tertentu dalam gambar, bukan keseluruhan gambar Berdasarkan temuan ini, mereka mengeksplorasi cara meningkatkan keragaman output model teks-ke-gambar Memperkenalkan Contextualized Vendi Score guidance untuk meningkatkan keragaman representasi pada sampel yang dihasilkan sambil mempertahankan kualitas gambar dan konsistensi antara prompt dan hasil generasi

(ai.meta.com)

3 poin oleh xguru 2024-06-21 | Belum ada komentar. | Bagikan ke WhatsApp

Meta Fundamental AI Research (FAIR) merilis berbagai hasil riset baru
Mencakup 6 hasil riset yang berfokus pada tema inti inovasi, kreativitas, efisiensi, dan tanggung jawab

Meta Chameleon

Model arsitektur terpadu yang menerima teks dan gambar sebagai input, lalu dapat menghasilkan kombinasi teks dan gambar sebagai output
- Karena memproses teks dan gambar menggunakan tokenization, bukan pembelajaran berbasis diffusion, pendekatan terpadu menjadi memungkinkan serta lebih mudah untuk dirancang, dipelihara, dan dikembangkan
- Komponen utama model Chameleon 7B dan 34B dirilis dengan lisensi khusus riset
- Model pembuat gambar masih belum dirilis

Multi-Token Prediction

Mengusulkan pendekatan baru yang memprediksi beberapa kata sekaligus, alih-alih metode lama yang memprediksi kata satu per satu
- Kinerja model dan efisiensi pelatihan meningkat, serta kecepatannya juga lebih tinggi
- Merilis model yang telah dipra-latih untuk code completion dengan lisensi nonkomersial/khusus riset

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

Model generasi teks-ke-musik yang mengubah prompt teks menjadi klip musik
- Dapat menerima berbagai input seperti chord atau beat tertentu untuk mengendalikan output musik yang dihasilkan dengan lebih baik
- Menerapkan information bottleneck layer dan temporal blurring untuk mengekstrak informasi yang terkait dengan kontrol tertentu
- Hasil evaluasi menunjukkan kualitas generasi setara dengan model acuan, tetapi memungkinkan kontrol yang jauh lebih beragam
- Makalah riset dan halaman sampel telah dirilis, dengan kode inferensi dan model pralatih juga dijadwalkan dirilis kemudian

AudioSeal

Teknik audio watermarking untuk mendeteksi suara yang dihasilkan AI
- Dapat menemukan secara akurat bagian yang dihasilkan AI di dalam klip audio yang lebih panjang
- Meningkatkan kecepatan dan efisiensi dengan menggunakan metode deteksi lokal, bukan algoritme decoding kompleks yang ada sebelumnya
- Dirilis dengan lisensi komersial, sebagai bagian dari riset untuk mencegah penyalahgunaan berbagai alat AI generatif

Dukungan pembukaan dataset PRISM

Untuk meningkatkan LLM, penting untuk menerima umpan balik dari beragam orang
- Komunitas riset telah mengajukan pertanyaan tentang metode, domain, dan tujuan dalam proses pemberian umpan balik
- Meta mendukung pembukaan dataset PRISM, yang memetakan demografi sosial dan preferensi dari 1.500 peserta yang beragam di 75 negara
- Dataset ini memetakan preferensi tiap orang dan umpan balik terperinci terhadap 8.011 percakapan real-time dengan 21 LLM
- Meta berharap ini dapat mendorong partisipasi yang lebih luas dalam pengembangan AI dan pendekatan perancangan teknologi yang lebih inklusif

Mengukur dan meningkatkan kesenjangan geografis pada sistem generasi teks-ke-gambar

Penting agar model teks-ke-gambar bekerja baik untuk semua orang dan mencerminkan keragaman geografis serta budaya dunia
- Mengembangkan metrik otomatis bernama "DIG In" untuk mengevaluasi potensi kesenjangan geografis
- Mengumpulkan lebih dari 65.000 anotasi dan lebih dari 20 respons survei untuk meneliti bagaimana orang mengenali representasi geografis
- Menemukan bahwa orang mengenali representasi geografis melalui komponen tertentu dalam gambar, bukan keseluruhan gambar
- Berdasarkan temuan ini, mereka mengeksplorasi cara meningkatkan keragaman output model teks-ke-gambar
- Memperkenalkan Contextualized Vendi Score guidance untuk meningkatkan keragaman representasi pada sampel yang dihasilkan sambil mempertahankan kualitas gambar dan konsistensi antara prompt dan hasil generasi