- Meta Fundamental AI Research (FAIR) merilis berbagai hasil riset baru
- Mencakup 6 hasil riset yang berfokus pada tema inti inovasi, kreativitas, efisiensi, dan tanggung jawab
Meta Chameleon
- Model arsitektur terpadu yang menerima teks dan gambar sebagai input, lalu dapat menghasilkan kombinasi teks dan gambar sebagai output
- Karena memproses teks dan gambar menggunakan tokenization, bukan pembelajaran berbasis diffusion, pendekatan terpadu menjadi memungkinkan serta lebih mudah untuk dirancang, dipelihara, dan dikembangkan
- Komponen utama model Chameleon 7B dan 34B dirilis dengan lisensi khusus riset
- Model pembuat gambar masih belum dirilis
Multi-Token Prediction
- Mengusulkan pendekatan baru yang memprediksi beberapa kata sekaligus, alih-alih metode lama yang memprediksi kata satu per satu
- Kinerja model dan efisiensi pelatihan meningkat, serta kecepatannya juga lebih tinggi
- Merilis model yang telah dipra-latih untuk code completion dengan lisensi nonkomersial/khusus riset
JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)
- Model generasi teks-ke-musik yang mengubah prompt teks menjadi klip musik
- Dapat menerima berbagai input seperti chord atau beat tertentu untuk mengendalikan output musik yang dihasilkan dengan lebih baik
- Menerapkan information bottleneck layer dan temporal blurring untuk mengekstrak informasi yang terkait dengan kontrol tertentu
- Hasil evaluasi menunjukkan kualitas generasi setara dengan model acuan, tetapi memungkinkan kontrol yang jauh lebih beragam
- Makalah riset dan halaman sampel telah dirilis, dengan kode inferensi dan model pralatih juga dijadwalkan dirilis kemudian
AudioSeal
- Teknik audio watermarking untuk mendeteksi suara yang dihasilkan AI
- Dapat menemukan secara akurat bagian yang dihasilkan AI di dalam klip audio yang lebih panjang
- Meningkatkan kecepatan dan efisiensi dengan menggunakan metode deteksi lokal, bukan algoritme decoding kompleks yang ada sebelumnya
- Dirilis dengan lisensi komersial, sebagai bagian dari riset untuk mencegah penyalahgunaan berbagai alat AI generatif
Dukungan pembukaan dataset PRISM
- Untuk meningkatkan LLM, penting untuk menerima umpan balik dari beragam orang
- Komunitas riset telah mengajukan pertanyaan tentang metode, domain, dan tujuan dalam proses pemberian umpan balik
- Meta mendukung pembukaan dataset PRISM, yang memetakan demografi sosial dan preferensi dari 1.500 peserta yang beragam di 75 negara
- Dataset ini memetakan preferensi tiap orang dan umpan balik terperinci terhadap 8.011 percakapan real-time dengan 21 LLM
- Meta berharap ini dapat mendorong partisipasi yang lebih luas dalam pengembangan AI dan pendekatan perancangan teknologi yang lebih inklusif
Mengukur dan meningkatkan kesenjangan geografis pada sistem generasi teks-ke-gambar
- Penting agar model teks-ke-gambar bekerja baik untuk semua orang dan mencerminkan keragaman geografis serta budaya dunia
- Mengembangkan metrik otomatis bernama "DIG In" untuk mengevaluasi potensi kesenjangan geografis
- Mengumpulkan lebih dari 65.000 anotasi dan lebih dari 20 respons survei untuk meneliti bagaimana orang mengenali representasi geografis
- Menemukan bahwa orang mengenali representasi geografis melalui komponen tertentu dalam gambar, bukan keseluruhan gambar
- Berdasarkan temuan ini, mereka mengeksplorasi cara meningkatkan keragaman output model teks-ke-gambar
- Memperkenalkan Contextualized Vendi Score guidance untuk meningkatkan keragaman representasi pada sampel yang dihasilkan sambil mempertahankan kualitas gambar dan konsistensi antara prompt dan hasil generasi
Belum ada komentar.