3 poin oleh xguru 2024-06-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Meta Fundamental AI Research (FAIR) merilis berbagai hasil riset baru
  • Mencakup 6 hasil riset yang berfokus pada tema inti inovasi, kreativitas, efisiensi, dan tanggung jawab

Meta Chameleon

  • Model arsitektur terpadu yang menerima teks dan gambar sebagai input, lalu dapat menghasilkan kombinasi teks dan gambar sebagai output
    • Karena memproses teks dan gambar menggunakan tokenization, bukan pembelajaran berbasis diffusion, pendekatan terpadu menjadi memungkinkan serta lebih mudah untuk dirancang, dipelihara, dan dikembangkan
    • Komponen utama model Chameleon 7B dan 34B dirilis dengan lisensi khusus riset
    • Model pembuat gambar masih belum dirilis

Multi-Token Prediction

  • Mengusulkan pendekatan baru yang memprediksi beberapa kata sekaligus, alih-alih metode lama yang memprediksi kata satu per satu
    • Kinerja model dan efisiensi pelatihan meningkat, serta kecepatannya juga lebih tinggi
    • Merilis model yang telah dipra-latih untuk code completion dengan lisensi nonkomersial/khusus riset

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • Model generasi teks-ke-musik yang mengubah prompt teks menjadi klip musik
    • Dapat menerima berbagai input seperti chord atau beat tertentu untuk mengendalikan output musik yang dihasilkan dengan lebih baik
    • Menerapkan information bottleneck layer dan temporal blurring untuk mengekstrak informasi yang terkait dengan kontrol tertentu
    • Hasil evaluasi menunjukkan kualitas generasi setara dengan model acuan, tetapi memungkinkan kontrol yang jauh lebih beragam
    • Makalah riset dan halaman sampel telah dirilis, dengan kode inferensi dan model pralatih juga dijadwalkan dirilis kemudian

AudioSeal

  • Teknik audio watermarking untuk mendeteksi suara yang dihasilkan AI
    • Dapat menemukan secara akurat bagian yang dihasilkan AI di dalam klip audio yang lebih panjang
    • Meningkatkan kecepatan dan efisiensi dengan menggunakan metode deteksi lokal, bukan algoritme decoding kompleks yang ada sebelumnya
    • Dirilis dengan lisensi komersial, sebagai bagian dari riset untuk mencegah penyalahgunaan berbagai alat AI generatif

Dukungan pembukaan dataset PRISM

  • Untuk meningkatkan LLM, penting untuk menerima umpan balik dari beragam orang
    • Komunitas riset telah mengajukan pertanyaan tentang metode, domain, dan tujuan dalam proses pemberian umpan balik
    • Meta mendukung pembukaan dataset PRISM, yang memetakan demografi sosial dan preferensi dari 1.500 peserta yang beragam di 75 negara
    • Dataset ini memetakan preferensi tiap orang dan umpan balik terperinci terhadap 8.011 percakapan real-time dengan 21 LLM
    • Meta berharap ini dapat mendorong partisipasi yang lebih luas dalam pengembangan AI dan pendekatan perancangan teknologi yang lebih inklusif

Mengukur dan meningkatkan kesenjangan geografis pada sistem generasi teks-ke-gambar

  • Penting agar model teks-ke-gambar bekerja baik untuk semua orang dan mencerminkan keragaman geografis serta budaya dunia
    • Mengembangkan metrik otomatis bernama "DIG In" untuk mengevaluasi potensi kesenjangan geografis
    • Mengumpulkan lebih dari 65.000 anotasi dan lebih dari 20 respons survei untuk meneliti bagaimana orang mengenali representasi geografis
    • Menemukan bahwa orang mengenali representasi geografis melalui komponen tertentu dalam gambar, bukan keseluruhan gambar
    • Berdasarkan temuan ini, mereka mengeksplorasi cara meningkatkan keragaman output model teks-ke-gambar
    • Memperkenalkan Contextualized Vendi Score guidance untuk meningkatkan keragaman representasi pada sampel yang dihasilkan sambil mempertahankan kualitas gambar dan konsistensi antara prompt dan hasil generasi

Belum ada komentar.

Belum ada komentar.