Meta FAIR Merilis 9 Riset, Model, dan Dataset Baru

(ai.meta.com)

1 poin oleh GN⁺ 2024-12-14 | 1 komentar | Bagikan ke WhatsApp

Meta FAIR merilis 9 keluaran dalam bentuk kode, model, dataset, dan demo untuk riset kecerdasan mesin tingkat lanjut, mencakup agen, robustness dan keamanan, serta arsitektur model
Item utama yang dirilis mencakup Meta Motivo untuk kontrol humanoid virtual, Meta Video Seal untuk watermarking video, codebase Flow Matching, Explore Theory-of-Mind, Large Concept Model, dan lainnya
Meta Motivo menggunakan data gerak tanpa label dan algoritme baru untuk menempatkan state, gerak, dan reward dalam ruang laten yang sama, sehingga dapat menjalankan tugas kontrol seluruh tubuh tanpa pelatihan atau perencanaan tambahan
Meta Video Seal menyisipkan watermark tak terlihat dan pesan tersembunyi opsional ke dalam video, serta dirancang tahan terhadap penyuntingan umum seperti blur, crop, dan kompresi berbagi online
Peneliti dapat mengunduh keluaran yang dirilis untuk bereksperimen, mengintegrasikan, dan memperluasnya; Meta menekankan sains terbuka yang dapat direproduksi dan ekosistem terbuka

Cakupan Rilis Meta FAIR

Meta FAIR membuka riset, kode, model, dan dataset terbaru kepada komunitas riset
Rilis kali ini berfokus pada tiga pilar
- Membangun agen yang lebih kapabel
- Robustness dan keamanan
- Inovasi arsitektur agar model dapat mempelajari informasi baru dengan lebih efektif dan berkembang melampaui batas saat ini
Total 9 proyek dan keluaran dapat langsung diunduh dan digunakan
Arahnya adalah mendorong riset iteratif melalui rilis riset awal dan memajukan perkembangan AI secara bertanggung jawab

Meta Motivo: Model Dasar Perilaku untuk Kontrol Humanoid Virtual

Meta Motivo adalah model berbasis perilaku yang mengendalikan gerakan agen humanoid virtual yang berwujud untuk menjalankan tugas kompleks
Reinforcement learning tak terawasi yang ada sering kali membutuhkan dataset interaksi yang telah dikurasi, atau bergantung pada loss tak terawasi yang dapat menghasilkan policy yang tidak selaras dengan tugas target
Meta Motivo dilatih dengan algoritme baru yang memanfaatkan dataset gerak tanpa label
- Mempelajari representasi yang meng-embedding state, gerak, dan reward ke dalam ruang laten yang sama
- Menyelesaikan tugas kontrol seluruh tubuh seperti pelacakan gerak, mencapai pose target, dan optimasi reward tanpa pelatihan atau perencanaan tambahan
Kinerjanya dapat bersaing dengan metode khusus tugas, dan lebih unggul dibanding reinforcement learning tak terawasi terbaru serta baseline berbasis model
Menunjukkan robustness tinggi terhadap perubahan lingkungan yang tidak dilatih, seperti gravitasi, angin, dan gangguan langsung
Riset ini dapat mengarah pada agen berwujud sepenuhnya di Metaverse, NPC yang lebih hidup, demokratisasi animasi karakter, dan pengalaman imersif baru
Baca makalah
Coba demo
Unduh kode dan model

Meta Video Seal: Watermarking Video Open Source

Meta Video Seal adalah framework terbaru untuk watermarking video berbasis neural network
Menyisipkan watermark yang tidak terlihat ke dalam video, dan secara opsional juga dapat menyertakan pesan tersembunyi
Watermark yang disisipkan dapat diekstrak kemudian untuk membantu memverifikasi asal video
Dirancang agar tahan terhadap proses penyuntingan dan berbagi video yang umum
- Blur
- Crop
- Algoritme kompresi yang umum digunakan untuk berbagi konten online
Model Video Seal dirilis dengan lisensi permisif, bersama makalah, kode pelatihan, kode inferensi, dan demo
Keluaran terkait watermarking juga dirilis bersama
- Meta Omni Seal Bench: leaderboard untuk watermarking neural network di berbagai modalitas
- Meta Watermark Anything: dirilis ulang dengan lisensi permisif
- Workshop watermarking ICLR 2025
Watermark Anything, Video Seal, dan Audio Seal tersedia untuk diunduh dan diintegrasikan
Baca makalah
Coba demo
Unduh kode dan model Video Seal
Unduh kode dan model Watermark Anything
Lihat leaderboard Omni Seal Bench

Panduan dan Codebase Flow Matching

Flow Matching adalah paradigma generatif yang digunakan di berbagai modalitas seperti gambar, video, audio, musik, dan struktur 3D seperti protein
Di internal Meta, pendekatan ini menggantikan metode difusi yang ada pada berbagai aplikasi generatif
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
Di industri, contohnya mencakup Stable-Diffusion-3, Flux, Fold-Flow, dan Physical Intelligence Pi_0
Flow Matching adalah framework AI generatif yang sederhana namun fleksibel, meningkatkan performa dan efisiensi serta memudahkan generalisasi ke data kompleks
Item yang dirilis mencakup makalah, implementasi inti Flow Matching kontinu dan diskret, serta skrip pelatihan terbaru
Baca makalah
Unduh kode

Explore Theory-of-Mind: Pembuatan Data Penalaran Teori Pikiran

Meta Explore Theory-of-Mind adalah framework pembuatan data adversarial berpandu program untuk penalaran theory of mind
Dataset Theory-of-Mind yang ada memiliki keterbatasan karena hanya berfokus pada evaluasi dan mencakup interaksi dalam ruang lingkup sempit
Framework ini menghasilkan data penalaran ToM yang beragam, sulit, dan skalabel untuk digunakan dalam pelatihan maupun evaluasi
Dapat membuat cerita yang robust dan andal untuk menguji batas large language model
Saat melakukan fine-tuning Llama-3.1 7B, framework ini mencapai peningkatan akurasi 27 poin pada benchmark ToMi yang umum digunakan
Cakupan penggunaannya mencakup pembuatan dataset untuk meningkatkan LLM, penguatan skenario berorientasi tujuan, pengumpulan dataset interaksi, dan benchmark evaluasi kinerja LLM
Baca makalah
Unduh kode
Unduh dataset

Large Concept Model: Memprediksi Konsep, Bukan Token

Large Concept Model(LCM) adalah paradigma pelatihan berbeda untuk pemodelan bahasa
Model bahasa arus utama saat ini biasanya beroperasi pada level token, dan tidak melakukan penalaran secara eksplisit dengan cara hierarkis
Inti LCM adalah memisahkan penalaran dari representasi bahasa
- Terinspirasi dari cara manusia saat presentasi: urutan ide yang sama dapat dipertahankan, sementara pilihan kata bisa berbeda setiap kali
LCM dilatih untuk memprediksi konsep berikutnya atau ide tingkat tinggi berikutnya, bukan token berikutnya
Konsep direpresentasikan sebagai seluruh kalimat dalam ruang embedding multimodal dan multibahasa
Pada tugas generatif murni seperti peringkasan, performanya lebih baik atau sebanding dengan LLM terbaru, serta memberikan generalisasi zero-shot yang kuat untuk bahasa yang belum pernah dilihat
Efisiensi komputasinya juga semakin tinggi seiring bertambah panjangnya konteks input
Baca makalah
Unduh kode

Dynamic Byte Latent Transformer: Model Level Byte Tanpa Tokenizer

Dynamic Byte Latent Transformer adalah model level byte hierarkis yang menggunakan metode patching dinamis
Model bahasa yang ada melakukan tokenisasi teks pada tahap prapemrosesan berbasis heuristik; ini membatasi pelatihan end-to-end, menyulitkan optimasi praktis, dan dapat merusak performa pada urutan teks langka
Model ini beroperasi di atas byte tanpa heuristik tokenisasi
Efisiensi pemrosesan sekuens panjang dalam pelatihan dan inferensi juga ditingkatkan
Dibanding model berbasis tokenizer, model ini menunjukkan keunggulan robustness rata-rata 7 poin
Memiliki keunggulan dalam menangani long tail dan sekuens langka dari simbol yang belum pernah dilihat
Pendekatan ini dapat membantu kemajuan penalaran di bidang seperti bahasa ber-resource rendah, coding, dan faktualitas
Baca makalah
Unduh kode

Meta Memory Layers: Ekstensi Memori Sparse untuk Informasi Faktual

Meta Memory Layers at Scale adalah metode yang meningkatkan faktualitas pada benchmark faktualitas umum melalui penskalaan memory layer
Memori parametrik adalah tempat penyimpanan informasi faktual yang disimpan dalam bobot neural network selama prapelatihan, dan berkontribusi pada kemampuan LLM memahami konsep kompleks serta nuansa bahasa
Ketika pendekatan scaling yang ada mendekati batas ekspansi yang efisien, diperlukan arsitektur baru yang mempelajari informasi dengan lebih efektif
Memory Layers menambahkan parameter tambahan ke model tanpa meningkatkan FLOPs melalui mekanisme lookup key-value yang dapat dipelajari
Memory layer dengan aktivasi sparse melengkapi dense feedforward layer yang mahal secara komputasi, dan menyediakan kapasitas khusus untuk menyimpan serta mengambil informasi dengan murah
Model bahasa yang dipasangi memory layer yang ditingkatkan unggul pada tugas downstream dibanding model berikut
- Model dense dengan anggaran komputasi lebih dari 2 kali lipat
- Model MoE yang disesuaikan dari sisi komputasi dan parameter
Berbeda dari anggapan umum bahwa arsitektur memori sparse sulit diskalakan secara kompetitif, pendekatan ini berhasil diskalakan secara efisien hingga 128B parameter dan model dasar 8B, serta menunjukkan peningkatan pada benchmark faktualitas umum dibanding komputasi serupa
Baca makalah
Unduh kode

Image Diversity Modeling dan EvalGIM

FAIR melakukan riset untuk memahami pengembangan model generasi gambar yang aman dan membuat metode baru
Model generasi gambar yang dikembangkan selama riset ini dibangun di atas riset terdahulu tentang arsitektur model generatif dan fungsi loss
Model ini memprioritaskan pembuatan gambar yang merepresentasikan dunia fisik, sambil mempertahankan kualitas gambar yang kompetitif dengan model terbaru
Pakar eksternal dapat menggunakan model ini untuk meneliti area yang dapat meningkatkan keamanan dan tanggung jawab di seluruh pemodelan keragaman gambar
Toolbox evaluasi komprehensif untuk model generasi teks-ke-gambar juga akan dirilis sebagai open source
- Meningkatkan kemudahan dan reproduksibilitas benchmarking generasi gambar
- Mendorong hasil yang dapat diinterpretasikan untuk membantu riset teks-ke-gambar yang bertanggung jawab
Baca makalah
Unduh kode

Meta CLIP 1.2: Encoder Vision-Language dan Kurasi Data

Meta CLIP 1.2 adalah rilis untuk pengembangan encoder vision-language berkinerja tinggi
Meta mengembangkan algoritme untuk mengurasi dan menyelaraskan data gambar-teks berskala besar secara efektif, agar model mempelajari pengetahuan manusia tentang dunia
Dataset berskala besar, berkualitas tinggi, dan beragam sangat penting untuk membangun model dasar yang belajar tentang dunia
Meta CLIP adalah pekerjaan Meta untuk membangun dataset dan model dasar seperti ini
Untuk model dasar encoder vision-language yang berkualitas tinggi dan aman, Meta mengembangkan algoritme kurasi dan penyelarasan data, serta menerapkan langkah-langkah integritas dan perlindungan privasi
Item yang dirilis dapat digunakan peneliti dan developer untuk memajukan pemahaman vision-language
- Algoritme data
- Resep pelatihan
- Model dasar yang dilatih dengan dataset hasil kurasi
Contoh penggunaan mencakup encoding visi untuk MLLM, embedding multimodal untuk pencarian, klasifikasi zero-shot, dan titik awal untuk riset kualitas data
Algoritme dan metode pelatihan juga dapat digunakan untuk membuat dataset mirip CLIP berskala besar dan berkualitas tinggi dari awal
Baca makalah
Unduh dataset
Unduh kode
Unduh model

1 komentar

GN⁺ 2024-12-14

Opini Hacker News

Ada banyak sekali hal menarik di sini, terutama ide-ide terkait LLM yang menonjol
Large Concept Model yang menangani dan memprediksi konsep, bukan token; Dynamic Byte Latent Transformer sebagai alternatif berbasis byte untuk tokenisasi standar; serta sparse memory layer yang memperluas hierarki memori key-value tanpa meningkatkan kebutuhan komputasi, masing-masing diperkenalkan sebagai cara terpisah untuk meningkatkan kualitas atau efisiensi
Saya penasaran seberapa besar kualitas dan efisiensi akan meningkat jika semua metode ini digabungkan, dan mungkin saja itu adalah Llama 4
- Saya berharap Llama 4 atau 5 memakai arsitektur yang berbeda
  Llama yang dirilis sejauh ini struktur inferensinya hampir sama, hanya pipeline pelatihannya yang makin baik
  Kekurangannya adalah llamacpp mungkin tidak bisa menjalankan model baru, dan mungkin perlu penulisan ulang besar, sehingga program C, C++, Go, dan Rust baru bisa diperlukan
- Saya penasaran apakah ada cara untuk menampilkan konten seperti ini dengan lebih baik
  Saya sedang membuat dokumen atau demo serupa, dan jika berupa halaman dokumentasi, tiap bagian bisa disusun secara seragam dengan judul, isi, tautan kode, dan tautan makalah
  Namun halaman ini sendiri berupa tulisan blog, jadi sepertinya akan sulit ditemukan lagi tahun depan
  Apakah ada contoh lain perusahaan yang merapikan ringkasan teknis dengan baik dan membuatnya tetap bisa ditemukan dari beranda?
- Agak ironis bahwa Meta pada akhirnya menjadi organisasi AI terbuka terbesar
  Memang bukan “open source”, tetapi mereka membukanya agar bisa digunakan dan juga memublikasikan riset secara terbuka
Benar-benar keren
Sangat menyenangkan mencoba demo pertama, rasanya seperti permainan di mana pemenangnya adalah orang yang bisa membuat model melakukan moonwalk
Percobaan terbaik saya mungkin sekitar (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9)
https://i.imgur.com/O5hGMo5.gif
Dan “Meta Explore Theory of Mind” lebih menarik lagi
Sekitar sebulan lalu juga ada thread yang membahas konsep seperti “belief” dan pembaruan model dunia yang sesuai dengannya
https://news.ycombinator.com/item?id=42035985
Saya berharap Dynamic Byte Latent Transformer berhasil
Saya ingin tokenizer segera lenyap
Menarik juga bahwa ini berstruktur hierarkis tetapi hanya punya dua level, dan menumpuk lebih banyak level tampak seperti arah alami untuk riset lanjutan
- Saya salah satu penulisnya :)
  Menurut saya itu arah riset yang bagus
  Namun memang agak terlalu banyak jika dilakukan sekaligus, dan kita juga harus berhati-hati soal cara membagi anggaran FLOP ke seluruh hierarki
  Dengan dua level, satu sisi bisa dibuat efisien FLOP sebagai encoder byte/lokal, sementara sisi lainnya bisa menggunakan banyak FLOP sebagai encoder patch/global
  Kita juga perlu mencari cara mengelompokkan patch ke unit yang lebih besar, tetapi ada banyak arah lanjutan dari sini
Jika memikirkan latar belakang bisnis Meta dalam melakukan ini, karena mereka punya kas hingga 70 miliar dolar AS, membayar ratusan juta dolar kepada para pakar AI terlihat seperti uang receh
- Bayangkan saja ada perubahan mendasar di dunia riset AI
  AI tiba-tiba bisa meningkatkan produktivitas programmer secara signifikan, menjadi sangat baik dalam mendeteksi kerentanan, chat AI menjadi bentuk hiburan besar baru, atau gambar AI menjadi konten yang banyak dibagikan di Instagram
  Jika salah satu saja dari hal-hal ini terjadi, Facebook mungkin ingin punya akses ke model mutakhir dan menyesuaikannya untuk developer internal, tool, atau embedding di dalam aplikasi
  Namun jika satu-satunya cara mengaksesnya adalah membuat kontrak bernilai 7–9 digit dengan penjual model seperti OpenAI, itu akan mengerikan
  Lebih buruk lagi, pesaing utama di bidang iklan bisa mulai menyediakan tool AI yang kuat agar pengiklan menyesuaikan materi kreatif ke berbagai format
  Kalau begitu Facebook akan tertinggal jauh, dan meski membayar jutaan dolar kepada perusahaan seperti OpenAI, mereka bisa kehilangan pangsa iklan bernilai puluhan miliar dolar tiap kuartal
  Jika skenario terburuk ini terjadi, Facebook akan terlihat bodoh, dan jika salah satu dari kemungkinan ini masuk akal, investasinya pun masuk akal
  Efek bagi open source atau membuat Meta tampak sebagai tempat kerja yang keren adalah bonus strategi tambahan
- Sepertinya bagus dilihat sebagai “jadikan komplementer sebagai komoditas umum”
  Jika OpenAI sukses besar dan menjadi satu-satunya pilihan, mereka bisa menuntut rente monopoli yang sangat besar dari semua orang yang memakai layanannya
  Jadi bagi perusahaan lain atau siapa pun yang ingin memakai AI, lebih menguntungkan jika ekosistem AI punya banyak pesaing sehingga harga tetap rendah
- Untuk mendapatkan cukup banyak peneliti terbaik, mereka mau tidak mau harus mengizinkan publikasi makalah
- Para pakar AI itu sejak awal memang berperan penting dalam membuat Meta menghasilkan 70 miliar dolar AS
- Menurut saya semua orang yang menjawab sejauh ini keliru secara naif
  Facebook menjual ruang iklan di berbagai aplikasi, dan agar ruang iklan itu bernilai, orang-orang harus berada di aplikasi
  Agar orang-orang berada di aplikasi, dibutuhkan konten yang menarik mereka
  Jadi sederhana: buat siapa pun, baik individu maupun perusahaan, bisa membuat konten massal dengan murah dan membagikannya di aplikasi
Baru-baru ini di meetup AI Engineer London, saya sempat mendengarkan presentasi Ross Taylor, mantan orang Meta
Video presentasi lengkapnya juga sudah tersedia
https://www.youtube.com/watch?v=S5l5OvJ01ws
Saya ternyata melewatkan betapa banyak pekerjaan yang telah dilakukan Meta di bidang reasoning dan theory of mind
- Video yang bagus
  Ini membantu menempatkan o1 dalam konteks
  Dengan laju rilis dari OpenAI, Google, dan Meta yang secepat ini, sepertinya giliran berikutnya adalah Anthropic
Setiap kali harus merapikan teks, saya selalu berpikir kenapa tidak melatih denoising autoencoder berbasis byte saja untuk menanganinya
- Ide yang menarik
  Di vision, model seperti itu efisien dalam menangkap konteks global dan lokal, jadi saya selalu penasaran bagaimana jika mencoba U-Net atau hourglass net pada data teks, tetapi belum pernah mencobanya sendiri
Bisakah ada yang menjelaskan bagaimana memasang watermark secara sukarela pada video AI membantu membuat AI lebih aman?
- Pihak yang menyediakan layanan pembuatan video AI dibuat bisa memasang watermark pada semua video yang mereka buat
  Jadi maksudnya bukan sukarela, melainkan diterapkan di tingkat layanan
  Pada akhirnya, yang bisa tersisa hanya layanan-layanan yang tidak mengikuti aturan Big Tech saat ini
  Misalnya seperti ketika kualitas Grok/X.ai lebih rendah, tetapi orang-orang memakai Grok/X.ai untuk membuat gambar pendukung Trump
  https://arstechnica.com/information-technology/2024/08/musks...
- Saat ini, kira-kira berapa biaya untuk melatih model?
  Dalam beberapa tahun ke depan sepertinya akan berada pada tingkat yang sanggup ditanggung negara-negara besar atau sebagian besar oligark, dan mungkin sekarang pun sudah begitu
  Jadi yang paling realistis tampaknya adalah semua orang memahami watermarking sebagai sesuatu yang sukarela
  Saat ini, menurut saya gambar dan video bahkan tidak bernilai sebesar nilai bit-nya sebagai bukti atas suatu fakta tertentu
Isinya luar biasa menarik
Semua orang membicarakan betapa menariknya hal-hal ini, terutama LCM dan tokenizer yang tidak melakukan tokenisasi, tetapi kalau ada yang mengikuti perkembangannya, saya ingin bertanya
Kenapa mereka memakai istilah “advanced machine intelligence”?
Pikiran pertama saya adalah apakah ini untuk menenangkan atau mengalihkan perhatian para doomer, tapi mungkin saya saja yang terlalu sadar diri
- Istilah ini berasal dari makalah Yann LeCun tahun 2022
  AMI adalah istilah yang dibedakan dari AGI
  Namun selama beberapa tahun terakhir, huruf A berubah-ubah sesuai konteks menjadi autonomous, advanced, atau augmented
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- LeCun tampaknya tidak menyukai istilah AGI
- Saya menunggu saat suatu hari nanti hal-hal ini disebut Minds :)
- Sepertinya ini respons terhadap hasil riset pasar terbaru yang menunjukkan bahwa masyarakat umum menganggap hal-hal yang diberi label “AI” umumnya terasa seperti penipuan dan sulit dipercaya
Meta jelas citranya membaik, dan mereka membantu AI menjadi teknologi tanpa moat
- Meta memang tidak menjual IaaS atau PaaS, tetapi jika AI masuk ke tangan lebih banyak pemain, bukan hanya Google dan OpenAI, kecocokan Meta akan meningkat
  Jika AI dijadikan komoditas umum, berbagai bisnis akan bermunculan, dan bisnis-bisnis itu akan menjangkau pelanggan melalui platform Meta
- Sebaik apa pun hal yang dilakukan dengan LLM, mereka tetap merusak masyarakat lewat Facebook
- Kalau terus melakukan dosa asal, itu bukanlah penebusan
Rasanya seperti mempelajari sekitar 10 struktur baru sekaligus

Meta FAIR Merilis 9 Riset, Model, dan Dataset Baru

Cakupan Rilis Meta FAIR

Meta Motivo: Model Dasar Perilaku untuk Kontrol Humanoid Virtual

Meta Video Seal: Watermarking Video Open Source

Panduan dan Codebase Flow Matching

Explore Theory-of-Mind: Pembuatan Data Penalaran Teori Pikiran

Large Concept Model: Memprediksi Konsep, Bukan Token

Dynamic Byte Latent Transformer: Model Level Byte Tanpa Tokenizer

Meta Memory Layers: Ekstensi Memori Sparse untuk Informasi Faktual

Image Diversity Modeling dan EvalGIM

Meta CLIP 1.2: Encoder Vision-Language dan Kurasi Data

Bacaan terkait

1 komentar

Opini Hacker News