Meta Merilis Segment Anything Model 2

(ai.meta.com)

2 poin oleh GN⁺ 2024-08-02 | 1 komentar | Bagikan ke WhatsApp

Segment Anything Model 2 (SAM 2) dari Meta FAIR adalah model segmentasi terpadu untuk memilih dan memisahkan objek dengan cepat pada gambar dan video
Pengguna dapat menentukan objek dengan memasukkan klik, kotak, atau mask sebagai prompt, lalu menyempurnakan prediksi mask dengan prompt tambahan
Pada video, modul memori per sesi mempertahankan informasi objek dari frame sebelumnya, sehingga pelacakan dapat terus berlanjut di seluruh frame meski objek sempat tertutup
SAM 2 meningkatkan segmentasi gambar dibanding SAM sebelumnya, dan pada segmentasi objek video terutama menekankan aspek pelacakan parsial serta waktu interaksi
Meta telah membuka model pralatih, kode, demo, dan dataset SA-V; SA-V mencakup sekitar 51 ribu video dan lebih dari 600 ribu masklet

Segmentasi yang Menangani Gambar dan Video Bersama-sama

SAM 2 adalah model terpadu pertama untuk melakukan segmentasi objek di seluruh gambar dan video
Pengguna dapat memilih objek dengan memasukkan klik, kotak, atau mask pada gambar maupun frame video
Pada video, pengguna dapat menentukan satu atau beberapa objek, dan memperhalus prediksi dengan prompt tambahan di frame mana pun
Dirancang untuk memberikan performa zero-shot yang kuat bahkan pada objek, gambar, dan video yang tidak terlihat selama pelatihan, sehingga dapat digunakan di berbagai aplikasi nyata
Memproses video secara efisien melalui inferensi streaming, serta mendukung aplikasi real-time dan interaktif

Performa dan Pengalaman Penggunaan Interaktif

SAM 2 dipresentasikan sebagai model yang berkinerja lebih baik daripada model-model terbaik di bidangnya untuk segmentasi objek pada video dan gambar
Poin performa utama
- Meningkat dibanding SAM sebelumnya pada segmentasi gambar
- Lebih unggul daripada model segmentasi objek video yang ada, terutama kuat dalam pelacakan parsial
- Membutuhkan waktu interaksi lebih sedikit dibanding metode segmentasi video interaktif yang ada
Dalam demo, hanya dengan satu klik pada satu frame, pengguna dapat melacak objek secara interaktif di seluruh video dan membuat efek
Demo tersedia di SAM 2 demo

Struktur Model untuk Pelacakan Video

Strukturnya memperluas kemampuan seleksi berbasis prompt milik SAM ke ranah video
Menambahkan modul memori per sesi yang menyimpan informasi objek target di dalam video
- Dapat melacak objek yang dipilih di seluruh frame video
- Memanfaatkan konteks dari frame sebelumnya meskipun objek sementara menghilang dari pandangan
Pengguna dapat memasukkan prompt tambahan di frame mana pun untuk menyempurnakan prediksi mask
Arsitektur streaming memproses frame video satu per satu
Saat diterapkan pada gambar, modul memori kosong, dan model berperilaku seperti SAM

Dataset SA-V

SAM 2 dilatih dengan video dan masklet berskala besar serta beragam
- Masklet berarti mask objek sepanjang waktu
- Data dibuat dengan menerapkan SAM 2 secara interaktif dalam data engine model-in-the-loop
Data pelatihan mencakup dataset SA-V yang dirilis sebagai open source
Angka utama dataset SA-V
- Mengumpulkan lebih dari 600 ribu masklet dari sekitar 51 ribu video
- Mencakup skenario nyata yang beragam secara geografis, dikumpulkan dari 47 negara
- Mencakup anotasi untuk objek utuh, bagian objek, dan situasi oklusi yang sulit
Untuk masalah atau pertanyaan terkait dataset SA-V, hubungi support@segment-anything.com
Dataset dapat dilihat di Explore the dataset

Sumber Daya yang Dirilis dan Potensi Pemanfaatan

Meta merilis model Segment Anything 2 pralatih, dataset SA-V, demo, dan kode agar komunitas riset dapat melanjutkan pekerjaan berikutnya
Bersama sumber daya yang dirilis, Meta menekankan hal-hal berikut
- Memberikan transparansi tentang data pelatihan SAM 2
- Mengutamakan keragaman geografis dataset SA-V untuk merepresentasikan dunia nyata
- Melakukan evaluasi fairness terhadap SAM 2
Model dan kode dapat diperoleh di Download the model
Makalah riset dapat dilihat di Read the research paper
SAM 2 dapat digunakan secara mandiri, atau sebagai bagian dari sistem yang lebih besar dengan dikombinasikan bersama model lain di masa depan
- Output segmentasi objek video dapat digunakan sebagai input untuk sistem AI lain seperti model generasi video mutakhir, sehingga memungkinkan kemampuan penyuntingan yang presisi
- Ke depannya, dapat diperluas ke jenis prompt input lain untuk mendukung cara-cara kreatif berinteraksi dengan objek pada video real-time atau live

1 komentar

GN⁺ 2024-08-02

Pendapat Hacker News

Meta benar-benar melakukannya dengan baik. Google tampak tertinggal dalam riset AI dan hasil-hasil berguna yang dibagikan ke komunitas
Saya yakin Llama dan proyek-proyek lain akan mendorong lahirnya karya baru, perusahaan baru, dan kemajuan baru. Cara mereka membagikan kode dan riset secara terbuka pada akhirnya juga akan kembali menjadi nilai bisnis bagi Meta
Di sinilah terlihat perbedaan antara perusahaan yang dipimpin pendiri dan perusahaan yang terseret pasar. Google tampaknya lebih peduli pada target jangka pendek seperti menghindari kinerja kuartalan yang buruk, atau menghindari belanja modal besar untuk proyek yang belum terlihat menghasilkan uang dalam waktu dekat seperti VR
Begitu Meta menemukan killer app untuk VR, perusahaan lain bisa jadi sudah terlalu tertinggal dan harus membeli software dari Meta, atau hampir tidak kebagian pangsa pasar baru. Mirip seperti Nvidia yang unggul lebih dulu di chip AI; ini adalah area yang tidak cukup diinvestasikan oleh siapa pun
- Google masih unggul dalam riset AI. Itu justru hampir kebalikan dari bergerak jangka pendek, dan alasan mengapa tidak terlihat begitu mungkin karena banyak pekerjaannya berupa riset dasar, terkait kimia dan fisika, atau berada di area yang tidak dipublikasikan seperti Facebook
  Namun mereka tertinggal dalam mengubah riset menjadi produk. Sejauh ini, mereka tampak hanya melakukan upaya minimal untuk memindahkan model yang telah dilatih ke produk
- Saya tidak tahu pasti, tapi mungkin perbedaannya seperti ini. Meta bisa mencoba berbagai hal lalu nanti menemukan killer application
  Sebaliknya, Google secara eksistensial merasa bahwa pencarian harus menjadi killer application, dan mencoba memaksakan semuanya masuk ke sana. Akibatnya mereka tampak menetapkan standar keberhasilan terlalu tinggi dan mengabaikan posisi sebenarnya dari kemampuan teknologinya
- Saya tidak tahu apa yang Meta lakukan dengan begitu baik. Integrasi AI di WhatsApp atau Instagram hampir tidak berguna, dan terasa seperti disisipkan untuk menipu pasar agar Meta terlihat seperti perusahaan AI
  Menurut saya Zuckerberg termasuk CEO yang paling kurang imajinatif. Meta hampir tidak punya produk orisinal selain perangkat Portal, dan sebagian besar produknya adalah hasil akuisisi. Ini perusahaan yang sangat lemah dalam inovasi
  Zuckerberg memang tampak menjalankan kampanye PR untuk memperbaiki citra, tetapi Facebook tetaplah perusahaan mencurigakan yang dijalankan oleh orang mencurigakan, dan inti busuknya belum berubah. Baru minggu ini pun mereka didenda miliaran dolar di Texas
  Meta jauh dari “perusahaan yang dipimpin pendiri”. Para pendiri aplikasi yang dibeli segera pergi, lalu aplikasi itu dijalankan oleh sosok bergaya konsultan manajemen seperti Adam Mosseri
  Menyedihkan bahwa masih ada orang yang percaya pada pertaruhan metaverse yang dilempar Zuckerberg agar Meta terlihat seperti perusahaan inovatif di tengah melambatnya pertumbuhan pengguna. Saya masih tidak paham mengapa penipuan metaverse itu bukan pelanggaran SEC
- Dibilang “perbedaan antara perusahaan yang dipimpin pendiri dan perusahaan yang digerakkan pasar”, tapi saya ragu apakah memang sebegitu berbeda
  Facebook mencoba melempar hal-hal mahal yang jalur monetisasinya tidak jelas seperti Llama. Google juga pernah melempar hal-hal mahal yang jalur monetisasinya tidak jelas seperti Waymo, Google Glass, Google Fiber, Stadia, dan hal-hal yang ada di https://killedbygoogle.com
  Facebook pernah mengubah besar-besaran arah seluruh perusahaan demi visi bernama metaverse lalu gagal, dan Google pernah mengubah besar-besaran arah seluruh perusahaan demi visi bernama Google Plus lalu gagal
  Facebook mengganti nama menjadi Meta, dan Google mengganti nama menjadi Alphabet
  Facebook punya organisasi riset AI yang didirikan oleh profesor ilmu komputer Prancis-Amerika peraih Turing Award, dan Google punya organisasi riset AI yang didirikan oleh profesor ilmu komputer Inggris-Kanada peraih Turing Award
  Facebook merilis library machine learning Python open source yang banyak digunakan dan bernama camelCase, yaitu PyTorch, sementara Google merilis library machine learning Python open source yang banyak digunakan dan bernama camelCase, yaitu TensorFlow
  Mungkin keduanya mengikuti playbook yang sama, dan belakangan ini taruhan Facebook kebetulan berhasil
- Tidak semua pendiri itu sama. Ada pendiri yang sangat tidak suka harga saham turun, meski tidak sedang butuh uang segera
  Dan hasilnya campur aduk. Secara pribadi, menurut saya Zuckerberg salah soal VR, tetapi benar soal AI
Diskusi sebelumnya: https://news.ycombinator.com/item?id=41104523
- Mengejutkan bahwa berita besar seperti ini menghilang dari halaman depan begitu cepat. Hacker News sepertinya dioptimalkan untuk orang-orang yang mengecek situs itu beberapa kali sehari
Kalau 10 tahun lalu ada yang bilang Facebook akan menjadi salah satu perusahaan yang paling terbuka dalam berinovasi dan Mark Zuckerberg akan menjadi salah satu miliarder yang relatif waras, saya pasti akan menertawakannya
Tapi sekarang situasinya berbeda. Terlepas dari seberapa sukses upaya VR dan AI mereka nantinya, tampaknya mereka sudah akan meninggalkan jejak tertentu dalam sejarah
- Agar adil, Meta punya sejarah yang cukup panjang dalam merilis software internal sebagai open source dan membuatnya menjadi standar industri. Ini sama sekali bukan hal baru
  Terutama di teknologi database; rocksdb, zstd compression, presto, Cassandra, Hive, Velox semuanya dibuat oleh Meta
  Itu baru yang populer, dan masih jauh lebih banyak proyek terkait database yang mereka buka tetapi tidak menjadi sangat terkenal
  Sebagai perusahaan memang banyak hal yang bisa dikeluhkan, tetapi mereka selalu menjadi kontributor besar bagi ekosistem open source
- Saya suka Oculus, tetapi VR belum mencapai universalitas budaya
Hal seperti ini selalu mengingatkan saya pada UI peta orbit hologram di The Expanse
Rasanya seperti kertas masa depan yang akan terhubung dengan semua hal yang kita pikirkan, dan bisa menjadi alat yang sangat kuat untuk menjelajahi dunia
Saat dulu bekerja di bidang editing dan motion graphics, saya pasti sangat menginginkan sesuatu seperti ini
Roto Brush di After Effects juga mirip, tetapi kualitasnya selalu kurang dan waktu pemrosesannya terlalu lama
- Roto Brush di After Effects adalah alat penyelamat, tetapi ada batasannya. SAM jelas merupakan alat yang mengubah permainan
Disebutkan bahwa kodenya dirilis, tetapi saya tidak bisa menemukan selain kode contoh. Apakah kode pelatihan juga dirilis?
- Repositori yang dimaksud saat mengatakan “model dan kode Segment Anything 2 yang sudah dilatih sebelumnya dirilis” tampaknya ini: https://github.com/facebookresearch/segment-anything-2
Hasilnya mengesankan. Ini video pengujian yang direkam di dalam Mercer Labs: https://youtu.be/W7kM0ISXkpQ?feature=shared
- Saya tidak tahu apa yang sedang saya lihat, dan bagaimana ini terkait dengan SAM2
Firefox tampaknya tidak didukung
Kita juga harus berterima kasih kepada ribuan pekerja Afrika yang telah melakukan pekerjaan dataset yang membosankan dan berulang

Meta Merilis Segment Anything Model 2

Segmentasi yang Menangani Gambar dan Video Bersama-sama

Performa dan Pengalaman Penggunaan Interaktif

Struktur Model untuk Pelacakan Video

Dataset SA-V

Sumber Daya yang Dirilis dan Potensi Pemanfaatan

Bacaan terkait

1 komentar

Pendapat Hacker News