Meta memperkenalkan Segment Anything Model 2
(ai.meta.com)Pengenalan Meta Segment Anything Model 2 (SAM 2)
Fitur utama
-
Segmentasi objek di semua video dan gambar
- SAM 2 adalah model terpadu pertama yang melakukan segmentasi objek pada gambar dan video
- Objek dapat dipilih pada gambar atau frame video menggunakan klik, kotak, dan mask sebagai input
-
Pemilihan dan penyesuaian objek antar frame video
- Dengan SAM 2, satu atau beberapa objek dapat dipilih pada frame video
- Prediksi model dapat disesuaikan secara halus menggunakan prompt tambahan
-
Performa segmentasi yang kuat bahkan pada video yang belum pernah dilihat
- SAM 2 menunjukkan performa zero-shot yang kuat bahkan pada objek, gambar, dan video yang tidak pernah dilihat selama pelatihan model
- Dapat digunakan dalam berbagai aplikasi dunia nyata
-
Interaksi dan hasil secara real-time
- SAM 2 memungkinkan aplikasi interaktif real-time melalui streaming inference
-
Performa segmentasi objek terdepan
- SAM 2 menunjukkan performa yang melampaui model terbaik untuk segmentasi objek pada video dan gambar
Sorotan
- Performa lebih baik daripada SAM pada segmentasi gambar
- Performa lebih unggul daripada model segmentasi objek video yang ada, terutama dalam pelacakan bagian
- Membutuhkan waktu interaksi yang lebih singkat dibanding metode segmentasi video interaktif yang ada
Coba langsung
- Anda dapat melacak objek dengan satu klik pada satu frame video dan membuat efek yang menarik
- Coba demo
Arsitektur model
- Desain Meta Segment Anything Model 2
- Model SAM 2 diperluas ke domain video dengan menambahkan modul memori per sesi
- Modul ini menangkap informasi tentang objek target dalam video sehingga objek dapat dilacak di semua frame video meskipun sementara tidak terlihat
- Juga mendukung kemampuan untuk merevisi prediksi mask berdasarkan prompt tambahan
- Arsitektur streaming SAM 2 memproses frame video satu per satu sehingga dapat digeneralisasikan secara alami ke domain video
Segment Anything Video Dataset
-
Dataset segmentasi video yang besar dan beragam
- SAM 2 dilatih pada kumpulan video dan masklet yang besar dan beragam (mask objek sepanjang waktu)
- Data pelatihan mencakup dataset SA-V yang bersumber terbuka
-
Sorotan
- Mengumpulkan lebih dari sekitar 600.000 masklet dari sekitar 51.000 video
- Skenario dunia nyata yang beragam secara geografis di 47 negara
- Anotasi yang mencakup objek utuh, bagian, dan kondisi occlusion yang menantang
Rilis penelitian
-
Inovasi terbuka
- Model Segment Anything 2 yang sudah dipra-latih, dataset SA-V, demo, dan kode dirilis agar komunitas riset dapat membangun berdasarkan pekerjaan ini
-
Sorotan
- Menyediakan transparansi atas data pelatihan SAM 2
- Memprioritaskan keragaman geografis dataset SA-V untuk merepresentasikan dunia nyata
- Melakukan evaluasi fairness untuk SAM 2
Potensi aplikasi model
-
Output yang dapat diskalakan
- Output segmentasi objek video dari SAM 2 dapat digunakan sebagai input bagi sistem AI lain seperti model generasi video modern
-
Input yang dapat diskalakan
- SAM 2 dapat menerima jenis prompt input lain yang memungkinkan cara-cara kreatif untuk berinteraksi dengan objek pada video real-time atau live
Jelajahi sumber daya tambahan
Ringkasan GN⁺
- SAM 2 adalah model terpadu untuk segmentasi objek pada gambar dan video, dengan dukungan interaksi real-time serta performa zero-shot yang kuat
- Model ini dirancang untuk digunakan dalam berbagai skenario dunia nyata dan disertai dataset serta kode yang dibuka untuk komunitas riset
- Dalam pelacakan dan segmentasi objek video, performanya melampaui model yang ada dan memberikan akurasi tinggi dengan waktu interaksi yang lebih singkat
- SAM 2 dapat dipadukan dengan sistem AI lain seperti model generasi video untuk memungkinkan pengalaman baru
Belum ada komentar.