2 poin oleh GN⁺ 2024-08-02 | Belum ada komentar. | Bagikan ke WhatsApp

Pengenalan Meta Segment Anything Model 2 (SAM 2)

Fitur utama

  • Segmentasi objek di semua video dan gambar

    • SAM 2 adalah model terpadu pertama yang melakukan segmentasi objek pada gambar dan video
    • Objek dapat dipilih pada gambar atau frame video menggunakan klik, kotak, dan mask sebagai input
  • Pemilihan dan penyesuaian objek antar frame video

    • Dengan SAM 2, satu atau beberapa objek dapat dipilih pada frame video
    • Prediksi model dapat disesuaikan secara halus menggunakan prompt tambahan
  • Performa segmentasi yang kuat bahkan pada video yang belum pernah dilihat

    • SAM 2 menunjukkan performa zero-shot yang kuat bahkan pada objek, gambar, dan video yang tidak pernah dilihat selama pelatihan model
    • Dapat digunakan dalam berbagai aplikasi dunia nyata
  • Interaksi dan hasil secara real-time

    • SAM 2 memungkinkan aplikasi interaktif real-time melalui streaming inference
  • Performa segmentasi objek terdepan

    • SAM 2 menunjukkan performa yang melampaui model terbaik untuk segmentasi objek pada video dan gambar

Sorotan

  • Performa lebih baik daripada SAM pada segmentasi gambar
  • Performa lebih unggul daripada model segmentasi objek video yang ada, terutama dalam pelacakan bagian
  • Membutuhkan waktu interaksi yang lebih singkat dibanding metode segmentasi video interaktif yang ada

Coba langsung

  • Anda dapat melacak objek dengan satu klik pada satu frame video dan membuat efek yang menarik
  • Coba demo

Arsitektur model

  • Desain Meta Segment Anything Model 2
    • Model SAM 2 diperluas ke domain video dengan menambahkan modul memori per sesi
    • Modul ini menangkap informasi tentang objek target dalam video sehingga objek dapat dilacak di semua frame video meskipun sementara tidak terlihat
    • Juga mendukung kemampuan untuk merevisi prediksi mask berdasarkan prompt tambahan
    • Arsitektur streaming SAM 2 memproses frame video satu per satu sehingga dapat digeneralisasikan secara alami ke domain video

Segment Anything Video Dataset

  • Dataset segmentasi video yang besar dan beragam

    • SAM 2 dilatih pada kumpulan video dan masklet yang besar dan beragam (mask objek sepanjang waktu)
    • Data pelatihan mencakup dataset SA-V yang bersumber terbuka
  • Sorotan

    • Mengumpulkan lebih dari sekitar 600.000 masklet dari sekitar 51.000 video
    • Skenario dunia nyata yang beragam secara geografis di 47 negara
    • Anotasi yang mencakup objek utuh, bagian, dan kondisi occlusion yang menantang

Rilis penelitian

  • Inovasi terbuka

    • Model Segment Anything 2 yang sudah dipra-latih, dataset SA-V, demo, dan kode dirilis agar komunitas riset dapat membangun berdasarkan pekerjaan ini
  • Sorotan

    • Menyediakan transparansi atas data pelatihan SAM 2
    • Memprioritaskan keragaman geografis dataset SA-V untuk merepresentasikan dunia nyata
    • Melakukan evaluasi fairness untuk SAM 2

Potensi aplikasi model

  • Output yang dapat diskalakan

    • Output segmentasi objek video dari SAM 2 dapat digunakan sebagai input bagi sistem AI lain seperti model generasi video modern
  • Input yang dapat diskalakan

    • SAM 2 dapat menerima jenis prompt input lain yang memungkinkan cara-cara kreatif untuk berinteraksi dengan objek pada video real-time atau live

Jelajahi sumber daya tambahan

Ringkasan GN⁺

  • SAM 2 adalah model terpadu untuk segmentasi objek pada gambar dan video, dengan dukungan interaksi real-time serta performa zero-shot yang kuat
  • Model ini dirancang untuk digunakan dalam berbagai skenario dunia nyata dan disertai dataset serta kode yang dibuka untuk komunitas riset
  • Dalam pelacakan dan segmentasi objek video, performanya melampaui model yang ada dan memberikan akurasi tinggi dengan waktu interaksi yang lebih singkat
  • SAM 2 dapat dipadukan dengan sistem AI lain seperti model generasi video untuk memungkinkan pengalaman baru

Belum ada komentar.

Belum ada komentar.