7 poin oleh GN⁺ 2025-11-20 | Belum ada komentar. | Bagikan ke WhatsApp
  • Meta merilis SAM 3, yang dapat menemukan, mensegmentasi, dan melacak objek yang diinginkan di gambar dan video menggunakan teks, gambar contoh, dan prompt visual
  • Menyediakan lingkungan agar siapa pun bisa bereksperimen dengan mudah melalui Segment Anything Playground, beserta checkpoint model, dataset evaluasi, dan kode fine-tuning
  • Memperluas ekosistem segmentasi konsep yang mencakup 2D dan 3D lewat benchmark segmentasi konsep skala besar baru bernama SA-Co dan peluncuran SAM 3D
  • Fitur pembuatan dan pengeditan media baru berbasis segmentasi objek sedang diterapkan di berbagai layanan Meta seperti Marketplace, Instagram Edits, dan Meta AI
  • Sebagai model yang mengintegrasikan segmentasi konsep berbasis teks dan contoh, potensinya makin besar untuk digunakan sebagai alat berbasis persepsi serbaguna di berbagai bidang seperti riset, industri, konservasi, dan robotika

Gambaran umum SAM 3

  • Ini adalah model terpadu yang menerima berbagai prompt seperti teks, contoh gambar, mask, box, dan point untuk mendeteksi, mensegmentasi, dan melacak konsep di gambar maupun video
    • Mendukung segmentasi open-vocabulary berbasis frasa nomina pendek secara bawaan
    • Prompt kompleks seperti “people sitting down but not holding a gift box” dapat diproses dengan menggabungkannya dengan MLLM
  • Melampaui keterbatasan SAM sebelumnya yang terikat pada set label tetap, dan diperluas menjadi segmentasi konsep arbitrer yang dapat diprompt
  • Mengukur performa pengenalan konsep skala besar pada gambar dan video dengan benchmark baru SA-Co (Segment Anything with Concepts)

Fitur utama

  • Mendukung deteksi konsep berbasis prompt teks dan segmentasi semua instance
    • Dapat menangani deskripsi rinci seperti “striped red umbrella”
  • Konsep dapat didefinisikan berdasarkan objek nyata melalui contoh gambar (exemplar)
  • Tetap mempertahankan prompt box/point/mask yang disediakan di SAM 1·2
  • Memanfaatkan MLLM seperti alat untuk melakukan eksplorasi iteratif terhadap kueri kompleks (SAM 3 Agent)

Data engine

  • Membangun pipeline pembuatan data hibrida yang menggabungkan SAM 3 + manusia + AI annotator (berbasis Llama 3.2v)
    • Captioning otomatis → pembuatan label teks → pembuatan mask awal → verifikasi AI/manusia
    • 5x lebih cepat pada prompt negatif (konsep yang tidak ada), dan peningkatan kecepatan 36% juga pada prompt positif
  • Membangun set pelatihan skala besar yang mencakup lebih dari 4 juta konsep unik
  • Memperluas cakupan konsep langka dengan ontologi konsep berbasis wiki

Arsitektur model

  • Encoder teks/gambar berbasis Meta Perception Encoder
  • Untuk deteksi objek menggunakan DETR, sedangkan pelacakan memanfaatkan konfigurasi memory bank + tracker dari SAM 2
  • Kuncinya adalah merancang recipe pelatihan pencegahan konflik agar beberapa tugas (deteksi, pelacakan, segmentasi) bisa dijalankan dalam satu model

Performa

  • cgF1 meningkat 2x dibanding model sebelumnya pada gambar dan video
  • Menunjukkan hasil yang unggul dibanding model khusus seperti Gemini 2.5 Pro, GLEE, OWLv2, dan LLMDet
  • Dalam evaluasi preferensi pengguna, hasil SAM 3 unggul dengan rasio 3:1
  • 30ms untuk satu gambar, dan pada video hampir real-time untuk 5 objek
  • Peningkatan performa juga dikonfirmasi pada zero-shot LVIS dan CountBench

Kasus ilmiah dan penggunaan nyata

  • SA-FARI: dataset terbuka yang mencakup lebih dari 100 spesies dan lebih dari 10 ribu video camera trap satwa liar
  • FathomNet: menyediakan benchmark baru untuk segmentasi instance organisme laut
  • Marketplace “View in Room”: visualisasi penataan interior seperti pencahayaan dan furnitur diimplementasikan dengan SAM 3 dan SAM 3D
  • Di Instagram Edits, aplikasi Meta AI, dan meta.ai, fitur penerapan efek video berbasis objek akan hadir

SAM 3D

  • Merilis model, kode, dan data untuk rekonstruksi objek dan manusia 3D dari satu gambar
  • Menyediakan grounded reconstruction yang mempertimbangkan konteks ruang nyata

Keterbatasan dan tugas ke depan

  • Generalisasi zero-shot untuk konsep domain khusus yang sangat detail (misalnya platelet) masih terbatas
    • Namun dapat beradaptasi cepat jika di-fine-tune dengan sedikit data
    • Menyediakan recipe fine-tuning open source
  • Kalimat pendek didukung secara bawaan, tetapi deskripsi kompleks seperti “top shelf second to last book” memerlukan kombinasi dengan MLLM
  • Pada video, biaya pemrosesan meningkat secara linear seiring bertambahnya jumlah objek
    • Berbagi informasi relasi antarobjek menjadi titik peningkatan ke depan

Segment Anything Playground

  • Platform berbasis web untuk mencoba SAM 3 tanpa pengetahuan teknis
    • Menyediakan template seperti pixelation wajah/plat nomor/piksel layar, spotlight, motion trail, dan pembesaran objek tertentu
    • Juga dapat digunakan untuk anotasi data dan stress test
  • Menyediakan segmentasi dan pelacakan yang stabil bahkan pada video sudut pandang orang pertama dari wearable Aria Gen 2
    • Dapat dimanfaatkan untuk riset robotika dan persepsi berbasis sudut pandang manusia

Belum ada komentar.

Belum ada komentar.