Meta merilis Segment Anything Model 3 (SAM 3)
(ai.meta.com)- Meta merilis SAM 3, yang dapat menemukan, mensegmentasi, dan melacak objek yang diinginkan di gambar dan video menggunakan teks, gambar contoh, dan prompt visual
- Menyediakan lingkungan agar siapa pun bisa bereksperimen dengan mudah melalui Segment Anything Playground, beserta checkpoint model, dataset evaluasi, dan kode fine-tuning
- Memperluas ekosistem segmentasi konsep yang mencakup 2D dan 3D lewat benchmark segmentasi konsep skala besar baru bernama SA-Co dan peluncuran SAM 3D
- Fitur pembuatan dan pengeditan media baru berbasis segmentasi objek sedang diterapkan di berbagai layanan Meta seperti Marketplace, Instagram Edits, dan Meta AI
- Sebagai model yang mengintegrasikan segmentasi konsep berbasis teks dan contoh, potensinya makin besar untuk digunakan sebagai alat berbasis persepsi serbaguna di berbagai bidang seperti riset, industri, konservasi, dan robotika
Gambaran umum SAM 3
- Ini adalah model terpadu yang menerima berbagai prompt seperti teks, contoh gambar, mask, box, dan point untuk mendeteksi, mensegmentasi, dan melacak konsep di gambar maupun video
- Mendukung segmentasi open-vocabulary berbasis frasa nomina pendek secara bawaan
- Prompt kompleks seperti “people sitting down but not holding a gift box” dapat diproses dengan menggabungkannya dengan MLLM
- Melampaui keterbatasan SAM sebelumnya yang terikat pada set label tetap, dan diperluas menjadi segmentasi konsep arbitrer yang dapat diprompt
- Mengukur performa pengenalan konsep skala besar pada gambar dan video dengan benchmark baru SA-Co (Segment Anything with Concepts)
Fitur utama
- Mendukung deteksi konsep berbasis prompt teks dan segmentasi semua instance
- Dapat menangani deskripsi rinci seperti “striped red umbrella”
- Konsep dapat didefinisikan berdasarkan objek nyata melalui contoh gambar (exemplar)
- Tetap mempertahankan prompt box/point/mask yang disediakan di SAM 1·2
- Memanfaatkan MLLM seperti alat untuk melakukan eksplorasi iteratif terhadap kueri kompleks (SAM 3 Agent)
Data engine
- Membangun pipeline pembuatan data hibrida yang menggabungkan SAM 3 + manusia + AI annotator (berbasis Llama 3.2v)
- Captioning otomatis → pembuatan label teks → pembuatan mask awal → verifikasi AI/manusia
- 5x lebih cepat pada prompt negatif (konsep yang tidak ada), dan peningkatan kecepatan 36% juga pada prompt positif
- Membangun set pelatihan skala besar yang mencakup lebih dari 4 juta konsep unik
- Memperluas cakupan konsep langka dengan ontologi konsep berbasis wiki
Arsitektur model
- Encoder teks/gambar berbasis Meta Perception Encoder
- Untuk deteksi objek menggunakan DETR, sedangkan pelacakan memanfaatkan konfigurasi memory bank + tracker dari SAM 2
- Kuncinya adalah merancang recipe pelatihan pencegahan konflik agar beberapa tugas (deteksi, pelacakan, segmentasi) bisa dijalankan dalam satu model
Performa
- cgF1 meningkat 2x dibanding model sebelumnya pada gambar dan video
- Menunjukkan hasil yang unggul dibanding model khusus seperti Gemini 2.5 Pro, GLEE, OWLv2, dan LLMDet
- Dalam evaluasi preferensi pengguna, hasil SAM 3 unggul dengan rasio 3:1
- 30ms untuk satu gambar, dan pada video hampir real-time untuk 5 objek
- Peningkatan performa juga dikonfirmasi pada zero-shot LVIS dan CountBench
Kasus ilmiah dan penggunaan nyata
- SA-FARI: dataset terbuka yang mencakup lebih dari 100 spesies dan lebih dari 10 ribu video camera trap satwa liar
- FathomNet: menyediakan benchmark baru untuk segmentasi instance organisme laut
- Marketplace “View in Room”: visualisasi penataan interior seperti pencahayaan dan furnitur diimplementasikan dengan SAM 3 dan SAM 3D
- Di Instagram Edits, aplikasi Meta AI, dan meta.ai, fitur penerapan efek video berbasis objek akan hadir
SAM 3D
- Merilis model, kode, dan data untuk rekonstruksi objek dan manusia 3D dari satu gambar
- Menyediakan grounded reconstruction yang mempertimbangkan konteks ruang nyata
Keterbatasan dan tugas ke depan
- Generalisasi zero-shot untuk konsep domain khusus yang sangat detail (misalnya platelet) masih terbatas
- Namun dapat beradaptasi cepat jika di-fine-tune dengan sedikit data
- Menyediakan recipe fine-tuning open source
- Kalimat pendek didukung secara bawaan, tetapi deskripsi kompleks seperti “top shelf second to last book” memerlukan kombinasi dengan MLLM
- Pada video, biaya pemrosesan meningkat secara linear seiring bertambahnya jumlah objek
- Berbagi informasi relasi antarobjek menjadi titik peningkatan ke depan
Segment Anything Playground
- Platform berbasis web untuk mencoba SAM 3 tanpa pengetahuan teknis
- Menyediakan template seperti pixelation wajah/plat nomor/piksel layar, spotlight, motion trail, dan pembesaran objek tertentu
- Juga dapat digunakan untuk anotasi data dan stress test
- Menyediakan segmentasi dan pelacakan yang stabil bahkan pada video sudut pandang orang pertama dari wearable Aria Gen 2
- Dapat dimanfaatkan untuk riset robotika dan persepsi berbasis sudut pandang manusia
1 komentar
Komentar Hacker News
Terima kasih karena Meta masih berkontribusi pada open source dan merilis model seperti ini
Saya tahu ada pandangan kritis terhadap perusahaan ini, tetapi tindakan seperti ini menguntungkan semua orang
Sekarang sepertinya sudah banyak berubah ke arah yang lebih berpusat pada komunitas
Lab riset besar lain tidak merilis model dengan cara seperti ini
Kesan pertama setelah mencobanya, model ini sangat luar biasa
Deteksi berbasis teks “zero-shot” jauh melampaui model generasi sebelumnya maupun VLM terbaru seperti Gemini dan Qwen
Dengan pengawasan manusia, sepertinya model ini juga cukup layak dipakai sebagai model guru
Dulu saya pernah menyesuaikan YOLO untuk mendeteksi climbing hold, dan SAM3 mencapai sekitar 90% dari hasil itu tanpa pelatihan
Tetapi model ini masih melewatkan hold kayu berkontras rendah atau foothold kecil
Sekarang strukturnya sedang berubah: bukan lagi manusia yang membantu model, tetapi model yang membantu manusia
Tulisan terkait bisa dibaca di blog Roboflow
Generator mesh 3D-nya juga benar-benar keren
Dari demo SAM3D, model ini menangani pemisahan objek yang terhalang seperti orang yang duduk di kursi dengan baik, dan juga cepat
Saya cuma bisa mendapatkan videonya, jadi saya penasaran apakah harus membeli token
Use case saya adalah pelacakan pola pada papan sirkuit, dan model ini masih lemah di bagian itu
Model ini bagus untuk gambar seperti kuda di pantai, tetapi kurang cocok untuk data industri
Sepertinya akan membaik kalau di-fine-tune, tetapi saya belum mencobanya
Saya mencoba SAM3 untuk menghapus latar belakang pada gambar anak-anak
(pengenalan proyek terkait)
Tetapi BiRefNet v2 masih bekerja sedikit lebih akurat
SAM3 agak kurang presisi saat memotong mengikuti garis, dan sebagian area putih kertas masih tersisa
Meski begitu, SAM3 bukan cuma untuk penghapusan latar belakang sederhana, karena ia punya kemampuan mengenali makna gambar
Sepertinya gambar yang dibuat anak-anak bisa dikenali lalu dihubungkan ke aksi di dalam game
Menurut Anda, apakah itu model dengan performa terbaik saat ini? Saya juga penasaran dengan alternatif lain
Senang melihat ada penandaan seperti “Core contributor (Alphabetical, Equal Contribution)” di daftar penulis makalah
Penulisan kesetaraan kontribusi itu sangat berkesan
Dalam 5 tahun terakhir, laju kemajuan computer vision terasa lambat
Pemahaman bahasa sudah mendekati tingkat manusia berkat LLM, tetapi visi masih tertinggal
Segmentasi objek atau generalisasi pada citra ilmiah masih sulit, dan terasa seperti ada sesuatu yang kurang meski datanya cukup
Mungkin kita butuh agensi dalam lingkungan 3D atau sinyal pembelajaran yang lebih kaya
Manusia tidak menilai hanya dari informasi visual, tetapi melengkapinya lewat konteks dan pengalaman
Misalnya, saat melihat siluet gelap di jalan pada malam hari, kita bisa menyimpulkan apakah itu kuda atau pagar dari pengalaman sebelumnya atau informasi sekitar
Penalaran kontekstual seperti ini masih belum ada pada model saat ini
Bidang saya adalah segmentasi volume 3D untuk pencitraan medis
Saya pernah mencoba SAM2 dengan pendekatan slice 2D, tetapi hasilnya kurang kompetitif dibanding standar saat ini, nnUNet
Tetapi saya rasa gabungan LLM + VLM bisa menjadi arah baru
Saya benar-benar menguji demo ini, dan hasilnya bekerja cukup baik
SAM3 adalah model yang keren
Sekarang model ini sudah bisa digunakan dengan cara yang lebih interaktif di chat.vlm.run, dan
bisa digabungkan dengan SAM serta model visi lain di atas model Orion baru dari tim kami
Fitur segmentasi dan pelacakan video juga akan segera ditambahkan
contoh hasil
Saya rasa ini masih sulit untuk video real-time karena latensi rata-rata 4 detik
(sumbernya bisa dilihat di tulisan terkait di roboflow.com)
Menurut blog tersebut, pada GPU H200 hanya butuh 30ms untuk memproses satu gambar yang berisi lebih dari 100 objek