Meta merilis Segment Anything Model 3 (SAM 3)

(ai.meta.com)

7 poin oleh GN⁺ 2025-11-20 | 1 komentar | Bagikan ke WhatsApp

Meta merilis SAM 3, yang dapat menemukan, mensegmentasi, dan melacak objek yang diinginkan di gambar dan video menggunakan teks, gambar contoh, dan prompt visual
Menyediakan lingkungan agar siapa pun bisa bereksperimen dengan mudah melalui Segment Anything Playground, beserta checkpoint model, dataset evaluasi, dan kode fine-tuning
Memperluas ekosistem segmentasi konsep yang mencakup 2D dan 3D lewat benchmark segmentasi konsep skala besar baru bernama SA-Co dan peluncuran SAM 3D
Fitur pembuatan dan pengeditan media baru berbasis segmentasi objek sedang diterapkan di berbagai layanan Meta seperti Marketplace, Instagram Edits, dan Meta AI
Sebagai model yang mengintegrasikan segmentasi konsep berbasis teks dan contoh, potensinya makin besar untuk digunakan sebagai alat berbasis persepsi serbaguna di berbagai bidang seperti riset, industri, konservasi, dan robotika

Gambaran umum SAM 3

Ini adalah model terpadu yang menerima berbagai prompt seperti teks, contoh gambar, mask, box, dan point untuk mendeteksi, mensegmentasi, dan melacak konsep di gambar maupun video
- Mendukung segmentasi open-vocabulary berbasis frasa nomina pendek secara bawaan
- Prompt kompleks seperti “people sitting down but not holding a gift box” dapat diproses dengan menggabungkannya dengan MLLM
Melampaui keterbatasan SAM sebelumnya yang terikat pada set label tetap, dan diperluas menjadi segmentasi konsep arbitrer yang dapat diprompt
Mengukur performa pengenalan konsep skala besar pada gambar dan video dengan benchmark baru SA-Co (Segment Anything with Concepts)

Fitur utama

Mendukung deteksi konsep berbasis prompt teks dan segmentasi semua instance
- Dapat menangani deskripsi rinci seperti “striped red umbrella”
Konsep dapat didefinisikan berdasarkan objek nyata melalui contoh gambar (exemplar)
Tetap mempertahankan prompt box/point/mask yang disediakan di SAM 1·2
Memanfaatkan MLLM seperti alat untuk melakukan eksplorasi iteratif terhadap kueri kompleks (SAM 3 Agent)

Data engine

Membangun pipeline pembuatan data hibrida yang menggabungkan SAM 3 + manusia + AI annotator (berbasis Llama 3.2v)
- Captioning otomatis → pembuatan label teks → pembuatan mask awal → verifikasi AI/manusia
- 5x lebih cepat pada prompt negatif (konsep yang tidak ada), dan peningkatan kecepatan 36% juga pada prompt positif
Membangun set pelatihan skala besar yang mencakup lebih dari 4 juta konsep unik
Memperluas cakupan konsep langka dengan ontologi konsep berbasis wiki

Arsitektur model

Encoder teks/gambar berbasis Meta Perception Encoder
Untuk deteksi objek menggunakan DETR, sedangkan pelacakan memanfaatkan konfigurasi memory bank + tracker dari SAM 2
Kuncinya adalah merancang recipe pelatihan pencegahan konflik agar beberapa tugas (deteksi, pelacakan, segmentasi) bisa dijalankan dalam satu model

Performa

cgF1 meningkat 2x dibanding model sebelumnya pada gambar dan video
Menunjukkan hasil yang unggul dibanding model khusus seperti Gemini 2.5 Pro, GLEE, OWLv2, dan LLMDet
Dalam evaluasi preferensi pengguna, hasil SAM 3 unggul dengan rasio 3:1
30ms untuk satu gambar, dan pada video hampir real-time untuk 5 objek
Peningkatan performa juga dikonfirmasi pada zero-shot LVIS dan CountBench

Kasus ilmiah dan penggunaan nyata

SA-FARI: dataset terbuka yang mencakup lebih dari 100 spesies dan lebih dari 10 ribu video camera trap satwa liar
FathomNet: menyediakan benchmark baru untuk segmentasi instance organisme laut
Marketplace “View in Room”: visualisasi penataan interior seperti pencahayaan dan furnitur diimplementasikan dengan SAM 3 dan SAM 3D
Di Instagram Edits, aplikasi Meta AI, dan meta.ai, fitur penerapan efek video berbasis objek akan hadir

SAM 3D

Merilis model, kode, dan data untuk rekonstruksi objek dan manusia 3D dari satu gambar
Menyediakan grounded reconstruction yang mempertimbangkan konteks ruang nyata

Keterbatasan dan tugas ke depan

Generalisasi zero-shot untuk konsep domain khusus yang sangat detail (misalnya platelet) masih terbatas
- Namun dapat beradaptasi cepat jika di-fine-tune dengan sedikit data
- Menyediakan recipe fine-tuning open source
Kalimat pendek didukung secara bawaan, tetapi deskripsi kompleks seperti “top shelf second to last book” memerlukan kombinasi dengan MLLM
Pada video, biaya pemrosesan meningkat secara linear seiring bertambahnya jumlah objek
- Berbagi informasi relasi antarobjek menjadi titik peningkatan ke depan

Segment Anything Playground

Platform berbasis web untuk mencoba SAM 3 tanpa pengetahuan teknis
- Menyediakan template seperti pixelation wajah/plat nomor/piksel layar, spotlight, motion trail, dan pembesaran objek tertentu
- Juga dapat digunakan untuk anotasi data dan stress test
Menyediakan segmentasi dan pelacakan yang stabil bahkan pada video sudut pandang orang pertama dari wearable Aria Gen 2
- Dapat dimanfaatkan untuk riset robotika dan persepsi berbasis sudut pandang manusia

1 komentar

GN⁺ 2025-11-20

Komentar Hacker News

Terima kasih karena Meta masih berkontribusi pada open source dan merilis model seperti ini
Saya tahu ada pandangan kritis terhadap perusahaan ini, tetapi tindakan seperti ini menguntungkan semua orang
- Saya juga setuju. Dulu sekitar tahun 2005 saya pernah melaporkan kerentanan keamanan, dan saat itu budaya perusahaannya berbeda dari sekarang
  Sekarang sepertinya sudah banyak berubah ke arah yang lebih berpusat pada komunitas
- Saya tidak terlalu suka sisi media sosialnya, tetapi langkah Meta dalam merilis model memang patut diakui
  Lab riset besar lain tidak merilis model dengan cara seperti ini
Kesan pertama setelah mencobanya, model ini sangat luar biasa
Deteksi berbasis teks “zero-shot” jauh melampaui model generasi sebelumnya maupun VLM terbaru seperti Gemini dan Qwen
Dengan pengawasan manusia, sepertinya model ini juga cukup layak dipakai sebagai model guru
Dulu saya pernah menyesuaikan YOLO untuk mendeteksi climbing hold, dan SAM3 mencapai sekitar 90% dari hasil itu tanpa pelatihan
Tetapi model ini masih melewatkan hold kayu berkontras rendah atau foothold kecil
- Apakah Anda pernah mengerjakan sesuatu seperti aplikasi Stokt? Aplikasi itu sekarang cukup terkenal di dunia panjat tebing
- Saya bekerja di platform yang memberi label pada 1 miliar gambar, dan saya rasa SAM3 bisa mengotomatiskan lebih dari 90% di antaranya
  Sekarang strukturnya sedang berubah: bukan lagi manusia yang membantu model, tetapi model yang membantu manusia
  Tulisan terkait bisa dibaca di blog Roboflow
Generator mesh 3D-nya juga benar-benar keren
Dari demo SAM3D, model ini menangani pemisahan objek yang terhalang seperti orang yang duduk di kursi dengan baik, dan juga cepat
- Benar-benar mengesankan. Tapi apakah mesh 3D bisa diekspor langsung?
  Saya cuma bisa mendapatkan videonya, jadi saya penasaran apakah harus membeli token
Use case saya adalah pelacakan pola pada papan sirkuit, dan model ini masih lemah di bagian itu
Model ini bagus untuk gambar seperti kuda di pantai, tetapi kurang cocok untuk data industri
Sepertinya akan membaik kalau di-fine-tune, tetapi saya belum mencobanya
- Kasus yang menarik. Bisa berbagi tautan contoh yang layak dijadikan referensi?
Saya mencoba SAM3 untuk menghapus latar belakang pada gambar anak-anak
(pengenalan proyek terkait)
Tetapi BiRefNet v2 masih bekerja sedikit lebih akurat
SAM3 agak kurang presisi saat memotong mengikuti garis, dan sebagian area putih kertas masih tersisa
Meski begitu, SAM3 bukan cuma untuk penghapusan latar belakang sederhana, karena ia punya kemampuan mengenali makna gambar
Sepertinya gambar yang dibuat anak-anak bisa dikenali lalu dihubungkan ke aksi di dalam game
- Menarik bahwa Anda mencoba penghapusan latar belakang dengan BiRefNet
  Menurut Anda, apakah itu model dengan performa terbaik saat ini? Saya juga penasaran dengan alternatif lain
Senang melihat ada penandaan seperti “Core contributor (Alphabetical, Equal Contribution)” di daftar penulis makalah
Penulisan kesetaraan kontribusi itu sangat berkesan
Dalam 5 tahun terakhir, laju kemajuan computer vision terasa lambat
Pemahaman bahasa sudah mendekati tingkat manusia berkat LLM, tetapi visi masih tertinggal
Segmentasi objek atau generalisasi pada citra ilmiah masih sulit, dan terasa seperti ada sesuatu yang kurang meski datanya cukup
Mungkin kita butuh agensi dalam lingkungan 3D atau sinyal pembelajaran yang lebih kaya
- Saya bukan ahli, tetapi saya merasa yang kurang adalah world model
  Manusia tidak menilai hanya dari informasi visual, tetapi melengkapinya lewat konteks dan pengalaman
  Misalnya, saat melihat siluet gelap di jalan pada malam hari, kita bisa menyimpulkan apakah itu kuda atau pagar dari pengalaman sebelumnya atau informasi sekitar
  Penalaran kontekstual seperti ini masih belum ada pada model saat ini
- Pernyataan bahwa “LLM memahami teks pada tingkat manusia” juga masih punya keterbatasan
Bidang saya adalah segmentasi volume 3D untuk pencitraan medis
Saya pernah mencoba SAM2 dengan pendekatan slice 2D, tetapi hasilnya kurang kompetitif dibanding standar saat ini, nnUNet
- Unet adalah model yang paling luas dipakai di pencitraan medis selama 10 tahun terakhir
  Tetapi saya rasa gabungan LLM + VLM bisa menjadi arah baru
  Saya benar-benar menguji demo ini, dan hasilnya bekerja cukup baik
SAM3 adalah model yang keren
Sekarang model ini sudah bisa digunakan dengan cara yang lebih interaktif di chat.vlm.run, dan
bisa digabungkan dengan SAM serta model visi lain di atas model Orion baru dari tim kami
Fitur segmentasi dan pelacakan video juga akan segera ditambahkan
- Saya benar-benar mencobanya, dan saya bisa melakukan segmentasi orang dan anjing dalam sesi chat yang sama
  contoh hasil
Saya rasa ini masih sulit untuk video real-time karena latensi rata-rata 4 detik
(sumbernya bisa dilihat di tulisan terkait di roboflow.com)
- Angka itu kemungkinan masalah sumber daya komputasi
  Menurut blog tersebut, pada GPU H200 hanya butuh 30ms untuk memproses satu gambar yang berisi lebih dari 100 objek

Meta merilis Segment Anything Model 3 (SAM 3)

Gambaran umum SAM 3

Fitur utama

Data engine

Arsitektur model

Performa

Kasus ilmiah dan penggunaan nyata

SAM 3D

Keterbatasan dan tugas ke depan

Segment Anything Playground

Bacaan terkait

1 komentar

Komentar Hacker News