7 poin oleh GN⁺ 2025-11-20 | 1 komentar | Bagikan ke WhatsApp
  • Meta merilis SAM 3, yang dapat menemukan, mensegmentasi, dan melacak objek yang diinginkan di gambar dan video menggunakan teks, gambar contoh, dan prompt visual
  • Menyediakan lingkungan agar siapa pun bisa bereksperimen dengan mudah melalui Segment Anything Playground, beserta checkpoint model, dataset evaluasi, dan kode fine-tuning
  • Memperluas ekosistem segmentasi konsep yang mencakup 2D dan 3D lewat benchmark segmentasi konsep skala besar baru bernama SA-Co dan peluncuran SAM 3D
  • Fitur pembuatan dan pengeditan media baru berbasis segmentasi objek sedang diterapkan di berbagai layanan Meta seperti Marketplace, Instagram Edits, dan Meta AI
  • Sebagai model yang mengintegrasikan segmentasi konsep berbasis teks dan contoh, potensinya makin besar untuk digunakan sebagai alat berbasis persepsi serbaguna di berbagai bidang seperti riset, industri, konservasi, dan robotika

Gambaran umum SAM 3

  • Ini adalah model terpadu yang menerima berbagai prompt seperti teks, contoh gambar, mask, box, dan point untuk mendeteksi, mensegmentasi, dan melacak konsep di gambar maupun video
    • Mendukung segmentasi open-vocabulary berbasis frasa nomina pendek secara bawaan
    • Prompt kompleks seperti “people sitting down but not holding a gift box” dapat diproses dengan menggabungkannya dengan MLLM
  • Melampaui keterbatasan SAM sebelumnya yang terikat pada set label tetap, dan diperluas menjadi segmentasi konsep arbitrer yang dapat diprompt
  • Mengukur performa pengenalan konsep skala besar pada gambar dan video dengan benchmark baru SA-Co (Segment Anything with Concepts)

Fitur utama

  • Mendukung deteksi konsep berbasis prompt teks dan segmentasi semua instance
    • Dapat menangani deskripsi rinci seperti “striped red umbrella”
  • Konsep dapat didefinisikan berdasarkan objek nyata melalui contoh gambar (exemplar)
  • Tetap mempertahankan prompt box/point/mask yang disediakan di SAM 1·2
  • Memanfaatkan MLLM seperti alat untuk melakukan eksplorasi iteratif terhadap kueri kompleks (SAM 3 Agent)

Data engine

  • Membangun pipeline pembuatan data hibrida yang menggabungkan SAM 3 + manusia + AI annotator (berbasis Llama 3.2v)
    • Captioning otomatis → pembuatan label teks → pembuatan mask awal → verifikasi AI/manusia
    • 5x lebih cepat pada prompt negatif (konsep yang tidak ada), dan peningkatan kecepatan 36% juga pada prompt positif
    Iklan
  • Membangun set pelatihan skala besar yang mencakup lebih dari 4 juta konsep unik
  • Memperluas cakupan konsep langka dengan ontologi konsep berbasis wiki

Arsitektur model

  • Encoder teks/gambar berbasis Meta Perception Encoder
  • Untuk deteksi objek menggunakan DETR, sedangkan pelacakan memanfaatkan konfigurasi memory bank + tracker dari SAM 2
  • Kuncinya adalah merancang recipe pelatihan pencegahan konflik agar beberapa tugas (deteksi, pelacakan, segmentasi) bisa dijalankan dalam satu model

Performa

  • cgF1 meningkat 2x dibanding model sebelumnya pada gambar dan video
  • Menunjukkan hasil yang unggul dibanding model khusus seperti Gemini 2.5 Pro, GLEE, OWLv2, dan LLMDet
  • Dalam evaluasi preferensi pengguna, hasil SAM 3 unggul dengan rasio 3:1
  • 30ms untuk satu gambar, dan pada video hampir real-time untuk 5 objek
  • Peningkatan performa juga dikonfirmasi pada zero-shot LVIS dan CountBench

Kasus ilmiah dan penggunaan nyata

  • SA-FARI: dataset terbuka yang mencakup lebih dari 100 spesies dan lebih dari 10 ribu video camera trap satwa liar
  • FathomNet: menyediakan benchmark baru untuk segmentasi instance organisme laut
  • Marketplace “View in Room”: visualisasi penataan interior seperti pencahayaan dan furnitur diimplementasikan dengan SAM 3 dan SAM 3D
  • Di Instagram Edits, aplikasi Meta AI, dan meta.ai, fitur penerapan efek video berbasis objek akan hadir

SAM 3D

  • Merilis model, kode, dan data untuk rekonstruksi objek dan manusia 3D dari satu gambar
  • Menyediakan grounded reconstruction yang mempertimbangkan konteks ruang nyata
Iklan

Keterbatasan dan tugas ke depan

  • Generalisasi zero-shot untuk konsep domain khusus yang sangat detail (misalnya platelet) masih terbatas
    • Namun dapat beradaptasi cepat jika di-fine-tune dengan sedikit data
    • Menyediakan recipe fine-tuning open source
  • Kalimat pendek didukung secara bawaan, tetapi deskripsi kompleks seperti “top shelf second to last book” memerlukan kombinasi dengan MLLM
  • Pada video, biaya pemrosesan meningkat secara linear seiring bertambahnya jumlah objek
    • Berbagi informasi relasi antarobjek menjadi titik peningkatan ke depan

Segment Anything Playground

  • Platform berbasis web untuk mencoba SAM 3 tanpa pengetahuan teknis
    • Menyediakan template seperti pixelation wajah/plat nomor/piksel layar, spotlight, motion trail, dan pembesaran objek tertentu
    • Juga dapat digunakan untuk anotasi data dan stress test
  • Menyediakan segmentasi dan pelacakan yang stabil bahkan pada video sudut pandang orang pertama dari wearable Aria Gen 2
    • Dapat dimanfaatkan untuk riset robotika dan persepsi berbasis sudut pandang manusia

1 komentar

 
GN⁺ 2025-11-20
Komentar Hacker News
  • Terima kasih karena Meta masih berkontribusi pada open source dan merilis model seperti ini
    Saya tahu ada pandangan kritis terhadap perusahaan ini, tetapi tindakan seperti ini menguntungkan semua orang

    • Saya juga setuju. Dulu sekitar tahun 2005 saya pernah melaporkan kerentanan keamanan, dan saat itu budaya perusahaannya berbeda dari sekarang
      Sekarang sepertinya sudah banyak berubah ke arah yang lebih berpusat pada komunitas
    • Saya tidak terlalu suka sisi media sosialnya, tetapi langkah Meta dalam merilis model memang patut diakui
      Lab riset besar lain tidak merilis model dengan cara seperti ini
  • Kesan pertama setelah mencobanya, model ini sangat luar biasa
    Deteksi berbasis teks “zero-shot” jauh melampaui model generasi sebelumnya maupun VLM terbaru seperti Gemini dan Qwen
    Dengan pengawasan manusia, sepertinya model ini juga cukup layak dipakai sebagai model guru
    Dulu saya pernah menyesuaikan YOLO untuk mendeteksi climbing hold, dan SAM3 mencapai sekitar 90% dari hasil itu tanpa pelatihan
    Tetapi model ini masih melewatkan hold kayu berkontras rendah atau foothold kecil

    • Apakah Anda pernah mengerjakan sesuatu seperti aplikasi Stokt? Aplikasi itu sekarang cukup terkenal di dunia panjat tebing
    • Saya bekerja di platform yang memberi label pada 1 miliar gambar, dan saya rasa SAM3 bisa mengotomatiskan lebih dari 90% di antaranya
      Sekarang strukturnya sedang berubah: bukan lagi manusia yang membantu model, tetapi model yang membantu manusia
      Tulisan terkait bisa dibaca di blog Roboflow
  • Generator mesh 3D-nya juga benar-benar keren
    Dari demo SAM3D, model ini menangani pemisahan objek yang terhalang seperti orang yang duduk di kursi dengan baik, dan juga cepat

    • Benar-benar mengesankan. Tapi apakah mesh 3D bisa diekspor langsung?
      Saya cuma bisa mendapatkan videonya, jadi saya penasaran apakah harus membeli token
  • Use case saya adalah pelacakan pola pada papan sirkuit, dan model ini masih lemah di bagian itu
    Model ini bagus untuk gambar seperti kuda di pantai, tetapi kurang cocok untuk data industri
    Sepertinya akan membaik kalau di-fine-tune, tetapi saya belum mencobanya

    • Kasus yang menarik. Bisa berbagi tautan contoh yang layak dijadikan referensi?
  • Saya mencoba SAM3 untuk menghapus latar belakang pada gambar anak-anak
    (pengenalan proyek terkait)
    Tetapi BiRefNet v2 masih bekerja sedikit lebih akurat
    SAM3 agak kurang presisi saat memotong mengikuti garis, dan sebagian area putih kertas masih tersisa
    Meski begitu, SAM3 bukan cuma untuk penghapusan latar belakang sederhana, karena ia punya kemampuan mengenali makna gambar
    Sepertinya gambar yang dibuat anak-anak bisa dikenali lalu dihubungkan ke aksi di dalam game

    • Menarik bahwa Anda mencoba penghapusan latar belakang dengan BiRefNet
      Menurut Anda, apakah itu model dengan performa terbaik saat ini? Saya juga penasaran dengan alternatif lain
  • Senang melihat ada penandaan seperti “Core contributor (Alphabetical, Equal Contribution)” di daftar penulis makalah
    Penulisan kesetaraan kontribusi itu sangat berkesan

  • Dalam 5 tahun terakhir, laju kemajuan computer vision terasa lambat
    Pemahaman bahasa sudah mendekati tingkat manusia berkat LLM, tetapi visi masih tertinggal
    Segmentasi objek atau generalisasi pada citra ilmiah masih sulit, dan terasa seperti ada sesuatu yang kurang meski datanya cukup
    Mungkin kita butuh agensi dalam lingkungan 3D atau sinyal pembelajaran yang lebih kaya

    • Saya bukan ahli, tetapi saya merasa yang kurang adalah world model
      Manusia tidak menilai hanya dari informasi visual, tetapi melengkapinya lewat konteks dan pengalaman
      Misalnya, saat melihat siluet gelap di jalan pada malam hari, kita bisa menyimpulkan apakah itu kuda atau pagar dari pengalaman sebelumnya atau informasi sekitar
      Penalaran kontekstual seperti ini masih belum ada pada model saat ini
    • Pernyataan bahwa “LLM memahami teks pada tingkat manusia” juga masih punya keterbatasan
  • Bidang saya adalah segmentasi volume 3D untuk pencitraan medis
    Saya pernah mencoba SAM2 dengan pendekatan slice 2D, tetapi hasilnya kurang kompetitif dibanding standar saat ini, nnUNet

    • Unet adalah model yang paling luas dipakai di pencitraan medis selama 10 tahun terakhir
      Tetapi saya rasa gabungan LLM + VLM bisa menjadi arah baru
      Saya benar-benar menguji demo ini, dan hasilnya bekerja cukup baik
  • SAM3 adalah model yang keren
    Sekarang model ini sudah bisa digunakan dengan cara yang lebih interaktif di chat.vlm.run, dan
    bisa digabungkan dengan SAM serta model visi lain di atas model Orion baru dari tim kami
    Fitur segmentasi dan pelacakan video juga akan segera ditambahkan

    • Saya benar-benar mencobanya, dan saya bisa melakukan segmentasi orang dan anjing dalam sesi chat yang sama
      contoh hasil
  • Saya rasa ini masih sulit untuk video real-time karena latensi rata-rata 4 detik
    (sumbernya bisa dilihat di tulisan terkait di roboflow.com)

    • Angka itu kemungkinan masalah sumber daya komputasi
      Menurut blog tersebut, pada GPU H200 hanya butuh 30ms untuk memproses satu gambar yang berisi lebih dari 100 objek