Nvidia Cosmos 3

(developer.nvidia.com)

1 poin oleh GN⁺ 2026-06-02 | 1 komentar | Bagikan ke WhatsApp

NVIDIA Cosmos 3 adalah model fondasi terbuka tunggal untuk physical AI, yang menggabungkan penalaran fisik, pembuatan world, dan pembuatan tindakan di dalam satu model
Arsitektur Mixture-of-Transformers memisahkan Reasoner tower dan Generator tower untuk menghubungkan pemahaman input dengan keluaran generasi yang sadar fisika, sekaligus mengurangi kebutuhan untuk mengorkestrasi banyak model dan pipeline inferensi
Cosmos 3 Nano memiliki 16B parameter dan ditujukan untuk inferensi kelas workstation, sementara Cosmos 3 Super memiliki 64B parameter dan ditujukan untuk deployment pusat data serta pembuatan data sintetis berkualitas tinggi
NVIDIA merilis checkpoint model, skrip pelatihan, alat deployment, enam dataset sintetis, dan mikroservis NIM untuk mendukung adaptasi domain di robotika, kendaraan otonom, dan otomatisasi gudang
Di HUE dan berbagai benchmark publik, Cosmos 3 dievaluasi untuk penalaran physical AI, kualitas generasi, dan performa domain; Super dan Nano masing-masing memimpin tier 32B dan 8B di VANTAGE-Bench

Perubahan utama di Cosmos 3

NVIDIA Cosmos 3 adalah model fondasi frontier yang dirancang agar sistem physical AI seperti robot, kendaraan otonom, dan ruang pintar dapat memahami dunia, memprediksi situasi berikutnya, serta menghasilkan tindakan yang sesuai dengan lingkungan, bentuk, dan tugas tertentu
Rilis Cosmos sebelumnya memisahkan pembuatan world, pemahaman fisik, dan pembuatan scene terkontrol ke dalam model dan workflow yang berbeda, tetapi Cosmos 3 mengintegrasikan semuanya ke dalam satu model
Rilis ini menyediakan checkpoint model di Hugging Face, kode di GitHub, dataset publik, skrip pelatihan lanjutan, dan mikroservis Cosmos NIM untuk deployment GPU NVIDIA

Arsitektur dua tower

Cosmos 3 menggunakan arsitektur Mixture-of-Transformers yang berpusat pada dua tower
Reasoner tower adalah vision-language model (VLM) yang menafsirkan observasi multimodal seperti gambar, video, dan teks, dengan struktur autoregresif untuk memahami input, gerakan, interaksi objek, dan konteks fisik
Generator tower menghasilkan video dan keluaran tindakan yang sadar fisika melalui proses berbasis difusi, dengan pemahaman dari Reasoner tower sebagai kondisi
Reasoner dapat dipanggil secara independen, tetapi Generator selalu mengaktifkan kedua tower untuk generasi terpandu
Arsitektur ini menangani tugas penalaran dan generasi dalam satu model, sehingga mengurangi orkestrasi di antara banyak model dan pipeline inferensi

Pilihan ukuran model

Cosmos 3 Nano adalah model ringkas dengan 16B parameter, yang dioptimalkan untuk inferensi efisien
Nano dirancang untuk menjalankan inferensi robotika real-time dan aplikasi physical AI pada komputasi kelas workstation seperti GPU NVIDIA RTX PRO 6000
Cosmos 3 Super adalah model 64B parameter yang menargetkan kualitas dan kemampuan maksimum
Super memberikan skor benchmark tertinggi dan ditujukan untuk deployment pusat data berbasis GPU NVIDIA Hopper dan NVIDIA Blackwell
Super cocok untuk pembuatan data sintetis berskala besar dan workload penalaran fisik tingkat lanjut

Dataset publik

Bersamaan dengan rilis Cosmos 3, NVIDIA merilis enam dataset synthetic data generation (SDG) di Hugging Face
Dataset ini dapat digunakan untuk pelatihan lanjutan Cosmos 3 dan model lain, mencakup robotika, simulasi fisik, penalaran spasial, gerakan manusia, berkendara, dan lingkungan gudang
Dataset publik:

Kerangka evaluasi HUE

NVIDIA Cosmos Human Evaluation (HUE) mengevaluasi kualitas Cosmos 3 Generator pada tugas domain representatif
Karena model generasi video terbaru mulai jenuh di leaderboard otomatis yang ada, selisih skor antar rilis sering kali tidak lagi cukup bermakna untuk perbandingan yang berarti
HUE mengalihkan evaluasi dari penilaian subjektif ke verifikasi fakta objektif, sehingga memungkinkan perbandingan yang lebih rinci di antara model papan atas
HUE memecah video hasil generasi menjadi pertanyaan fakta yes/no tunggal di empat dimensi
- Keselarasan semantik
- Hukum fisika
- Penalaran geometri
- Integritas visual
Pertanyaan ini mencakup tujuh domain Physical AI, termasuk robotika, kendaraan otonom, dan fisika
Pertanyaan dihasilkan melalui pipeline VLM, disempurnakan oleh pakar manusia, dan dirilis sebagai open source di Hugging Face

Hasil benchmark

Cosmos 3 dievaluasi dalam berbagai kelompok benchmark yang mencakup penalaran physical AI, kualitas generasi, dan performa spesifik domain
Pada benchmark penalaran, Cosmos 3 Super dan Cosmos 3 Nano masing-masing menempati posisi teratas pada tier 32B dan tier 8B di VANTAGE-Bench
VANTAGE-Bench adalah benchmark publik pertama yang mengevaluasi vision-language model pada rekaman kamera statis dunia nyata di gudang, lalu lintas, dan ruang pintar
Traffic Anomaly Reasoning (TAR) adalah leaderboard baru untuk mendeteksi dan menalar kejadian anomali dalam video lalu lintas, serta merupakan leaderboard resmi AI City Challenge 2026 Track 3
Pada benchmark generasi, Cosmos 3 adalah open-source SOTA menurut leaderboard publik dan memimpin di PAI-Bench, R-Bench Physics-IQ, dan RoboLab
Menurut Artificial Analysis, Cosmos 3 dinilai sebagai model open source terdepan pada Text to Image leaderboard dan Image to Video (no audio) leaderboard
R-Bench mengevaluasi world model berbasis video dalam generasi video robot, menggunakan sub-metrik seperti konsistensi struktural, validitas fisik, dan kelengkapan eksekusi
PAI-Bench mengevaluasi pemahaman video dan pembuatan video di domain seperti robotika, kendaraan otonom, dan pengetahuan umum fisika
Physics-IQ menguji apakah model video generatif hanya mencapai realisme visual atau benar-benar memahami prinsip fisika
RoboLab adalah benchmark simulasi untuk mengevaluasi kebijakan robot dengan generalisasi tugas

Recipe pelatihan dan adaptasi domain

Rilis Cosmos 3 melampaui checkpoint model dengan membuka kode, konfigurasi, dan workflow agar model dapat diadaptasi ke domain, bentuk, dan dataset baru
Supervised fine-tuning (SFT) mendukung developer untuk menyesuaikan model Cosmos 3 dengan data mereka sendiri
Recipe publik mencakup pelatihan lanjutan generasi visi untuk dataset video kustom dan recipe yang berfokus pada tindakan untuk workflow robotika dan physical AI
Developer dapat menyesuaikan Cosmos 3 untuk domain target seperti robotika, kendaraan otonom, dan otomatisasi gudang
Kode dan konfigurasi pelatihan lanjutan tersedia di GitHub
Pelatihan lanjutan tindakan menyesuaikan Cosmos 3 untuk aplikasi Physical AI yang sadar tindakan seperti forward dynamics, inverse dynamics, dan policy generation
Di robotika, workflow ini mendukung pembuatan observasi masa depan berdasarkan tindakan robot, penalaran tindakan di balik demonstrasi yang diamati, dan prediksi urutan tindakan dari observasi saat ini serta prompt tugas

Deployment mikroservis NIM

Model Cosmos 3 juga tersedia sebagai NVIDIA NIM microservices untuk deployment produksi yang dioptimalkan
Mikroservis NIM mengemas model dan runtime inferensi yang telah dioptimalkan agar dapat memberikan performa tinggi tanpa perlu men-tuning infrastruktur serving secara langsung
Dalam workflow inferensi, mikroservis NIM lebih mudah digunakan dibanding repositori GitHub Cosmos 3, sementara repositori GitHub lebih cocok untuk workflow pelatihan lanjutan
Cosmos 3 Reasoner NIM saat ini menyediakan kemampuan inferensi model Cosmos 3
NIM mendukung pilihan checkpoint kuantisasi BF16, FP8, dan NVFP4
Kuantisasi NVFP4 menurunkan presisi numerik model dari BF16 ke floating point 4-bit untuk mencapai peningkatan kecepatan inferensi hingga 2x
Stack serving Cosmos 3 Reasoner NIM dibangun di atas vLLM, mesin inferensi open source untuk melayani LLM secara efisien dengan teknik seperti continuous batching, paged attention, dan tensor parallelism
Cosmos 3 Nano dapat dijalankan dengan vLLM-omni dan NVIDIA Dynamo
Efficient Video Sampling (EVS) mempercepat Cosmos Reason NIM dengan mengurangi jumlah token video yang masuk ke VLM saat inferensi
EVS mempertahankan chunk yang paling unik di setiap frame dan memangkas sisanya; manfaat teknik ini cenderung lebih besar pada GPU yang lebih kecil

Cara menjalankan

Diperlukan NVIDIA NGC API key untuk mengambil container dan mengunduh model Cosmos 3 dari NGC
Contoh menjalankan Cosmos 3 Nano Reasoner NIM adalah sebagai berikut
Untuk menggunakan Cosmos 3 Super Reasoner NIM, tentukan NIM_MODEL_SIZE=super

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

Cara penggunaan API dan informasi tambahan dapat dilihat di dokumentasi

Sumber daya untuk memulai

Checkpoint Cosmos 3 Nano dan Super dapat diunduh dari Hugging Face
Contoh dan kode tersedia di Cosmos 3 GitHub
Anda dapat mencoba Cosmos 3 Nano Reasoner model experience dan Cosmos 3 Nano model experience
Anda dapat bergabung dengan ekosistem Cosmos, membuka issue, dan berkontribusi melalui GitHub dan Discord

1 komentar

GN⁺ 2026-06-02

Opini Hacker News

Ini adalah model open source mutakhir untuk pembuatan gambar dan video
Model ini mengungguli model lain, tetapi dengan 64 miliar parameter, ukurannya terlalu besar untuk dijalankan di sebagian besar komputer pribadi
Meski begitu, mengingat model ini menggunakan dataset pelatihan yang dibuat secara sintetis, hasilnya tetap mengesankan
Ia mengalahkan Nano Banana 1, tetapi masih belum berada di level untuk bersaing dengan Nano Banana 2, Seedance2, atau Grok Imagine
- Ironisnya agak menyedihkan bahwa sekarang saya bahkan tidak mengklik tulisan pengumuman produk perusahaan yang klise seperti ini dan langsung menuju kolom komentar
  Pengumuman produk perusahaan sering kali bahkan gagal menjelaskan dengan jelas fakta dasar yang seharusnya bisa disampaikan dalam sembilan kata pertama
  Namun ada satu nuansa yang hilang: ini adalah world model yang ditujukan agar berguna untuk pelatihan AI robot dan kendaraan otonom
  Jadi, alih-alih menjadi pesaing langsung Nano Banana atau Seedance, model ini memang bisa menghasilkan gambar dan video, tetapi intinya adalah menyediakan data fisik dan harness untuk skenario pelatihan AI
- Model generasi gambar dan video lebih mudah dipahami sebagai tolok ukur realitas untuk menilai seberapa dekat model lokal dengan model frontier
“Cosmos 3 Nano adalah versi kecil dengan 16 miliar parameter dan dioptimalkan untuk inferensi yang efisien. Model ini dirancang untuk menjalankan inferensi robotika real-time dan aplikasi physical AI pada lingkungan komputasi kelas workstation seperti GPU NVIDIA RTX PRO 6000.”
Saya menantikan hari ketika saya bisa mengujinya di GPU kelas workstation seharga lebih dari $10.000 yang memang dibutuhkan untuk menjalankan ini
- GPU-nya ada, tapi robotnya tidak ada. Untuk main-main dengan ini, kira-kira perlu robot dengan fungsi minimum seperti apa?
- Kabar baiknya, Nvidia pasti dengan senang hati akan menjual laptop RTX Spark baru untuk menjalankan ini
Rilis kali ini mengintegrasikan fungsinya dengan arsitektur Mixture-of-Transformers (MoT) yang berpusat pada dua menara
Menara penalaran adalah vision-language model (VLM) yang berperan sebagai “otak” yang menalar dunia sebelum generasi terjadi
Menara generasi menghasilkan observasi masa depan dan urutan tindakan, lalu membuat keluaran video dan tindakan yang mempertimbangkan fisika melalui proses berbasis difusi dengan pemahaman dari menara penalaran sebagai kondisi
Pendekatan seperti ini menggugah naluri rekayasa yang ingin mengoptimalkan dan menyeimbangkan trade-off antararsitektur model demi menggabungkan kelebihan keduanya
Tetapi menurut pemahaman saya tentang Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), dalam jangka panjang ini justru arah yang salah
Saya menautkan tulisan asli Bitter Lesson karena saya merasa konsep ini sering disalahpahami, atau setidaknya saya tidak setuju dengan cara konsep ini dipakai dalam diskursus
Intinya adalah pengamatan historis bahwa para peneliti AI mencoba menanamkan pengetahuan ke dalam agen; itu membantu dalam jangka pendek dan memberi kepuasan kepada peneliti, tetapi dalam jangka panjang justru mandek dan menghambat kemajuan, dan pada akhirnya pendekatan kebalikannya—skalasi komputasi melalui pencarian dan pembelajaran—yang menghasilkan terobosan
Arsitektur ini terasa seperti cara menanamkan pengetahuan ke dalam agen yang mungkin membantu dalam jangka pendek, tetapi kemungkinan besar akan mandek dalam jangka panjang
Tentu saja, mungkin masih ada pembelajaran atau keluaran menarik yang lahir di atasnya, tetapi saya tidak melihat banyak ruang yang bisa diperas dari pendekatan seperti ini
- Bagi saya justru terasa sebaliknya
  Arsitektur MoT tampak seperti bentuk ideal yang diisyaratkan Bitter Lesson. Semua format data seperti audio, gambar, teks, tindakan, dan video dimasukkan ke dalam satu ruang laten bersama, lalu model dibiarkan mengaturnya sendiri
  Yang ada hanya struktur minimum untuk menangani kebutuhan dan format keluaran yang berbeda, misalnya pemrosesan autoregresif untuk pemodelan/prediksi urutan dan pemrosesan difusi untuk generasi
- Ini pada dasarnya lebih mirip dekompresi, dan belakangan ini merupakan pendekatan yang cukup standar
  Tujuannya adalah mengambil data dari representasi terkompresi di dalam ke bentuk yang bisa digunakan manusia
  Secara teknis, inferensi juga bisa dilakukan pada encoding tingkat piksel atau karakter, tetapi biasanya jauh lebih mahal
  Anggap saja seluruh teknik ini sebagai cara untuk membuat komputer berjalan lebih cepat
  Ini juga bisa dilihat pada Qwen talker atau sebagian besar proyektor multimodal
- Hanya saja model ini memiliki cakupan domain yang lebih luas daripada LLM teks
  Karena juga menerima input video, cakupannya bahkan lebih luas daripada model omni sebelumnya
  Arsitekturnya memang tidak biasa, tetapi saya tidak merasa ada tuning yang lebih ekstrem dibanding model open yang dirilis setiap hari
Contoh video keselamatan gudangnya benar-benar lucu. Orang-orang sama sekali tidak bereaksi
- Video mobilnya juga aneh. Van yang berpapasan jelas-jelas menerobos lampu merah
  Bayangan besar tiang lampu jalan yang melintang di persimpangan juga sama sekali tidak masuk akal
Desain Mixture-of-Transformers dua menara ini, yaitu penalar autoregresif yang memberi input ke generator difusi, adalah taruhan arsitektural yang menarik
Sulit memahami sebenarnya ini melakukan apa
Apakah kalimat “menghasilkan observasi masa depan dan urutan tindakan” cuma cara rumit untuk mengatakan generasi video?
- Bukan. Perbedaannya ada pada bagian tindakan
  World model ini, misalnya, dikondisikan pada tindakan robot, sehingga ada dua hal yang bisa dilakukan yang tidak bisa dicapai dengan generasi video biasa
  Model ini bisa memprediksi frame masa depan yang akan mengikuti suatu tindakan tertentu, dan dari frame awal yang sama, masa depannya bisa berbeda jika tindakannya diubah
  Selain itu, ia juga bisa dijalankan terbalik untuk menyimpulkan tindakan di balik frame yang diamati atau mengeluarkan tindakan yang diperlukan untuk mencapai suatu tujuan
  Dalam kasus ini, keluarannya bukan frame video, melainkan perintah motor
- Menurut pemahaman saya, ini mencakup computer vision dan generasi video sekaligus, lalu menghubungkannya menjadi world model yang cukup kokoh
  Salah satu contoh yang di-host hanya melakukan analisis video yang sudah ada, sedangkan yang lain memprediksi video dari gambar statis, yaitu melakukan generasi video
- Jika membayangkan apa ini dan mengapa dijelaskan seperti itu, bidang robotika AI membutuhkan game engine hiperrealistis dengan fisika yang lebih baik daripada fisika benda tegar tak terdeformasi ala Unity atau Unreal
  Pada saat yang sama, tidak seperti simulasi finite element untuk rekayasa, model ini harus berjalan jauh lebih cepat daripada kecepatan 1x, dan sepertinya model ini menargetkan kebutuhan itu
- Lihat saja tabel format yang didukung. Ia bisa menerima gambar, video, teks, dan tindakan sebagai input, lalu mengeluarkan gambar, video, teks, dan tindakan
- Ini bisa digunakan untuk menghasilkan data sintetis guna melatih physical AI seperti robot, mobil, dan drone
  Tanpa harus mengirim robot ke rumah orang, kita bisa mensimulasikan dunia dari sudut pandang orang pertama untuk membuat data pelatihan
Sebagian besar contoh yang dipilih tampak kurang bagus
Rasanya seperti campuran aneh antara game engine buruk dan sampah AI
Sulit membayangkan hal seperti ini menjadi data pelatihan yang baik untuk aplikasi nyata
- Demo-demo ini sejujurnya terlihat cukup bagus
  Dan fakta objektifnya adalah teknologi seperti ini dan teknologi serupa sudah digunakan secara besar-besaran oleh semua produsen kendaraan otonom terdepan, jadi secara induktif bisa dibilang kualitasnya cukup baik untuk use case tersebut
  Saya tidak bekerja di Cosmos, tetapi saat ini saya mengerjakan teknologi nonpublik di Nvidia yang secara permukaan mirip, dan banyak perusahaan terdepan memakainya
  Menurut saya, kualitasnya juga mirip
  Sebagian riset publik terkait ada di sini
  https://github.com/nv-tlabs/3dgrut/
  https://github.com/NVIDIA/harmonizer
  https://github.com/NVIDIA/instant-nurec
  https://github.com/nvidia/ncore
  Nvidia juga mengintegrasikan Gsplat ke setidaknya sebagian dari apa yang saya kerjakan dan turut berkontribusi ke upstream
  https://github.com/nerfstudio-project/gsplat
Lucu juga bahwa setelah segala kemajuan teknologi ini, situsnya tetap kesulitan menangani beban tinggi

Nvidia Cosmos 3

Perubahan utama di Cosmos 3

Arsitektur dua tower

Pilihan ukuran model

Dataset publik

Kerangka evaluasi HUE

Hasil benchmark

Recipe pelatihan dan adaptasi domain

Deployment mikroservis NIM

Cara menjalankan

Sumber daya untuk memulai

Bacaan terkait

1 komentar

Opini Hacker News