- NVIDIA Cosmos 3 adalah model fondasi terbuka tunggal untuk physical AI, yang menggabungkan penalaran fisik, pembuatan world, dan pembuatan tindakan di dalam satu model
- Arsitektur Mixture-of-Transformers memisahkan Reasoner tower dan Generator tower untuk menghubungkan pemahaman input dengan keluaran generasi yang sadar fisika, sekaligus mengurangi kebutuhan untuk mengorkestrasi banyak model dan pipeline inferensi
- Cosmos 3 Nano memiliki 16B parameter dan ditujukan untuk inferensi kelas workstation, sementara Cosmos 3 Super memiliki 64B parameter dan ditujukan untuk deployment pusat data serta pembuatan data sintetis berkualitas tinggi
- NVIDIA merilis checkpoint model, skrip pelatihan, alat deployment, enam dataset sintetis, dan mikroservis NIM untuk mendukung adaptasi domain di robotika, kendaraan otonom, dan otomatisasi gudang
- Di HUE dan berbagai benchmark publik, Cosmos 3 dievaluasi untuk penalaran physical AI, kualitas generasi, dan performa domain; Super dan Nano masing-masing memimpin tier 32B dan 8B di VANTAGE-Bench
Perubahan utama di Cosmos 3
- NVIDIA Cosmos 3 adalah model fondasi frontier yang dirancang agar sistem physical AI seperti robot, kendaraan otonom, dan ruang pintar dapat memahami dunia, memprediksi situasi berikutnya, serta menghasilkan tindakan yang sesuai dengan lingkungan, bentuk, dan tugas tertentu
- Rilis Cosmos sebelumnya memisahkan pembuatan world, pemahaman fisik, dan pembuatan scene terkontrol ke dalam model dan workflow yang berbeda, tetapi Cosmos 3 mengintegrasikan semuanya ke dalam satu model
- Rilis ini menyediakan checkpoint model di Hugging Face, kode di GitHub, dataset publik, skrip pelatihan lanjutan, dan mikroservis Cosmos NIM untuk deployment GPU NVIDIA
Arsitektur dua tower
- Cosmos 3 menggunakan arsitektur Mixture-of-Transformers yang berpusat pada dua tower
- Reasoner tower adalah vision-language model (VLM) yang menafsirkan observasi multimodal seperti gambar, video, dan teks, dengan struktur autoregresif untuk memahami input, gerakan, interaksi objek, dan konteks fisik
- Generator tower menghasilkan video dan keluaran tindakan yang sadar fisika melalui proses berbasis difusi, dengan pemahaman dari Reasoner tower sebagai kondisi
- Reasoner dapat dipanggil secara independen, tetapi Generator selalu mengaktifkan kedua tower untuk generasi terpandu
- Arsitektur ini menangani tugas penalaran dan generasi dalam satu model, sehingga mengurangi orkestrasi di antara banyak model dan pipeline inferensi
Pilihan ukuran model
- Cosmos 3 Nano adalah model ringkas dengan 16B parameter, yang dioptimalkan untuk inferensi efisien
- Nano dirancang untuk menjalankan inferensi robotika real-time dan aplikasi physical AI pada komputasi kelas workstation seperti GPU NVIDIA RTX PRO 6000
- Cosmos 3 Super adalah model 64B parameter yang menargetkan kualitas dan kemampuan maksimum
- Super memberikan skor benchmark tertinggi dan ditujukan untuk deployment pusat data berbasis GPU NVIDIA Hopper dan NVIDIA Blackwell
- Super cocok untuk pembuatan data sintetis berskala besar dan workload penalaran fisik tingkat lanjut
Dataset publik
- Bersamaan dengan rilis Cosmos 3, NVIDIA merilis enam dataset synthetic data generation (SDG) di Hugging Face
- Dataset ini dapat digunakan untuk pelatihan lanjutan Cosmos 3 dan model lain, mencakup robotika, simulasi fisik, penalaran spasial, gerakan manusia, berkendara, dan lingkungan gudang
- Dataset publik:
Kerangka evaluasi HUE
- NVIDIA Cosmos Human Evaluation (HUE) mengevaluasi kualitas Cosmos 3 Generator pada tugas domain representatif
- Karena model generasi video terbaru mulai jenuh di leaderboard otomatis yang ada, selisih skor antar rilis sering kali tidak lagi cukup bermakna untuk perbandingan yang berarti
- HUE mengalihkan evaluasi dari penilaian subjektif ke verifikasi fakta objektif, sehingga memungkinkan perbandingan yang lebih rinci di antara model papan atas
- HUE memecah video hasil generasi menjadi pertanyaan fakta yes/no tunggal di empat dimensi
- Keselarasan semantik
- Hukum fisika
- Penalaran geometri
- Integritas visual
- Pertanyaan ini mencakup tujuh domain Physical AI, termasuk robotika, kendaraan otonom, dan fisika
- Pertanyaan dihasilkan melalui pipeline VLM, disempurnakan oleh pakar manusia, dan dirilis sebagai open source di Hugging Face
Hasil benchmark
- Cosmos 3 dievaluasi dalam berbagai kelompok benchmark yang mencakup penalaran physical AI, kualitas generasi, dan performa spesifik domain
- Pada benchmark penalaran, Cosmos 3 Super dan Cosmos 3 Nano masing-masing menempati posisi teratas pada tier 32B dan tier 8B di VANTAGE-Bench
- VANTAGE-Bench adalah benchmark publik pertama yang mengevaluasi vision-language model pada rekaman kamera statis dunia nyata di gudang, lalu lintas, dan ruang pintar
- Traffic Anomaly Reasoning (TAR) adalah leaderboard baru untuk mendeteksi dan menalar kejadian anomali dalam video lalu lintas, serta merupakan leaderboard resmi AI City Challenge 2026 Track 3
- Pada benchmark generasi, Cosmos 3 adalah open-source SOTA menurut leaderboard publik dan memimpin di PAI-Bench, R-Bench Physics-IQ, dan RoboLab
- Menurut Artificial Analysis, Cosmos 3 dinilai sebagai model open source terdepan pada Text to Image leaderboard dan Image to Video (no audio) leaderboard
- R-Bench mengevaluasi world model berbasis video dalam generasi video robot, menggunakan sub-metrik seperti konsistensi struktural, validitas fisik, dan kelengkapan eksekusi
- PAI-Bench mengevaluasi pemahaman video dan pembuatan video di domain seperti robotika, kendaraan otonom, dan pengetahuan umum fisika
- Physics-IQ menguji apakah model video generatif hanya mencapai realisme visual atau benar-benar memahami prinsip fisika
- RoboLab adalah benchmark simulasi untuk mengevaluasi kebijakan robot dengan generalisasi tugas
Recipe pelatihan dan adaptasi domain
- Rilis Cosmos 3 melampaui checkpoint model dengan membuka kode, konfigurasi, dan workflow agar model dapat diadaptasi ke domain, bentuk, dan dataset baru
- Supervised fine-tuning (SFT) mendukung developer untuk menyesuaikan model Cosmos 3 dengan data mereka sendiri
- Recipe publik mencakup pelatihan lanjutan generasi visi untuk dataset video kustom dan recipe yang berfokus pada tindakan untuk workflow robotika dan physical AI
- Developer dapat menyesuaikan Cosmos 3 untuk domain target seperti robotika, kendaraan otonom, dan otomatisasi gudang
- Kode dan konfigurasi pelatihan lanjutan tersedia di GitHub
- Pelatihan lanjutan tindakan menyesuaikan Cosmos 3 untuk aplikasi Physical AI yang sadar tindakan seperti forward dynamics, inverse dynamics, dan policy generation
- Di robotika, workflow ini mendukung pembuatan observasi masa depan berdasarkan tindakan robot, penalaran tindakan di balik demonstrasi yang diamati, dan prediksi urutan tindakan dari observasi saat ini serta prompt tugas
Deployment mikroservis NIM
- Model Cosmos 3 juga tersedia sebagai NVIDIA NIM microservices untuk deployment produksi yang dioptimalkan
- Mikroservis NIM mengemas model dan runtime inferensi yang telah dioptimalkan agar dapat memberikan performa tinggi tanpa perlu men-tuning infrastruktur serving secara langsung
- Dalam workflow inferensi, mikroservis NIM lebih mudah digunakan dibanding repositori GitHub Cosmos 3, sementara repositori GitHub lebih cocok untuk workflow pelatihan lanjutan
- Cosmos 3 Reasoner NIM saat ini menyediakan kemampuan inferensi model Cosmos 3
- NIM mendukung pilihan checkpoint kuantisasi BF16, FP8, dan NVFP4
- Kuantisasi NVFP4 menurunkan presisi numerik model dari BF16 ke floating point 4-bit untuk mencapai peningkatan kecepatan inferensi hingga 2x
- Stack serving Cosmos 3 Reasoner NIM dibangun di atas vLLM, mesin inferensi open source untuk melayani LLM secara efisien dengan teknik seperti continuous batching, paged attention, dan tensor parallelism
- Cosmos 3 Nano dapat dijalankan dengan vLLM-omni dan NVIDIA Dynamo
- Efficient Video Sampling (EVS) mempercepat Cosmos Reason NIM dengan mengurangi jumlah token video yang masuk ke VLM saat inferensi
- EVS mempertahankan chunk yang paling unik di setiap frame dan memangkas sisanya; manfaat teknik ini cenderung lebih besar pada GPU yang lebih kecil
Cara menjalankan
- Diperlukan NVIDIA NGC API key untuk mengambil container dan mengunduh model Cosmos 3 dari NGC
- Contoh menjalankan Cosmos 3 Nano Reasoner NIM adalah sebagai berikut
- Untuk menggunakan Cosmos 3 Super Reasoner NIM, tentukan
NIM_MODEL_SIZE=super
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- Cara penggunaan API dan informasi tambahan dapat dilihat di dokumentasi
Sumber daya untuk memulai
1 komentar
Opini Hacker News
Ini adalah model open source mutakhir untuk pembuatan gambar dan video
Model ini mengungguli model lain, tetapi dengan 64 miliar parameter, ukurannya terlalu besar untuk dijalankan di sebagian besar komputer pribadi
Meski begitu, mengingat model ini menggunakan dataset pelatihan yang dibuat secara sintetis, hasilnya tetap mengesankan
Ia mengalahkan Nano Banana 1, tetapi masih belum berada di level untuk bersaing dengan Nano Banana 2, Seedance2, atau Grok Imagine
Pengumuman produk perusahaan sering kali bahkan gagal menjelaskan dengan jelas fakta dasar yang seharusnya bisa disampaikan dalam sembilan kata pertama
Namun ada satu nuansa yang hilang: ini adalah world model yang ditujukan agar berguna untuk pelatihan AI robot dan kendaraan otonom
Jadi, alih-alih menjadi pesaing langsung Nano Banana atau Seedance, model ini memang bisa menghasilkan gambar dan video, tetapi intinya adalah menyediakan data fisik dan harness untuk skenario pelatihan AI
“Cosmos 3 Nano adalah versi kecil dengan 16 miliar parameter dan dioptimalkan untuk inferensi yang efisien. Model ini dirancang untuk menjalankan inferensi robotika real-time dan aplikasi physical AI pada lingkungan komputasi kelas workstation seperti GPU NVIDIA RTX PRO 6000.”
Saya menantikan hari ketika saya bisa mengujinya di GPU kelas workstation seharga lebih dari $10.000 yang memang dibutuhkan untuk menjalankan ini
Rilis kali ini mengintegrasikan fungsinya dengan arsitektur Mixture-of-Transformers (MoT) yang berpusat pada dua menara
Menara penalaran adalah vision-language model (VLM) yang berperan sebagai “otak” yang menalar dunia sebelum generasi terjadi
Menara generasi menghasilkan observasi masa depan dan urutan tindakan, lalu membuat keluaran video dan tindakan yang mempertimbangkan fisika melalui proses berbasis difusi dengan pemahaman dari menara penalaran sebagai kondisi
Pendekatan seperti ini menggugah naluri rekayasa yang ingin mengoptimalkan dan menyeimbangkan trade-off antararsitektur model demi menggabungkan kelebihan keduanya
Tetapi menurut pemahaman saya tentang Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), dalam jangka panjang ini justru arah yang salah
Saya menautkan tulisan asli Bitter Lesson karena saya merasa konsep ini sering disalahpahami, atau setidaknya saya tidak setuju dengan cara konsep ini dipakai dalam diskursus
Intinya adalah pengamatan historis bahwa para peneliti AI mencoba menanamkan pengetahuan ke dalam agen; itu membantu dalam jangka pendek dan memberi kepuasan kepada peneliti, tetapi dalam jangka panjang justru mandek dan menghambat kemajuan, dan pada akhirnya pendekatan kebalikannya—skalasi komputasi melalui pencarian dan pembelajaran—yang menghasilkan terobosan
Arsitektur ini terasa seperti cara menanamkan pengetahuan ke dalam agen yang mungkin membantu dalam jangka pendek, tetapi kemungkinan besar akan mandek dalam jangka panjang
Tentu saja, mungkin masih ada pembelajaran atau keluaran menarik yang lahir di atasnya, tetapi saya tidak melihat banyak ruang yang bisa diperas dari pendekatan seperti ini
Arsitektur MoT tampak seperti bentuk ideal yang diisyaratkan Bitter Lesson. Semua format data seperti audio, gambar, teks, tindakan, dan video dimasukkan ke dalam satu ruang laten bersama, lalu model dibiarkan mengaturnya sendiri
Yang ada hanya struktur minimum untuk menangani kebutuhan dan format keluaran yang berbeda, misalnya pemrosesan autoregresif untuk pemodelan/prediksi urutan dan pemrosesan difusi untuk generasi
Tujuannya adalah mengambil data dari representasi terkompresi di dalam ke bentuk yang bisa digunakan manusia
Secara teknis, inferensi juga bisa dilakukan pada encoding tingkat piksel atau karakter, tetapi biasanya jauh lebih mahal
Anggap saja seluruh teknik ini sebagai cara untuk membuat komputer berjalan lebih cepat
Ini juga bisa dilihat pada Qwen talker atau sebagian besar proyektor multimodal
Karena juga menerima input video, cakupannya bahkan lebih luas daripada model omni sebelumnya
Arsitekturnya memang tidak biasa, tetapi saya tidak merasa ada tuning yang lebih ekstrem dibanding model open yang dirilis setiap hari
Contoh video keselamatan gudangnya benar-benar lucu. Orang-orang sama sekali tidak bereaksi
Bayangan besar tiang lampu jalan yang melintang di persimpangan juga sama sekali tidak masuk akal
Desain Mixture-of-Transformers dua menara ini, yaitu penalar autoregresif yang memberi input ke generator difusi, adalah taruhan arsitektural yang menarik
Sulit memahami sebenarnya ini melakukan apa
Apakah kalimat “menghasilkan observasi masa depan dan urutan tindakan” cuma cara rumit untuk mengatakan generasi video?
World model ini, misalnya, dikondisikan pada tindakan robot, sehingga ada dua hal yang bisa dilakukan yang tidak bisa dicapai dengan generasi video biasa
Model ini bisa memprediksi frame masa depan yang akan mengikuti suatu tindakan tertentu, dan dari frame awal yang sama, masa depannya bisa berbeda jika tindakannya diubah
Selain itu, ia juga bisa dijalankan terbalik untuk menyimpulkan tindakan di balik frame yang diamati atau mengeluarkan tindakan yang diperlukan untuk mencapai suatu tujuan
Dalam kasus ini, keluarannya bukan frame video, melainkan perintah motor
Salah satu contoh yang di-host hanya melakukan analisis video yang sudah ada, sedangkan yang lain memprediksi video dari gambar statis, yaitu melakukan generasi video
Pada saat yang sama, tidak seperti simulasi finite element untuk rekayasa, model ini harus berjalan jauh lebih cepat daripada kecepatan 1x, dan sepertinya model ini menargetkan kebutuhan itu
Tanpa harus mengirim robot ke rumah orang, kita bisa mensimulasikan dunia dari sudut pandang orang pertama untuk membuat data pelatihan
Sebagian besar contoh yang dipilih tampak kurang bagus
Rasanya seperti campuran aneh antara game engine buruk dan sampah AI
Sulit membayangkan hal seperti ini menjadi data pelatihan yang baik untuk aplikasi nyata
Dan fakta objektifnya adalah teknologi seperti ini dan teknologi serupa sudah digunakan secara besar-besaran oleh semua produsen kendaraan otonom terdepan, jadi secara induktif bisa dibilang kualitasnya cukup baik untuk use case tersebut
Saya tidak bekerja di Cosmos, tetapi saat ini saya mengerjakan teknologi nonpublik di Nvidia yang secara permukaan mirip, dan banyak perusahaan terdepan memakainya
Menurut saya, kualitasnya juga mirip
Sebagian riset publik terkait ada di sini
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidia juga mengintegrasikan Gsplat ke setidaknya sebagian dari apa yang saya kerjakan dan turut berkontribusi ke upstream
https://github.com/nerfstudio-project/gsplat
Lucu juga bahwa setelah segala kemajuan teknologi ini, situsnya tetap kesulitan menangani beban tinggi