1 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • NVIDIA Cosmos 3 adalah model fondasi terbuka tunggal untuk physical AI, yang menggabungkan penalaran fisik, pembuatan world, dan pembuatan tindakan di dalam satu model
  • Arsitektur Mixture-of-Transformers memisahkan Reasoner tower dan Generator tower untuk menghubungkan pemahaman input dengan keluaran generasi yang sadar fisika, sekaligus mengurangi kebutuhan untuk mengorkestrasi banyak model dan pipeline inferensi
  • Cosmos 3 Nano memiliki 16B parameter dan ditujukan untuk inferensi kelas workstation, sementara Cosmos 3 Super memiliki 64B parameter dan ditujukan untuk deployment pusat data serta pembuatan data sintetis berkualitas tinggi
  • NVIDIA merilis checkpoint model, skrip pelatihan, alat deployment, enam dataset sintetis, dan mikroservis NIM untuk mendukung adaptasi domain di robotika, kendaraan otonom, dan otomatisasi gudang
  • Di HUE dan berbagai benchmark publik, Cosmos 3 dievaluasi untuk penalaran physical AI, kualitas generasi, dan performa domain; Super dan Nano masing-masing memimpin tier 32B dan 8B di VANTAGE-Bench

Perubahan utama di Cosmos 3

  • NVIDIA Cosmos 3 adalah model fondasi frontier yang dirancang agar sistem physical AI seperti robot, kendaraan otonom, dan ruang pintar dapat memahami dunia, memprediksi situasi berikutnya, serta menghasilkan tindakan yang sesuai dengan lingkungan, bentuk, dan tugas tertentu
  • Rilis Cosmos sebelumnya memisahkan pembuatan world, pemahaman fisik, dan pembuatan scene terkontrol ke dalam model dan workflow yang berbeda, tetapi Cosmos 3 mengintegrasikan semuanya ke dalam satu model
  • Rilis ini menyediakan checkpoint model di Hugging Face, kode di GitHub, dataset publik, skrip pelatihan lanjutan, dan mikroservis Cosmos NIM untuk deployment GPU NVIDIA

Arsitektur dua tower

  • Cosmos 3 menggunakan arsitektur Mixture-of-Transformers yang berpusat pada dua tower
  • Reasoner tower adalah vision-language model (VLM) yang menafsirkan observasi multimodal seperti gambar, video, dan teks, dengan struktur autoregresif untuk memahami input, gerakan, interaksi objek, dan konteks fisik
  • Generator tower menghasilkan video dan keluaran tindakan yang sadar fisika melalui proses berbasis difusi, dengan pemahaman dari Reasoner tower sebagai kondisi
  • Reasoner dapat dipanggil secara independen, tetapi Generator selalu mengaktifkan kedua tower untuk generasi terpandu
  • Arsitektur ini menangani tugas penalaran dan generasi dalam satu model, sehingga mengurangi orkestrasi di antara banyak model dan pipeline inferensi

Pilihan ukuran model

  • Cosmos 3 Nano adalah model ringkas dengan 16B parameter, yang dioptimalkan untuk inferensi efisien
  • Nano dirancang untuk menjalankan inferensi robotika real-time dan aplikasi physical AI pada komputasi kelas workstation seperti GPU NVIDIA RTX PRO 6000
  • Cosmos 3 Super adalah model 64B parameter yang menargetkan kualitas dan kemampuan maksimum
  • Super memberikan skor benchmark tertinggi dan ditujukan untuk deployment pusat data berbasis GPU NVIDIA Hopper dan NVIDIA Blackwell
  • Super cocok untuk pembuatan data sintetis berskala besar dan workload penalaran fisik tingkat lanjut

Dataset publik

Kerangka evaluasi HUE

  • NVIDIA Cosmos Human Evaluation (HUE) mengevaluasi kualitas Cosmos 3 Generator pada tugas domain representatif
  • Karena model generasi video terbaru mulai jenuh di leaderboard otomatis yang ada, selisih skor antar rilis sering kali tidak lagi cukup bermakna untuk perbandingan yang berarti
  • HUE mengalihkan evaluasi dari penilaian subjektif ke verifikasi fakta objektif, sehingga memungkinkan perbandingan yang lebih rinci di antara model papan atas
  • HUE memecah video hasil generasi menjadi pertanyaan fakta yes/no tunggal di empat dimensi
    • Keselarasan semantik
    • Hukum fisika
    • Penalaran geometri
    • Integritas visual
  • Pertanyaan ini mencakup tujuh domain Physical AI, termasuk robotika, kendaraan otonom, dan fisika
  • Pertanyaan dihasilkan melalui pipeline VLM, disempurnakan oleh pakar manusia, dan dirilis sebagai open source di Hugging Face

Hasil benchmark

  • Cosmos 3 dievaluasi dalam berbagai kelompok benchmark yang mencakup penalaran physical AI, kualitas generasi, dan performa spesifik domain
  • Pada benchmark penalaran, Cosmos 3 Super dan Cosmos 3 Nano masing-masing menempati posisi teratas pada tier 32B dan tier 8B di VANTAGE-Bench
  • VANTAGE-Bench adalah benchmark publik pertama yang mengevaluasi vision-language model pada rekaman kamera statis dunia nyata di gudang, lalu lintas, dan ruang pintar
  • Traffic Anomaly Reasoning (TAR) adalah leaderboard baru untuk mendeteksi dan menalar kejadian anomali dalam video lalu lintas, serta merupakan leaderboard resmi AI City Challenge 2026 Track 3
  • Pada benchmark generasi, Cosmos 3 adalah open-source SOTA menurut leaderboard publik dan memimpin di PAI-Bench, R-Bench Physics-IQ, dan RoboLab
  • Menurut Artificial Analysis, Cosmos 3 dinilai sebagai model open source terdepan pada Text to Image leaderboard dan Image to Video (no audio) leaderboard
  • R-Bench mengevaluasi world model berbasis video dalam generasi video robot, menggunakan sub-metrik seperti konsistensi struktural, validitas fisik, dan kelengkapan eksekusi
  • PAI-Bench mengevaluasi pemahaman video dan pembuatan video di domain seperti robotika, kendaraan otonom, dan pengetahuan umum fisika
  • Physics-IQ menguji apakah model video generatif hanya mencapai realisme visual atau benar-benar memahami prinsip fisika
  • RoboLab adalah benchmark simulasi untuk mengevaluasi kebijakan robot dengan generalisasi tugas

Recipe pelatihan dan adaptasi domain

  • Rilis Cosmos 3 melampaui checkpoint model dengan membuka kode, konfigurasi, dan workflow agar model dapat diadaptasi ke domain, bentuk, dan dataset baru
  • Supervised fine-tuning (SFT) mendukung developer untuk menyesuaikan model Cosmos 3 dengan data mereka sendiri
  • Recipe publik mencakup pelatihan lanjutan generasi visi untuk dataset video kustom dan recipe yang berfokus pada tindakan untuk workflow robotika dan physical AI
  • Developer dapat menyesuaikan Cosmos 3 untuk domain target seperti robotika, kendaraan otonom, dan otomatisasi gudang
  • Kode dan konfigurasi pelatihan lanjutan tersedia di GitHub
  • Pelatihan lanjutan tindakan menyesuaikan Cosmos 3 untuk aplikasi Physical AI yang sadar tindakan seperti forward dynamics, inverse dynamics, dan policy generation
  • Di robotika, workflow ini mendukung pembuatan observasi masa depan berdasarkan tindakan robot, penalaran tindakan di balik demonstrasi yang diamati, dan prediksi urutan tindakan dari observasi saat ini serta prompt tugas

Deployment mikroservis NIM

  • Model Cosmos 3 juga tersedia sebagai NVIDIA NIM microservices untuk deployment produksi yang dioptimalkan
  • Mikroservis NIM mengemas model dan runtime inferensi yang telah dioptimalkan agar dapat memberikan performa tinggi tanpa perlu men-tuning infrastruktur serving secara langsung
  • Dalam workflow inferensi, mikroservis NIM lebih mudah digunakan dibanding repositori GitHub Cosmos 3, sementara repositori GitHub lebih cocok untuk workflow pelatihan lanjutan
  • Cosmos 3 Reasoner NIM saat ini menyediakan kemampuan inferensi model Cosmos 3
  • NIM mendukung pilihan checkpoint kuantisasi BF16, FP8, dan NVFP4
  • Kuantisasi NVFP4 menurunkan presisi numerik model dari BF16 ke floating point 4-bit untuk mencapai peningkatan kecepatan inferensi hingga 2x
  • Stack serving Cosmos 3 Reasoner NIM dibangun di atas vLLM, mesin inferensi open source untuk melayani LLM secara efisien dengan teknik seperti continuous batching, paged attention, dan tensor parallelism
  • Cosmos 3 Nano dapat dijalankan dengan vLLM-omni dan NVIDIA Dynamo
  • Efficient Video Sampling (EVS) mempercepat Cosmos Reason NIM dengan mengurangi jumlah token video yang masuk ke VLM saat inferensi
  • EVS mempertahankan chunk yang paling unik di setiap frame dan memangkas sisanya; manfaat teknik ini cenderung lebih besar pada GPU yang lebih kecil

Cara menjalankan

  • Diperlukan NVIDIA NGC API key untuk mengambil container dan mengunduh model Cosmos 3 dari NGC
  • Contoh menjalankan Cosmos 3 Nano Reasoner NIM adalah sebagai berikut
  • Untuk menggunakan Cosmos 3 Super Reasoner NIM, tentukan NIM_MODEL_SIZE=super
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • Cara penggunaan API dan informasi tambahan dapat dilihat di dokumentasi

Sumber daya untuk memulai

1 komentar

 
GN⁺ 3 jam lalu
Opini Hacker News
  • Ini adalah model open source mutakhir untuk pembuatan gambar dan video
    Model ini mengungguli model lain, tetapi dengan 64 miliar parameter, ukurannya terlalu besar untuk dijalankan di sebagian besar komputer pribadi
    Meski begitu, mengingat model ini menggunakan dataset pelatihan yang dibuat secara sintetis, hasilnya tetap mengesankan
    Ia mengalahkan Nano Banana 1, tetapi masih belum berada di level untuk bersaing dengan Nano Banana 2, Seedance2, atau Grok Imagine

    • Ironisnya agak menyedihkan bahwa sekarang saya bahkan tidak mengklik tulisan pengumuman produk perusahaan yang klise seperti ini dan langsung menuju kolom komentar
      Pengumuman produk perusahaan sering kali bahkan gagal menjelaskan dengan jelas fakta dasar yang seharusnya bisa disampaikan dalam sembilan kata pertama
      Namun ada satu nuansa yang hilang: ini adalah world model yang ditujukan agar berguna untuk pelatihan AI robot dan kendaraan otonom
      Jadi, alih-alih menjadi pesaing langsung Nano Banana atau Seedance, model ini memang bisa menghasilkan gambar dan video, tetapi intinya adalah menyediakan data fisik dan harness untuk skenario pelatihan AI
    • Model generasi gambar dan video lebih mudah dipahami sebagai tolok ukur realitas untuk menilai seberapa dekat model lokal dengan model frontier
  • “Cosmos 3 Nano adalah versi kecil dengan 16 miliar parameter dan dioptimalkan untuk inferensi yang efisien. Model ini dirancang untuk menjalankan inferensi robotika real-time dan aplikasi physical AI pada lingkungan komputasi kelas workstation seperti GPU NVIDIA RTX PRO 6000.”
    Saya menantikan hari ketika saya bisa mengujinya di GPU kelas workstation seharga lebih dari $10.000 yang memang dibutuhkan untuk menjalankan ini

    • GPU-nya ada, tapi robotnya tidak ada. Untuk main-main dengan ini, kira-kira perlu robot dengan fungsi minimum seperti apa?
    • Kabar baiknya, Nvidia pasti dengan senang hati akan menjual laptop RTX Spark baru untuk menjalankan ini
  • Rilis kali ini mengintegrasikan fungsinya dengan arsitektur Mixture-of-Transformers (MoT) yang berpusat pada dua menara
    Menara penalaran adalah vision-language model (VLM) yang berperan sebagai “otak” yang menalar dunia sebelum generasi terjadi
    Menara generasi menghasilkan observasi masa depan dan urutan tindakan, lalu membuat keluaran video dan tindakan yang mempertimbangkan fisika melalui proses berbasis difusi dengan pemahaman dari menara penalaran sebagai kondisi
    Pendekatan seperti ini menggugah naluri rekayasa yang ingin mengoptimalkan dan menyeimbangkan trade-off antararsitektur model demi menggabungkan kelebihan keduanya
    Tetapi menurut pemahaman saya tentang Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), dalam jangka panjang ini justru arah yang salah
    Saya menautkan tulisan asli Bitter Lesson karena saya merasa konsep ini sering disalahpahami, atau setidaknya saya tidak setuju dengan cara konsep ini dipakai dalam diskursus
    Intinya adalah pengamatan historis bahwa para peneliti AI mencoba menanamkan pengetahuan ke dalam agen; itu membantu dalam jangka pendek dan memberi kepuasan kepada peneliti, tetapi dalam jangka panjang justru mandek dan menghambat kemajuan, dan pada akhirnya pendekatan kebalikannya—skalasi komputasi melalui pencarian dan pembelajaran—yang menghasilkan terobosan
    Arsitektur ini terasa seperti cara menanamkan pengetahuan ke dalam agen yang mungkin membantu dalam jangka pendek, tetapi kemungkinan besar akan mandek dalam jangka panjang
    Tentu saja, mungkin masih ada pembelajaran atau keluaran menarik yang lahir di atasnya, tetapi saya tidak melihat banyak ruang yang bisa diperas dari pendekatan seperti ini

    • Bagi saya justru terasa sebaliknya
      Arsitektur MoT tampak seperti bentuk ideal yang diisyaratkan Bitter Lesson. Semua format data seperti audio, gambar, teks, tindakan, dan video dimasukkan ke dalam satu ruang laten bersama, lalu model dibiarkan mengaturnya sendiri
      Yang ada hanya struktur minimum untuk menangani kebutuhan dan format keluaran yang berbeda, misalnya pemrosesan autoregresif untuk pemodelan/prediksi urutan dan pemrosesan difusi untuk generasi
    • Ini pada dasarnya lebih mirip dekompresi, dan belakangan ini merupakan pendekatan yang cukup standar
      Tujuannya adalah mengambil data dari representasi terkompresi di dalam ke bentuk yang bisa digunakan manusia
      Secara teknis, inferensi juga bisa dilakukan pada encoding tingkat piksel atau karakter, tetapi biasanya jauh lebih mahal
      Anggap saja seluruh teknik ini sebagai cara untuk membuat komputer berjalan lebih cepat
      Ini juga bisa dilihat pada Qwen talker atau sebagian besar proyektor multimodal
    • Hanya saja model ini memiliki cakupan domain yang lebih luas daripada LLM teks
      Karena juga menerima input video, cakupannya bahkan lebih luas daripada model omni sebelumnya
      Arsitekturnya memang tidak biasa, tetapi saya tidak merasa ada tuning yang lebih ekstrem dibanding model open yang dirilis setiap hari
  • Contoh video keselamatan gudangnya benar-benar lucu. Orang-orang sama sekali tidak bereaksi

    • Video mobilnya juga aneh. Van yang berpapasan jelas-jelas menerobos lampu merah
      Bayangan besar tiang lampu jalan yang melintang di persimpangan juga sama sekali tidak masuk akal
  • Desain Mixture-of-Transformers dua menara ini, yaitu penalar autoregresif yang memberi input ke generator difusi, adalah taruhan arsitektural yang menarik

  • Sulit memahami sebenarnya ini melakukan apa
    Apakah kalimat “menghasilkan observasi masa depan dan urutan tindakan” cuma cara rumit untuk mengatakan generasi video?

    • Bukan. Perbedaannya ada pada bagian tindakan
      World model ini, misalnya, dikondisikan pada tindakan robot, sehingga ada dua hal yang bisa dilakukan yang tidak bisa dicapai dengan generasi video biasa
      Model ini bisa memprediksi frame masa depan yang akan mengikuti suatu tindakan tertentu, dan dari frame awal yang sama, masa depannya bisa berbeda jika tindakannya diubah
      Selain itu, ia juga bisa dijalankan terbalik untuk menyimpulkan tindakan di balik frame yang diamati atau mengeluarkan tindakan yang diperlukan untuk mencapai suatu tujuan
      Dalam kasus ini, keluarannya bukan frame video, melainkan perintah motor
    • Menurut pemahaman saya, ini mencakup computer vision dan generasi video sekaligus, lalu menghubungkannya menjadi world model yang cukup kokoh
      Salah satu contoh yang di-host hanya melakukan analisis video yang sudah ada, sedangkan yang lain memprediksi video dari gambar statis, yaitu melakukan generasi video
    • Jika membayangkan apa ini dan mengapa dijelaskan seperti itu, bidang robotika AI membutuhkan game engine hiperrealistis dengan fisika yang lebih baik daripada fisika benda tegar tak terdeformasi ala Unity atau Unreal
      Pada saat yang sama, tidak seperti simulasi finite element untuk rekayasa, model ini harus berjalan jauh lebih cepat daripada kecepatan 1x, dan sepertinya model ini menargetkan kebutuhan itu
    • Lihat saja tabel format yang didukung. Ia bisa menerima gambar, video, teks, dan tindakan sebagai input, lalu mengeluarkan gambar, video, teks, dan tindakan
    • Ini bisa digunakan untuk menghasilkan data sintetis guna melatih physical AI seperti robot, mobil, dan drone
      Tanpa harus mengirim robot ke rumah orang, kita bisa mensimulasikan dunia dari sudut pandang orang pertama untuk membuat data pelatihan
  • Sebagian besar contoh yang dipilih tampak kurang bagus
    Rasanya seperti campuran aneh antara game engine buruk dan sampah AI
    Sulit membayangkan hal seperti ini menjadi data pelatihan yang baik untuk aplikasi nyata

  • Lucu juga bahwa setelah segala kemajuan teknologi ini, situsnya tetap kesulitan menangani beban tinggi