1 poin oleh GN⁺ 2025-12-12 | 1 komentar | Bagikan ke WhatsApp
  • Qwen3-Omni-Flash-2025-12-01 adalah model multimodal generasi berikutnya yang memproses teks, gambar, audio, dan video secara bersamaan serta menghasilkan output teks dan suara melalui streaming real-time
  • Kemampuan memahami perintah audio-visual dan stabilitas percakapan meningkat signifikan, sehingga menghadirkan interaksi suara-video yang alami dan konsisten
  • Dengan fitur kontrol penuh system prompt, penyesuaian detail seperti gaya persona, cara bicara, dan panjang output menjadi memungkinkan
  • Mendukung teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa, sekaligus mengatasi masalah konsistensi multibahasa
  • Performa meningkat di seluruh area seperti penalaran logis, pembuatan kode, serta pemahaman visual dan suara, sehingga memberikan pengalaman interaksi AI yang alami dan presisi

Gambaran umum Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni adalah model besar multimodal native yang memproses berbagai input seperti teks, gambar, audio, dan video, serta menghasilkan output teks dan suara alami secara real-time
  • Versi kali ini, Qwen3-Omni-Flash-2025-12-01, merupakan versi upgrade menyeluruh yang dibangun di atas Qwen3-Omni sebelumnya
  • Kinerja dan efisiensi model ditingkatkan secara keseluruhan untuk menghadirkan kemampuan pemrosesan multimodal yang lebih cepat dan akurat

Peningkatan fitur utama

  • Penguatan interaksi audio-visual

    • Kemampuan memahami dan menjalankan perintah suara dan video meningkat besar, sehingga mengatasi masalah penurunan kecerdasan dalam situasi percakapan lisan sehari-hari
    • Stabilitas dan konsistensi percakapan audio-visual multi-putaran meningkat, memungkinkan interaksi yang alami
  • Penguatan kontrol system prompt

    • System prompt dapat sepenuhnya dikustomisasi sehingga perilaku model bisa dikendalikan dengan presisi
    • Elemen detail seperti gaya persona (misalnya manis, cool, bergaya animasi), cara bicara, dan panjang output dapat disesuaikan secara rinci
    Iklan
  • Peningkatan keandalan dukungan multibahasa

    • Mendukung interaksi berbasis teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa
    • Masalah ketidakstabilan bahasa pada versi sebelumnya telah diatasi, sehingga menghasilkan performa multibahasa yang akurat dan konsisten
  • Sintesis suara yang alami

    • Kecepatan bicara, jeda, dan intonasi disesuaikan otomatis berdasarkan konteks teks untuk menghasilkan kualitas suara yang menyerupai manusia
    • Menghilangkan suara yang lambat atau terdengar mekanis, dan menghadirkan output suara yang ekspresif dan alami

Indikator peningkatan performa

  • Penguatan kemampuan memahami dan menghasilkan teks

    • Penalaran logis ZebraLogic +5.6, pembuatan kode LiveCodeBench-v6 +9.3, MultiPL-E +2.7, dan kualitas penulisan WritingBench +2.2 mengalami peningkatan
    • Keandalan dalam menjalankan instruksi kompleks multi-tahap juga meningkat
    Iklan
  • Peningkatan akurasi pemahaman suara

    • Tingkat kesalahan kata menurun di Fleurs-zh, dan VoiceBench +3.2 meningkat
    • Kemampuan memahami suara dalam lingkungan percakapan nyata menjadi lebih kuat
  • Peningkatan kualitas sintesis suara

    • Menghadirkan intonasi dan ritme yang alami dalam lingkungan bahasa Mandarin maupun multibahasa
    • Menjamin kualitas ujaran yang mirip dengan suara manusia
  • Penguatan pemahaman gambar

    • Dalam tugas penalaran visual, MMMU +4.7, MMMU-Pro +4.8, dan MathVision_full +2.2 meningkat
    • Kemampuan menafsirkan konten visual kompleks seperti diagram dan bentuk matematis diperkuat
    Iklan
  • Peningkatan pemahaman video

    • MLVU +1.6 meningkat, memperkuat kemampuan memahami makna video
    • Sinkronisasi audio-visual yang lebih baik memperkuat fondasi untuk percakapan video real-time

Rencana ke depan

  • Akan mengumpulkan umpan balik pengguna dan contoh aplikasi inovatif berbasis Qwen3-Omni
  • Ke depan, fitur akan diperluas ke pengenalan suara multi-pembicara (ASR), video OCR, pembelajaran mandiri audio-video, serta dukungan workflow berbasis agen dan pemanggilan fungsi

Informasi kutipan

  • Saat digunakan untuk riset, disarankan memakai kutipan berikut

1 komentar

 
GN⁺ 2025-12-12
Komentar Hacker News
  • Model ini memakai arsitektur MoE 30B parameter, dengan parameter aktif di kisaran 3B
    Sebagai penerus model omni 7B sebelumnya, performanya kemungkinan bisa diharapkan mirip dengan Qwen2.5-Omni-7B
    Karena belum banyak model omni yang dirilis, menurut saya ini rilis yang cukup berarti
    Secara pribadi, saya ingin memakai model ini sebagai pengganti antarmuka input/output (keyboard·monitor), lalu memanfaatkan arsitektur yang memproses komputasi dengan teknologi lain di backend
    Ada juga versi reasoning, dan sepertinya cukup menarik karena saat voice chat model ini bisa mengucapkan token ‘sedang berpikir’

    • Model ini berupa tumpukan beberapa komponen
      Terdiri dari encoder audio 650M, encoder vision 540M, LLM 30B-A3B, audio LLM 3B-A0.3B, serta 80M Transformer/200M ConvNet yang mengubah token audio menjadi gelombang suara
      Ini adalah versi pembaruan bobot nonpublik dari Qwen3-Omni, dan sebelumnya yang sudah dirilis adalah Qwen/Qwen3-Omni-30B-A3B-Instruct
      Saat ini model ini belum didukung penuh oleh framework inferensi open source, jadi hanya bisa berjalan sangat lambat di transformers
    • Jika melihat dokumentasi Alibaba Cloud, model ini bukan open source
    • Saya tidak bisa menemukan bobot versi baru ini di mana pun. Saya sudah memeriksa Modelscope dan Hugging Face tetapi tidak ada, dan tampaknya context window diperluas menjadi 200K+ token
    • Menarik bahwa versi reasoning mengucapkan token berpikir. Dulu Claude juga pernah bekerja seperti ini
    • Akan seru kalau token berpikir itu diberi efek seperti reverb, jadi kita mungkin bisa mendengar ‘suara berpikir’ modelnya
  • Saya penasaran apakah Qwen3-Omni mendukung percakapan real-time seperti GPT-4o
    Dari dokumentasinya terlihat seperti tidak, tetapi ternyata memang didukung
    Saya juga penasaran apakah ada yang pernah menjalankannya secara lokal di lingkungan non-NVIDIA

    • Di situs chat resmi masih belum ada model audio→audio
      Saya biasanya mengeceknya dengan tes homonim (record vs record) atau meminta perubahan tone suara
    • Karena framework inferensi seperti vLLM atau SGLang belum mendukung penuh, di lingkungan non-NVIDIA hal ini tidak memungkinkan
    • Meski begitu, tampaknya fitur speech-to-speech native memang ada
    • Saya rasa masih belum ada aplikasi voice chat lokal yang benar-benar matang
      Yang seperti Silly Tavern pun hampir berada di level unusable
      Namun model suara lokal seperti inilah yang akan menjadi inti dari workflow berbasis bahasa alami
  • Saya penasaran apakah di Macbook bisa menjalankan model Omni dengan GGUF atau MLX
    Dengan LMStudio atau Llama.cpp mungkin bisa, tetapi tidak mendukung streaming mikrofon atau webcam
    Qwen biasanya menyediakan contoh Python berbasis Cuda, jadi saya sedang mencari apakah ada alternatif open source

  • Saya cukup sering memakai Gemini Flash Live 2.5
    Saya berharap versi 3.0 segera keluar
    Di benchmark katanya lebih baik daripada Gemini Live, tetapi tetap harus diuji langsung
    Secara pribadi, saya selalu merasa model Qwen Omni agak kurang memuaskan di lingkungan yang berpusat pada bahasa Inggris

  • 32B itu cukup kecil, jadi sepertinya bisa dijalankan bahkan di perangkat dengan RAM 64GB
    Kalau sudah masuk ke Ollama, saya berencana mengujinya sendiri

    • Model Qwen3-Omni-30B-A3B di Hugging Face tampaknya diperbarui pada bulan September
      Tetapi di benchmark makalah, Qwen3-Omni-Flash-2025-12-01 disebut memiliki performa lebih tinggi daripada Qwen3-235B-A22B
      Saya bingung bagaimana itu bisa terjadi padahal ini model 30B
      Versi FLASH tidak ada di Hugging Face, jadi kemungkinan besar ini model khusus API
    • Saya menjalankannya dengan baik di Mac 48GB RAM berkat unified memory
  • Awalnya saya kira ini khusus API, tetapi ternyata ada modelnya di koleksi Hugging Face
    Namun kenyataannya itu versi sebelumnya, dan demo HF juga memanggil API sehingga bukan komputasi lokal

  • Kesan yang kuat adalah Qwen3-Omni mengungguli 2.5 Flash di semua benchmark
    Sepertinya sekarang saatnya memindahkan workload LLM ke GPU lokal

    • Tetapi Anda tetap harus melakukan benchmark dengan dataset sendiri
      Benchmark publik sulit dipercaya, dan kalau memilih model mentah-mentah berdasarkan itu Anda bisa kecewa
    • Untuk tugas teks saja, lebih efisien memakai Qwen3-30B-A3B daripada Omni
    • Benchmark gambar tampaknya dibandingkan dengan Qwen 2.0, jadi agak meragukan
  • Saya penasaran kenapa gaya bicara model suara terasa kurang hidup
    Khususnya pada bagian harga buah, meskipun terdengar sepenuhnya alami, saya tetap bisa langsung tahu itu AI
    Mungkin karena intonasinya atau kecepatan bicara yang terlalu konsisten

    • Saya justru merasa lebih baik kalau emosinya tidak berlebihan
      Ekspresi emosi yang terlalu kuat terasa artifisial
      Hanya saja, pengucapan bahasa Jermannya yang salah memang agak disayangkan
    • Mungkin ini bukan multimodal end-to-end sepenuhnya
      Sepertinya ada tahap sintesis suara terpisah, sehingga hasilnya jadi seperti itu
      Ini bisa dicek lewat tes nyanyian atau intonasi
    • Kemungkinan karena terlalu banyak fungsi seperti vision, audio, multibahasa, kontrol intonasi, dan lain-lain dimasukkan ke dalam 30B parameter
      Model suara ChatGPT terasa paling alami
    • Fakta bahwa kita bisa langsung mengenali gaya bicara AI justru mungkin hal yang baik
    • Saya justru lebih suka kalau ada aksen (accent) khas AI
  • Dalam output suara real-time, ada masalah bahwa sulit membedakan token ‘sedang berpikir’ dan ujaran untuk pengguna

    • Cara sederhananya adalah memisahkan stream output sebelum TTS
      Token reasoning/structured diarahkan ke satu sisi, dan teks untuk pengguna ke sisi lain
      Lalu hanya yang kedua yang disintesis menjadi suara, sehingga masalah ‘sedang berpikir’ terdengar bisa diatasi
  • Sepertinya Qwen sengaja dibuat ambigu soal apakah bobotnya dibuka atau tidak
    Kenyataannya sebagian besar tidak dipublikasikan, dan sering kali terlihat seolah dirilis padahal sebenarnya khusus API
    Akibatnya pengguna jadi membuang-buang usaha untuk mencari modelnya