1 poin oleh GN⁺ 2025-12-12 | Belum ada komentar. | Bagikan ke WhatsApp
  • Qwen3-Omni-Flash-2025-12-01 adalah model multimodal generasi berikutnya yang memproses teks, gambar, audio, dan video secara bersamaan serta menghasilkan output teks dan suara melalui streaming real-time
  • Kemampuan memahami perintah audio-visual dan stabilitas percakapan meningkat signifikan, sehingga menghadirkan interaksi suara-video yang alami dan konsisten
  • Dengan fitur kontrol penuh system prompt, penyesuaian detail seperti gaya persona, cara bicara, dan panjang output menjadi memungkinkan
  • Mendukung teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa, sekaligus mengatasi masalah konsistensi multibahasa
  • Performa meningkat di seluruh area seperti penalaran logis, pembuatan kode, serta pemahaman visual dan suara, sehingga memberikan pengalaman interaksi AI yang alami dan presisi

Gambaran umum Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni adalah model besar multimodal native yang memproses berbagai input seperti teks, gambar, audio, dan video, serta menghasilkan output teks dan suara alami secara real-time
  • Versi kali ini, Qwen3-Omni-Flash-2025-12-01, merupakan versi upgrade menyeluruh yang dibangun di atas Qwen3-Omni sebelumnya
  • Kinerja dan efisiensi model ditingkatkan secara keseluruhan untuk menghadirkan kemampuan pemrosesan multimodal yang lebih cepat dan akurat

Peningkatan fitur utama

  • Penguatan interaksi audio-visual

    • Kemampuan memahami dan menjalankan perintah suara dan video meningkat besar, sehingga mengatasi masalah penurunan kecerdasan dalam situasi percakapan lisan sehari-hari
    • Stabilitas dan konsistensi percakapan audio-visual multi-putaran meningkat, memungkinkan interaksi yang alami
  • Penguatan kontrol system prompt

    • System prompt dapat sepenuhnya dikustomisasi sehingga perilaku model bisa dikendalikan dengan presisi
    • Elemen detail seperti gaya persona (misalnya manis, cool, bergaya animasi), cara bicara, dan panjang output dapat disesuaikan secara rinci
  • Peningkatan keandalan dukungan multibahasa

    • Mendukung interaksi berbasis teks dalam 119 bahasa, pengenalan suara dalam 19 bahasa, dan sintesis suara dalam 10 bahasa
    • Masalah ketidakstabilan bahasa pada versi sebelumnya telah diatasi, sehingga menghasilkan performa multibahasa yang akurat dan konsisten
  • Sintesis suara yang alami

    • Kecepatan bicara, jeda, dan intonasi disesuaikan otomatis berdasarkan konteks teks untuk menghasilkan kualitas suara yang menyerupai manusia
    • Menghilangkan suara yang lambat atau terdengar mekanis, dan menghadirkan output suara yang ekspresif dan alami

Indikator peningkatan performa

  • Penguatan kemampuan memahami dan menghasilkan teks

    • Penalaran logis ZebraLogic +5.6, pembuatan kode LiveCodeBench-v6 +9.3, MultiPL-E +2.7, dan kualitas penulisan WritingBench +2.2 mengalami peningkatan
    • Keandalan dalam menjalankan instruksi kompleks multi-tahap juga meningkat
  • Peningkatan akurasi pemahaman suara

    • Tingkat kesalahan kata menurun di Fleurs-zh, dan VoiceBench +3.2 meningkat
    • Kemampuan memahami suara dalam lingkungan percakapan nyata menjadi lebih kuat
  • Peningkatan kualitas sintesis suara

    • Menghadirkan intonasi dan ritme yang alami dalam lingkungan bahasa Mandarin maupun multibahasa
    • Menjamin kualitas ujaran yang mirip dengan suara manusia
  • Penguatan pemahaman gambar

    • Dalam tugas penalaran visual, MMMU +4.7, MMMU-Pro +4.8, dan MathVision_full +2.2 meningkat
    • Kemampuan menafsirkan konten visual kompleks seperti diagram dan bentuk matematis diperkuat
  • Peningkatan pemahaman video

    • MLVU +1.6 meningkat, memperkuat kemampuan memahami makna video
    • Sinkronisasi audio-visual yang lebih baik memperkuat fondasi untuk percakapan video real-time

Rencana ke depan

  • Akan mengumpulkan umpan balik pengguna dan contoh aplikasi inovatif berbasis Qwen3-Omni
  • Ke depan, fitur akan diperluas ke pengenalan suara multi-pembicara (ASR), video OCR, pembelajaran mandiri audio-video, serta dukungan workflow berbasis agen dan pemanggilan fungsi

Informasi kutipan

  • Saat digunakan untuk riset, disarankan memakai kutipan berikut

Belum ada komentar.

Belum ada komentar.