2 poin oleh GN⁺ 2025-03-23 | 1 komentar | Bagikan ke WhatsApp
  • Hunyuan-T1 adalah model MoE Hybrid-Transformer-Mamba raksasa berbasis TurboS
  • Melalui pembelajaran pascapelatihan berskala besar, kemampuan penalaran diperluas agar selaras dengan preferensi manusia sekaligus meningkatkan performa
  • Kemampuan pemrosesan teks panjang dari TurboS mengatasi masalah hilangnya konteks dan ketergantungan informasi jarak jauh
  • Arsitektur Mamba dioptimalkan untuk pemrosesan sekuens panjang, sehingga dapat menangkap informasi teks panjang dengan cara komputasi yang efisien
    • Dalam kondisi deployment yang sama, kecepatan decoding meningkat 2 kali lipat
  • Pada tahap pascapelatihan model, 96,7% dari total daya komputasi dialokasikan untuk reinforcement learning
    • Mengumpulkan dataset yang mencakup berbagai masalah seperti matematika, penalaran logis, sains, dan kode untuk memperkuat kemampuan penalaran model
    • Memperkuat performa model melalui umpan balik jawaban benar dan umpan balik pengguna secara real-time
    • Menerapkan metode curriculum learning
      • Tingkat kesulitan data ditingkatkan secara bertahap sambil memperluas panjang konteks model
      • Memperkuat kemampuan penggunaan token secara efisien
  • Strategi reinforcement learning: menerapkan strategi pembelajaran ulang data dan reset kebijakan → stabilitas pelatihan meningkat lebih dari 50%
  • Sistem reward
    • Mengadopsi metode self-reward → mengevaluasi dan memberi skor pada output model secara mandiri
    • Menerapkan skema reward yang komprehensif → memperkuat efisiensi informasi dan detail konten model

Evaluasi performa benchmark

  • Menunjukkan performa unggul pada metrik penalaran Tiongkok dan Inggris seperti MMLU-pro, CEval, AIME, Zebra Logic
  • Performa setara dengan DeepSeek R1 atau hasil yang sedikit lebih baik
    • Unggul dalam kreativitas budaya, ringkasan teks, dan kemampuan agen
  • Meraih 87,2 poin pada evaluasi MMLU-PRO → membuktikan memori dan pemahaman yang unggul di 14 bidang seperti humaniora, ilmu sosial, dan sains-teknologi
  • Mencatat 69,3 poin pada evaluasi GPQA-diamond → mengonfirmasi kemampuan menyelesaikan soal fisika, kimia, dan biologi setingkat doktoral
  • Membuktikan performa kuat dalam kode, matematika, dan penalaran logis
    • Meraih 64,9 poin di LiveCodeBench → mengonfirmasi kemampuan menulis dan memahami kode
    • 96,2 poin di MATH-500 → membuktikan kemampuan pemecahan masalah matematika yang mendekati DeepSeek R1
  • Meraih 91,9 poin di ArenaHard → menunjukkan kemampuan adaptasi yang kuat dalam berbagai tugas alignment, mengikuti instruksi, dan pemanfaatan alat

1 komentar

 
GN⁺ 2025-03-23
Komentar Hacker News
  • Performa model yang luar biasa ini sepenuhnya membuktikan bahwa reinforcement learning memainkan peran penting dalam proses optimisasi
    • Jika reinforcement learning ini tidak benar-benar memberikan jawaban yang lebih baik di tempat lain dan hanya memanipulasi benchmark, muncul pertanyaan bagaimana kita bisa menyadarinya
  • Setelah mencoba model ini sedikit, sepertinya ada kecenderungan untuk menjawab pertanyaan dalam bahasa Inggris dengan bahasa Tionghoa
  • Model besar mereka memiliki 389b parameter, jadi saya penasaran seberapa besar model ultra-besarnya
  • Akhir-akhir ini terlalu banyak model yang bermunculan dan terlalu banyak kemajuan di bidang AI, sehingga sulit untuk mengikutinya
    • Saya tidak yakin mana yang benar-benar terobosan atau penting
  • Menarik melihat model berbasis Mamba bekerja dengan baik
  • Romanisasi nama seperti ini selalu membingungkan
    • Ketika karakter dan nada dihilangkan, jadinya hanya rangkaian huruf tanpa makna
    • "Hunyuan", atau dalam bahasa Tionghoa 混元, berarti "kekacauan primordial" atau "kesatuan purba"
    • Ini membantu agar lebih mudah diingat seiring semakin banyak produk dan layanan Tiongkok memasuki pasar
    • Mirip dengan populernya mitologi Yunani pada produk Barat (misalnya semua produk bernama "Apollo")
  • Saya penasaran apakah fakta bahwa mereka terhubung ke demo Huggingface mengisyaratkan bahwa mereka akan merilis bobot modelnya
  • Kobe?