Tencent Hunyuan-T1 - Model Raksasa Pertama Berbasis Arsitektur Mamba

(llm.hunyuan.tencent.com)

2 poin oleh GN⁺ 2025-03-23 | 1 komentar | Bagikan ke WhatsApp

Hunyuan-T1 adalah model MoE Hybrid-Transformer-Mamba raksasa berbasis TurboS
Melalui pembelajaran pascapelatihan berskala besar, kemampuan penalaran diperluas agar selaras dengan preferensi manusia sekaligus meningkatkan performa
Kemampuan pemrosesan teks panjang dari TurboS mengatasi masalah hilangnya konteks dan ketergantungan informasi jarak jauh
Arsitektur Mamba dioptimalkan untuk pemrosesan sekuens panjang, sehingga dapat menangkap informasi teks panjang dengan cara komputasi yang efisien
- Dalam kondisi deployment yang sama, kecepatan decoding meningkat 2 kali lipat
Pada tahap pascapelatihan model, 96,7% dari total daya komputasi dialokasikan untuk reinforcement learning
- Mengumpulkan dataset yang mencakup berbagai masalah seperti matematika, penalaran logis, sains, dan kode untuk memperkuat kemampuan penalaran model
- Memperkuat performa model melalui umpan balik jawaban benar dan umpan balik pengguna secara real-time
- Menerapkan metode curriculum learning
  - Tingkat kesulitan data ditingkatkan secara bertahap sambil memperluas panjang konteks model
  - Memperkuat kemampuan penggunaan token secara efisien
Strategi reinforcement learning: menerapkan strategi pembelajaran ulang data dan reset kebijakan → stabilitas pelatihan meningkat lebih dari 50%
Sistem reward
- Mengadopsi metode self-reward → mengevaluasi dan memberi skor pada output model secara mandiri
- Menerapkan skema reward yang komprehensif → memperkuat efisiensi informasi dan detail konten model

Evaluasi performa benchmark

Menunjukkan performa unggul pada metrik penalaran Tiongkok dan Inggris seperti MMLU-pro, CEval, AIME, Zebra Logic
Performa setara dengan DeepSeek R1 atau hasil yang sedikit lebih baik
- Unggul dalam kreativitas budaya, ringkasan teks, dan kemampuan agen
Meraih 87,2 poin pada evaluasi MMLU-PRO → membuktikan memori dan pemahaman yang unggul di 14 bidang seperti humaniora, ilmu sosial, dan sains-teknologi
Mencatat 69,3 poin pada evaluasi GPQA-diamond → mengonfirmasi kemampuan menyelesaikan soal fisika, kimia, dan biologi setingkat doktoral
Membuktikan performa kuat dalam kode, matematika, dan penalaran logis
- Meraih 64,9 poin di LiveCodeBench → mengonfirmasi kemampuan menulis dan memahami kode
- 96,2 poin di MATH-500 → membuktikan kemampuan pemecahan masalah matematika yang mendekati DeepSeek R1
Meraih 91,9 poin di ArenaHard → menunjukkan kemampuan adaptasi yang kuat dalam berbagai tugas alignment, mengikuti instruksi, dan pemanfaatan alat

1 komentar

GN⁺ 2025-03-23

Komentar Hacker News

Performa model yang luar biasa ini sepenuhnya membuktikan bahwa reinforcement learning memainkan peran penting dalam proses optimisasi
- Jika reinforcement learning ini tidak benar-benar memberikan jawaban yang lebih baik di tempat lain dan hanya memanipulasi benchmark, muncul pertanyaan bagaimana kita bisa menyadarinya
Setelah mencoba model ini sedikit, sepertinya ada kecenderungan untuk menjawab pertanyaan dalam bahasa Inggris dengan bahasa Tionghoa
Model besar mereka memiliki 389b parameter, jadi saya penasaran seberapa besar model ultra-besarnya
Akhir-akhir ini terlalu banyak model yang bermunculan dan terlalu banyak kemajuan di bidang AI, sehingga sulit untuk mengikutinya
- Saya tidak yakin mana yang benar-benar terobosan atau penting
Menarik melihat model berbasis Mamba bekerja dengan baik
Romanisasi nama seperti ini selalu membingungkan
- Ketika karakter dan nada dihilangkan, jadinya hanya rangkaian huruf tanpa makna
- "Hunyuan", atau dalam bahasa Tionghoa 混元, berarti "kekacauan primordial" atau "kesatuan purba"
- Ini membantu agar lebih mudah diingat seiring semakin banyak produk dan layanan Tiongkok memasuki pasar
- Mirip dengan populernya mitologi Yunani pada produk Barat (misalnya semua produk bernama "Apollo")
Saya penasaran apakah fakta bahwa mereka terhubung ke demo Huggingface mengisyaratkan bahwa mereka akan merilis bobot modelnya
Kobe?

Tencent Hunyuan-T1 - Model Raksasa Pertama Berbasis Arsitektur Mamba

Evaluasi performa benchmark

Bacaan terkait

1 komentar

Komentar Hacker News