- Hunyuan-T1 adalah model MoE Hybrid-Transformer-Mamba raksasa berbasis TurboS
- Melalui pembelajaran pascapelatihan berskala besar, kemampuan penalaran diperluas agar selaras dengan preferensi manusia sekaligus meningkatkan performa
- Kemampuan pemrosesan teks panjang dari TurboS mengatasi masalah hilangnya konteks dan ketergantungan informasi jarak jauh
- Arsitektur Mamba dioptimalkan untuk pemrosesan sekuens panjang, sehingga dapat menangkap informasi teks panjang dengan cara komputasi yang efisien
- Dalam kondisi deployment yang sama, kecepatan decoding meningkat 2 kali lipat
- Pada tahap pascapelatihan model, 96,7% dari total daya komputasi dialokasikan untuk reinforcement learning
- Mengumpulkan dataset yang mencakup berbagai masalah seperti matematika, penalaran logis, sains, dan kode untuk memperkuat kemampuan penalaran model
- Memperkuat performa model melalui umpan balik jawaban benar dan umpan balik pengguna secara real-time
- Menerapkan metode curriculum learning
- Tingkat kesulitan data ditingkatkan secara bertahap sambil memperluas panjang konteks model
- Memperkuat kemampuan penggunaan token secara efisien
- Strategi reinforcement learning: menerapkan strategi pembelajaran ulang data dan reset kebijakan → stabilitas pelatihan meningkat lebih dari 50%
- Sistem reward
- Mengadopsi metode self-reward → mengevaluasi dan memberi skor pada output model secara mandiri
- Menerapkan skema reward yang komprehensif → memperkuat efisiensi informasi dan detail konten model
Evaluasi performa benchmark
- Menunjukkan performa unggul pada metrik penalaran Tiongkok dan Inggris seperti MMLU-pro, CEval, AIME, Zebra Logic
- Performa setara dengan DeepSeek R1 atau hasil yang sedikit lebih baik
- Unggul dalam kreativitas budaya, ringkasan teks, dan kemampuan agen
- Meraih 87,2 poin pada evaluasi MMLU-PRO → membuktikan memori dan pemahaman yang unggul di 14 bidang seperti humaniora, ilmu sosial, dan sains-teknologi
- Mencatat 69,3 poin pada evaluasi GPQA-diamond → mengonfirmasi kemampuan menyelesaikan soal fisika, kimia, dan biologi setingkat doktoral
- Membuktikan performa kuat dalam kode, matematika, dan penalaran logis
- Meraih 64,9 poin di LiveCodeBench → mengonfirmasi kemampuan menulis dan memahami kode
- 96,2 poin di MATH-500 → membuktikan kemampuan pemecahan masalah matematika yang mendekati DeepSeek R1
- Meraih 91,9 poin di ArenaHard → menunjukkan kemampuan adaptasi yang kuat dalam berbagai tugas alignment, mengikuti instruksi, dan pemanfaatan alat
1 komentar
Komentar Hacker News