- Sky-T1-32B-Preview adalah model penalaran dan coding dengan performa yang mirip o1-preview, dan dilatih hanya dengan biaya rendah sebesar $450 (sekitar 650 ribu won)
- Semua kode disediakan sebagai open source sehingga siapa pun dapat mereproduksi dan meningkatkannya
- Model penalaran berperforma tinggi seperti o1 dan Gemini 2.0 dapat menyelesaikan tugas yang kompleks, tetapi detail teknis dan bobot modelnya tetap tertutup
Open source sepenuhnya: berkembang bersama
- Sky-T1-32B-Preview meng-open-source-kan semua detail:
Cara membuatnya (Recipes)
Proses persiapan data
- Menggunakan model QwQ-32B-Preview untuk menghasilkan data, lalu menyusun campuran data yang mencakup berbagai domain
- Rekonstruksi dan perbaikan format:
- Data QwQ diformat ulang dengan GPT-4o-mini untuk meningkatkan efisiensi pelatihan model penalaran
- Melalui pemformatan ulang, akurasi data coding meningkat dari 25% menjadi lebih dari 90%
- Rejection sampling:
- Soal matematika: menghapus sampel yang tidak akurat dengan membandingkannya dengan jawaban benar
- Soal coding: memverifikasi jawaban benar dengan menjalankan unit test dari dataset
- Data akhir:
- Data coding: 5.000 dari dataset APPs dan TACO
- Data matematika: 10.000 dari AIME, MATH, Olympiads milik NuminaMATH
- Data lainnya: 1.000 soal sains dan puzzle
Proses pelatihan
- Model yang dilatih: Qwen2.5-32B-Instruct (model open source tanpa kemampuan penalaran)
- Lingkungan pelatihan:
- Menggunakan 8 GPU H100, DeepSpeed Zero-3 offloading
- Waktu pelatihan: 19 jam
- Biaya: sekitar $450 (berdasarkan Lambda Cloud)
- Pelatihan dilakukan menggunakan Llama-Factory
Ringkasan evaluasi dan hasil
- Sky-T1-32B-Preview menunjukkan performa berikut dibanding model pesaing di berbagai benchmark:
- Math500: Sky-T1 mencatat 82,4%, hampir setara dengan o1-preview (81,4%) dan jauh melampaui Qwen-2.5 (76,2%)
- AIME2024: Sky-T1 mencatat 43,3%, lebih tinggi dari o1-preview (40,0%) dan jauh lebih unggul dibanding Qwen-2.5 (16,7%)
- LiveCodeBench (Easy): Sky-T1 mencatat 86,3%, mirip dengan Qwen-2.5 (84,6%), dan selisihnya kecil dengan o1-preview (92,9%)
- LiveCodeBench (Medium): Sky-T1 mencatat 56,8%, lebih tinggi dari o1-preview (54,9%) dan jauh di atas Qwen-2.5 (40,8%)
- LiveCodeBench (Hard): Sky-T1 mencatat 17,9%, sedikit melampaui o1-preview (16,3%) dan menunjukkan selisih besar dibanding Qwen-2.5 (9,8%)
- GPQA-Diamond: Sky-T1 mencatat 56,8%, sedikit di atas QwQ (52,5%) tetapi masih di bawah o1-preview (75,2%)
- Sky-T1-32B-Preview menunjukkan performa kuat di dua bidang, matematika dan coding, khususnya unggul pada tugas coding tingkat menengah
- Model ini juga berada di jajaran atas pada benchmark terkait matematika, membuktikan bahwa model ini efisien sekaligus kuat secara keseluruhan.
Temuan utama
- Pentingnya ukuran model:
- Pada model berukuran 7B dan 14B hanya terlihat peningkatan yang terbatas
- Model 32B jauh lebih unggul dari sisi performa dan konsistensi hasil
- Pentingnya campuran data:
- Pelatihan dengan data domain tunggal dapat menurunkan performa
- Dengan mencampur data matematika dan coding secara seimbang, performa unggul dicapai di kedua domain
Rencana ke depan
- Fokus pada pengembangan model yang mempertahankan efisiensi sambil memberikan performa penalaran tinggi
- Meneliti teknik lanjutan untuk meningkatkan efisiensi waktu inferensi dan akurasi
- Menargetkan pengembangan model yang lebih maju melalui kolaborasi dengan komunitas
1 komentar
Kenapa... kenapa aku membacanya sebagai SKT-T1 ya