Sky-T1: Melatih model penalaran berperforma tinggi setara o1 preview dengan biaya $450

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview adalah model penalaran dan coding dengan performa yang mirip o1-preview, dan dilatih hanya dengan biaya rendah sebesar $450 (sekitar 650 ribu won) Semua kode disediakan sebagai open source sehingga siapa pun dapat mereproduksi dan meningkatkannya Model penalaran berperforma tinggi seperti o1 dan Gemini 2.0 dapat menyelesaikan tugas yang kompleks, tetapi detail teknis dan bobot modelnya tetap tertutup Open source sepenuhnya: berkembang bersama Sky-T1-32B-Preview meng-open-source-kan semua detail: Infrastruktur: repositori terpadu untuk pembangunan data, pelatihan model, dan evaluasi Data: menyediakan 17.000 data pelatihan Detail teknis: laporan teknis dan log wandb Bobot model: bobot model berukuran 32B Cara membuatnya (Recipes) Proses persiapan data Menggunakan model QwQ-32B-Preview untuk menghasilkan data, lalu menyusun campuran data yang mencakup berbagai domain Rekonstruksi dan perbaikan format: Data QwQ diformat ulang dengan GPT-4o-mini untuk meningkatkan efisiensi pelatihan model penalaran Melalui pemformatan ulang, akurasi data coding meningkat dari 25% menjadi lebih dari 90% Rejection sampling: Soal matematika: menghapus sampel yang tidak akurat dengan membandingkannya dengan jawaban benar Soal coding: memverifikasi jawaban benar dengan menjalankan unit test dari dataset Data akhir: Data coding: 5.000 dari dataset APPs dan TACO Data matematika: 10.000 dari AIME, MATH, Olympiads milik NuminaMATH Data lainnya: 1.000 soal sains dan puzzle Proses pelatihan Model yang dilatih: Qwen2.5-32B-Instruct (model open source tanpa kemampuan penalaran) Lingkungan pelatihan: Menggunakan 8 GPU H100, DeepSpeed Zero-3 offloading Waktu pelatihan: 19 jam Biaya: sekitar $450 (berdasarkan Lambda Cloud) Pelatihan dilakukan menggunakan Llama-Factory Ringkasan evaluasi dan hasil Sky-T1-32B-Preview menunjukkan performa berikut dibanding model pesaing di berbagai benchmark: Math500: Sky-T1 mencatat 82,4%, hampir setara dengan o1-preview (81,4%) dan jauh melampaui Qwen-2.5 (76,2%) AIME2024: Sky-T1 mencatat 43,3%, lebih tinggi dari o1-preview (40,0%) dan jauh lebih unggul dibanding Qwen-2.5 (16,7%) LiveCodeBench (Easy): Sky-T1 mencatat 86,3%, mirip dengan Qwen-2.5 (84,6%), dan selisihnya kecil dengan o1-preview (92,9%) LiveCodeBench (Medium): Sky-T1 mencatat 56,8%, lebih tinggi dari o1-preview (54,9%) dan jauh di atas Qwen-2.5 (40,8%) LiveCodeBench (Hard): Sky-T1 mencatat 17,9%, sedikit melampaui o1-preview (16,3%) dan menunjukkan selisih besar dibanding Qwen-2.5 (9,8%) GPQA-Diamond: Sky-T1 mencatat 56,8%, sedikit di atas QwQ (52,5%) tetapi masih di bawah o1-preview (75,2%) Sky-T1-32B-Preview menunjukkan performa kuat di dua bidang, matematika dan coding, khususnya unggul pada tugas coding tingkat menengah Model ini juga berada di jajaran atas pada benchmark terkait matematika, membuktikan bahwa model ini efisien sekaligus kuat secara keseluruhan. Temuan utama Pentingnya ukuran model: Pada model berukuran 7B dan 14B hanya terlihat peningkatan yang terbatas Model 32B jauh lebih unggul dari sisi performa dan konsistensi hasil Pentingnya campuran data: Pelatihan dengan data domain tunggal dapat menurunkan performa Dengan mencampur data matematika dan coding secara seimbang, performa unggul dicapai di kedua domain Rencana ke depan Fokus pada pengembangan model yang mempertahankan efisiensi sambil memberikan performa penalaran tinggi Meneliti teknik lanjutan untuk meningkatkan efisiensi waktu inferensi dan akurasi Menargetkan pengembangan model yang lebih maju melalui kolaborasi dengan komunitas

(novasky-ai.github.io)

22 poin oleh xguru 2025-01-17 | 1 komentar | Bagikan ke WhatsApp

Sky-T1-32B-Preview adalah model penalaran dan coding dengan performa yang mirip o1-preview, dan dilatih hanya dengan biaya rendah sebesar $450 (sekitar 650 ribu won)
Semua kode disediakan sebagai open source sehingga siapa pun dapat mereproduksi dan meningkatkannya
- Model penalaran berperforma tinggi seperti o1 dan Gemini 2.0 dapat menyelesaikan tugas yang kompleks, tetapi detail teknis dan bobot modelnya tetap tertutup

Open source sepenuhnya: berkembang bersama

Sky-T1-32B-Preview meng-open-source-kan semua detail:
- Infrastruktur: repositori terpadu untuk pembangunan data, pelatihan model, dan evaluasi
- Data: menyediakan 17.000 data pelatihan
- Detail teknis: laporan teknis dan log wandb
- Bobot model: bobot model berukuran 32B

Cara membuatnya (Recipes)

Proses persiapan data

Menggunakan model QwQ-32B-Preview untuk menghasilkan data, lalu menyusun campuran data yang mencakup berbagai domain
Rekonstruksi dan perbaikan format:
- Data QwQ diformat ulang dengan GPT-4o-mini untuk meningkatkan efisiensi pelatihan model penalaran
- Melalui pemformatan ulang, akurasi data coding meningkat dari 25% menjadi lebih dari 90%
Rejection sampling:
- Soal matematika: menghapus sampel yang tidak akurat dengan membandingkannya dengan jawaban benar
- Soal coding: memverifikasi jawaban benar dengan menjalankan unit test dari dataset
Data akhir:
- Data coding: 5.000 dari dataset APPs dan TACO
- Data matematika: 10.000 dari AIME, MATH, Olympiads milik NuminaMATH
- Data lainnya: 1.000 soal sains dan puzzle

Proses pelatihan

Model yang dilatih: Qwen2.5-32B-Instruct (model open source tanpa kemampuan penalaran)
Lingkungan pelatihan:
- Menggunakan 8 GPU H100, DeepSpeed Zero-3 offloading
- Waktu pelatihan: 19 jam
- Biaya: sekitar $450 (berdasarkan Lambda Cloud)
Pelatihan dilakukan menggunakan Llama-Factory

Ringkasan evaluasi dan hasil

Sky-T1-32B-Preview menunjukkan performa berikut dibanding model pesaing di berbagai benchmark:
- Math500: Sky-T1 mencatat 82,4%, hampir setara dengan o1-preview (81,4%) dan jauh melampaui Qwen-2.5 (76,2%)
- AIME2024: Sky-T1 mencatat 43,3%, lebih tinggi dari o1-preview (40,0%) dan jauh lebih unggul dibanding Qwen-2.5 (16,7%)
- LiveCodeBench (Easy): Sky-T1 mencatat 86,3%, mirip dengan Qwen-2.5 (84,6%), dan selisihnya kecil dengan o1-preview (92,9%)
- LiveCodeBench (Medium): Sky-T1 mencatat 56,8%, lebih tinggi dari o1-preview (54,9%) dan jauh di atas Qwen-2.5 (40,8%)
- LiveCodeBench (Hard): Sky-T1 mencatat 17,9%, sedikit melampaui o1-preview (16,3%) dan menunjukkan selisih besar dibanding Qwen-2.5 (9,8%)
- GPQA-Diamond: Sky-T1 mencatat 56,8%, sedikit di atas QwQ (52,5%) tetapi masih di bawah o1-preview (75,2%)
Sky-T1-32B-Preview menunjukkan performa kuat di dua bidang, matematika dan coding, khususnya unggul pada tugas coding tingkat menengah
Model ini juga berada di jajaran atas pada benchmark terkait matematika, membuktikan bahwa model ini efisien sekaligus kuat secara keseluruhan.

Temuan utama

Pentingnya ukuran model:
- Pada model berukuran 7B dan 14B hanya terlihat peningkatan yang terbatas
- Model 32B jauh lebih unggul dari sisi performa dan konsistensi hasil
Pentingnya campuran data:
- Pelatihan dengan data domain tunggal dapat menurunkan performa
- Dengan mencampur data matematika dan coding secara seimbang, performa unggul dicapai di kedua domain

Rencana ke depan

Fokus pada pengembangan model yang mempertahankan efisiensi sambil memberikan performa penalaran tinggi
Meneliti teknik lanjutan untuk meningkatkan efisiensi waktu inferensi dan akurasi
Menargetkan pengembangan model yang lebih maju melalui kolaborasi dengan komunitas

1 komentar

kimjoin2 2025-01-17

Kenapa... kenapa aku membacanya sebagai SKT-T1 ya