22 poin oleh xguru 2025-01-17 | 1 komentar | Bagikan ke WhatsApp
  • Sky-T1-32B-Preview adalah model penalaran dan coding dengan performa yang mirip o1-preview, dan dilatih hanya dengan biaya rendah sebesar $450 (sekitar 650 ribu won)
  • Semua kode disediakan sebagai open source sehingga siapa pun dapat mereproduksi dan meningkatkannya
    • Model penalaran berperforma tinggi seperti o1 dan Gemini 2.0 dapat menyelesaikan tugas yang kompleks, tetapi detail teknis dan bobot modelnya tetap tertutup

Open source sepenuhnya: berkembang bersama

  • Sky-T1-32B-Preview meng-open-source-kan semua detail:

Cara membuatnya (Recipes)

Proses persiapan data

  • Menggunakan model QwQ-32B-Preview untuk menghasilkan data, lalu menyusun campuran data yang mencakup berbagai domain
  • Rekonstruksi dan perbaikan format:
    • Data QwQ diformat ulang dengan GPT-4o-mini untuk meningkatkan efisiensi pelatihan model penalaran
    • Melalui pemformatan ulang, akurasi data coding meningkat dari 25% menjadi lebih dari 90%
  • Rejection sampling:
    • Soal matematika: menghapus sampel yang tidak akurat dengan membandingkannya dengan jawaban benar
    • Soal coding: memverifikasi jawaban benar dengan menjalankan unit test dari dataset
  • Data akhir:
    • Data coding: 5.000 dari dataset APPs dan TACO
    • Data matematika: 10.000 dari AIME, MATH, Olympiads milik NuminaMATH
    • Data lainnya: 1.000 soal sains dan puzzle

Proses pelatihan

  • Model yang dilatih: Qwen2.5-32B-Instruct (model open source tanpa kemampuan penalaran)
  • Lingkungan pelatihan:
    • Menggunakan 8 GPU H100, DeepSpeed Zero-3 offloading
    • Waktu pelatihan: 19 jam
    • Biaya: sekitar $450 (berdasarkan Lambda Cloud)
  • Pelatihan dilakukan menggunakan Llama-Factory

Ringkasan evaluasi dan hasil

  • Sky-T1-32B-Preview menunjukkan performa berikut dibanding model pesaing di berbagai benchmark:
    • Math500: Sky-T1 mencatat 82,4%, hampir setara dengan o1-preview (81,4%) dan jauh melampaui Qwen-2.5 (76,2%)
    • AIME2024: Sky-T1 mencatat 43,3%, lebih tinggi dari o1-preview (40,0%) dan jauh lebih unggul dibanding Qwen-2.5 (16,7%)
    • LiveCodeBench (Easy): Sky-T1 mencatat 86,3%, mirip dengan Qwen-2.5 (84,6%), dan selisihnya kecil dengan o1-preview (92,9%)
    • LiveCodeBench (Medium): Sky-T1 mencatat 56,8%, lebih tinggi dari o1-preview (54,9%) dan jauh di atas Qwen-2.5 (40,8%)
    • LiveCodeBench (Hard): Sky-T1 mencatat 17,9%, sedikit melampaui o1-preview (16,3%) dan menunjukkan selisih besar dibanding Qwen-2.5 (9,8%)
    • GPQA-Diamond: Sky-T1 mencatat 56,8%, sedikit di atas QwQ (52,5%) tetapi masih di bawah o1-preview (75,2%)
  • Sky-T1-32B-Preview menunjukkan performa kuat di dua bidang, matematika dan coding, khususnya unggul pada tugas coding tingkat menengah
  • Model ini juga berada di jajaran atas pada benchmark terkait matematika, membuktikan bahwa model ini efisien sekaligus kuat secara keseluruhan.

Temuan utama

  • Pentingnya ukuran model:
    • Pada model berukuran 7B dan 14B hanya terlihat peningkatan yang terbatas
    • Model 32B jauh lebih unggul dari sisi performa dan konsistensi hasil
  • Pentingnya campuran data:
    • Pelatihan dengan data domain tunggal dapat menurunkan performa
    • Dengan mencampur data matematika dan coding secara seimbang, performa unggul dicapai di kedua domain

Rencana ke depan

  • Fokus pada pengembangan model yang mempertahankan efisiensi sambil memberikan performa penalaran tinggi
  • Meneliti teknik lanjutan untuk meningkatkan efisiensi waktu inferensi dan akurasi
  • Menargetkan pengembangan model yang lebih maju melalui kolaborasi dengan komunitas

1 komentar

 
kimjoin2 2025-01-17

Kenapa... kenapa aku membacanya sebagai SKT-T1 ya