Melatih Sendiri Model O1 Preview dengan Biaya di Bawah 450 Dolar

(sky.cs.berkeley.edu)

1 poin oleh GN⁺ 2025-02-22 | 1 komentar | Bagikan ke WhatsApp

Sky-T1 dari tim NovaSky UC Berkeley adalah proyek yang mengusung klaim bahwa Anda bisa melatih sendiri model penalaran setara O1 Preview dengan biaya di bawah 450 dolar
o1 dan Gemini 2.0 Flash Thinking menunjukkan performa penalaran yang kuat pada tugas-tugas kompleks dengan memanfaatkan rantai pemikiran internal yang panjang
Karena detail teknis dan bobot model seperti ini tidak dipublikasikan, komunitas akademik dan open source sulit mereproduksi serta mengembangkannya
Pernah ada upaya model penalaran berbobot terbuka seperti Still-2 dan Journey, tetapi sebagian besar berfokus pada domain matematika
Tim NovaSky menampilkan pembeda Sky-T1 pada kemampuannya mencapai performa penalaran yang kompetitif di matematika dan coding dalam model yang sama

Masalah yang Disasar Sky-T1

Sky-T1 adalah proyek yang dirilis oleh tim NovaSky dari UC Berkeley Sky Computing Lab, dengan sorotan utama bahwa model O1 Preview dapat dilatih sendiri dengan biaya di bawah 450 dolar
Model yang dikhususkan untuk penalaran seperti o1 dan Gemini 2.0 Flash Thinking menunjukkan kemampuan menghasilkan rantai pemikiran internal yang panjang saat menyelesaikan tugas kompleks
Namun, karena detail teknis dan bobot model dari keluarga ini tidak dapat diakses, komunitas akademik dan open source berada dalam kondisi sulit untuk berpartisipasi langsung

Alur Model Penalaran Berbobot Terbuka dan Pembeda

Sebagai upaya melatih model penalaran berbobot terbuka, Still-2 dan Journey telah muncul, dan keduanya berfokus pada domain matematika
Tim NovaSky mengeksplorasi teknik untuk meningkatkan kemampuan penalaran pada model dasar dan model yang telah di-instruct-tune
Pekerjaan Sky-T1 menekankan bahwa mereka mencapai performa penalaran yang kompetitif dengan model yang sama, bukan hanya di matematika tetapi juga di coding

1 komentar

GN⁺ 2025-02-22

Opini Hacker News

Kalau berminat, saya sudah membuat notebook Colab dengan GPU gratis
Ini mencakup notebook untuk melatih model reasoning dari nol dengan GRPO, algoritma yang dipakai DeepSeek, serta notebook fine-tuning umum yang digunakan tim Berkeley
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
Dataset 17K dari tim Berkeley: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face juga merilis dataset 220K: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Saya penasaran berapa lama ini berjalan di T4 tier gratis
  Tadinya saya kira pekerjaan seperti “mengutak-atik bagian dalam” seperti ini akan jauh lebih sulit diakses bagi programmer biasa, tapi kelihatannya sudah pada level yang ingin saya coba sendiri
Memasukkan O1 preview di namanya terasa aneh karena terlihat seperti clickbait
Saya berharap ada semacam cara untuk melatih ulang o1 preview sungguhan lalu mengunduhnya
Selain itu, menyebutnya O1 preview hanya berdasarkan 7 benchmark juga tidak tepat. Dalam beberapa use case, O1 preview mungkin bisa bekerja lebih baik daripada model ini
Meski begitu, turunnya biaya tetap hal yang bagus
- Menurut saya ini tidak jujur karena namanya merujuk langsung bukan ke model bahasa tertentu saja, melainkan ke versi beta model itu. Entah kenapa mereka melakukan itu
- Setuju. Nama O1 preview agak menyesatkan
  Itu membuat orang mengharapkan performa yang lebih luas melampaui beberapa benchmark tertentu. Penghematan biayanya keren, tetapi pemasarannya seharusnya lebih transparan soal cakupan penerapannya
Kompetisi itu benar-benar bagus
Hanya karena seseorang membuka arsitekturnya, dalam beberapa minggu terakhir kemajuan langsung membanjir
Bayangkan sejauh mana kita bisa melangkah kalau dataset pelatihannya juga dibuka dan tidak terikat hukum hak cipta. Bukan berarti saya mengajak melakukan hal ilegal
Rasanya kita hanya bisa bermimpi
- Ungkapan “kemajuan membanjir” memang pas. Apalagi setelah terungkap Meta melatih modelnya dengan apa :)
- Dataset pelatihan seperti itu hampir semuanya dilindungi hak cipta, jadi tidak akan pernah benar-benar bebas
- Arus seperti itu sebenarnya sudah berjalan, dan DeepSeek tampaknya salah satu contohnya
  Namun ia berhasil menarik perhatian pada kemajuan tersebut, sehingga lebih banyak orang ikut berkontribusi dan menemukan use case yang lebih niche
- Bukankah suasana sekarang kalau punya startup paling panas, ya tinggal langgar hukum dan suap pejabat? /s
  Menambahkan soal /s, dulu saya pernah tinggal di luar negeri dan mengoperasikan kasino Bitcoin yang paling populer saat itu, dan menghabiskan banyak uang serta energi untuk memblokir pemain yang mungkin orang Amerika. Jadi saya tidak menghasilkan uang besar
  Saya pernah menghitung berapa banyak yang perlu dihasilkan untuk melanggar hukum lalu bersembunyi selamanya; mungkin bisa menghasilkan 10–15 juta dolar per tahun, tetapi saya pikir itu belum cukup untuk bersembunyi. Sepertinya saya mengacaukannya
  Orang terkaya di dunia menghasilkan sebagian besar uangnya di masa awal dengan memfasilitasi transaksi perjudian, dan sekarang ia ikut mencampuri semua lembaga federal. Sepertinya saya seharusnya punya nyali untuk meminta maaf belakangan daripada meminta izin dulu
Dalam deployment AI nyata, komputasi saat inference masih sangat kurang dimanfaatkan
Banyak orang membuat model dasar yang harus melakukan reasoning pada ruang masalah yang luas, tetapi belum cukup banyak yang memakai teknik yang sama untuk peningkatan performa per tugas
Reasoning dari model yang lebih besar seperti R1 dapat dengan mudah didistilasi untuk tugas tertentu. Lebih jauh lagi, jika dicampur dengan instruksi berpikir kustom untuk submasalah tertentu, model yang di-fine-tune akan belajar reasoning spesifik tugas sekaligus logika kustom
Ini tidak sulit dan dengan mudah mengalahkan iterasi prompt. Kalau menemukan bug, itu juga bisa diperbaiki
Saya membuat proyek GitHub untuk distilasi model berpikir dan fine-tuning pada tahap inference atas proses berpikir kustom: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- Saya penasaran bagaimana sebaiknya menyusun data fine-tuning untuk rentang kueri yang fleksibel dalam domain masalah tertentu, bukan tugas yang terisolasi
  Ini mirip tuning instruksi umum, tetapi dengan fokus yang jauh lebih sempit
  Misalnya, katakanlah kita membuat aplikasi yang membantu dokter mencari literatur riset untuk membantu diagnosis dan memeriksa hipotesis; tentu kita harus melihat jenis kueri apa yang dibuat melalui pakar domain dan pengguna nyata
  Namun setelah itu, proses menuju dataset yang seimbang dan cukup merepresentasikan distribusi kueri, instruksi, gaya bahasa dan gaya kognitif, format, alur percakapan, dan sebagainya terasa sulit dipahami pendekatannya. Sepertinya ada begitu banyak dimensi yang tak terbatas yang bisa tanpa sengaja menyebabkan overfitting
Tulisan blognya agak kurang jelas, jadi saya memahaminya seperti ini
Mereka membuat data pelatihan dengan QwQ, dan sebagian pembersihannya dilakukan dengan GPT-4o-mini. Dengan data pelatihan itu, mereka melakukan fine-tuning pada Qwen2.5-32B-Instruct, model non-reasoning
Hasilnya, Sky-T1 sedikit lebih buruk daripada QwQ pada tugas reasoning, tetapi jauh lebih baik daripada Qwen2.5
Ada juga reaksi yang meremehkan, tetapi menurut saya ini cukup menarik karena menunjukkan bahwa model dasar bisa di-fine-tune agar lebih baik dalam reasoning
- Akan bagus kalau juga dibandingkan dengan model-model distilasi r1 dari qwen2.5
Ini bukan pelatihan dari nol, melainkan fine-tuning, jadi terlihat seperti proposal yang jauh lebih masuk akal
Meski saya tidak terlalu mendalami bidang ini, dari sudut pandang seseorang yang penasaran dengan detail fine-tuning, saya suka karena dataset dan kodenya sama-sama bisa diunduh
URL yang lebih baik: https://novasky-ai.github.io/posts/sky-t1/
- Diskusi sebelumnya ada di sini: https://news.ycombinator.com/item?id=42681417
Dilatih dengan jejak reasoning dari QwQ, dan dalam evaluasi umumnya sedikit lebih buruk daripada QwQ
Sulit menyebutnya pencapaian luar biasa
Bagian intinya tampaknya: “Pelatihan model selesai dalam 19 jam di 8 H100 dengan DeepSpeed Zero-3 offloading, dengan biaya sekitar 450 dolar berdasarkan harga Lambda Cloud”

Melatih Sendiri Model O1 Preview dengan Biaya di Bawah 450 Dolar

Masalah yang Disasar Sky-T1

Alur Model Penalaran Berbobot Terbuka dan Pembeda

Bacaan terkait

1 komentar

Opini Hacker News