14 poin oleh GN⁺ 2025-02-06 | 2 komentar | Bagikan ke WhatsApp
  • Makalah baru "s1: Simple test-time scaling" yang dirilis pada 3 Februari sedang menjadi pembicaraan di bidang AI
  • Poin pentingnya bukan pada model itu sendiri, melainkan pada fakta bahwa ini mengisyaratkan kemungkinan terjadinya kemajuan besar di bidang AI
  • Model ini belum mencapai tingkat teknologi terkini (SOTA), tetapi merupakan model kecil yang bahkan bisa dijalankan di laptop
  • Yang penting, model ini membantu memahami bagaimana teknik ini bekerja tanpa isi yang rumit

Penskalaan inferensi: "Tunggu" untukku!

  • OpenAI mengklaim bahwa “semakin lama waktu penalaran, semakin baik performa LLM” sambil menampilkan grafik
  • Pada dasarnya, jika LLM bisa "berpikir" lebih lama, performanya bisa lebih tinggi
  • Masalahnya adalah bagaimana mengendalikan model agar bisa "berpikir" lebih lama sebelum menjawab, dan penjelasan tentang cara melakukannya masih kurang
  • Makalah s1 menjelaskan bagian ini secara rinci, dan cukup menarik
    > Saat LLM "berpikir" ketika melakukan penalaran, proses berpikir internal model disimpan di dalam tag <think> dan </think>, lalu ketika </think> muncul, model dilatih untuk mengubah suaranya menjadi nada yang percaya diri dan berwibawa untuk jawaban akhir
  • Makalah s1 menjelaskan teknik sederhana untuk memaksa "</think>" diganti menjadi "Wait" agar model "merenung" lebih lama
    • Dengan menghapus atau mengganti "</think>", model diarahkan untuk terus melanjutkan pemikiran
    • Inferensi juga bisa dipotong singkat dengan cara tiba-tiba menyisipkan "</think>"
  • Melalui cara seperti ini, diperkirakan model seperti o3-mini-low dan o3-mini-high dilatih agar memiliki rata-rata waktu penalaran yang berbeda
    • Kemungkinan mereka melatih 3 model, masing-masing dengan rata-rata waktu berpikir yang berbeda (diukur selama pelatihan)
    • Pada akhirnya, proses pelatihan mulai mengenkode perilaku itu ke dalam bobot model

Keterkaitan dengan Entropix

  • Teknik "Wait" yang diperkenalkan di makalah s1 tidak jauh berbeda dari pendekatan yang dikejar Entropix
  • Entropix adalah teknik yang mengubah cara pemilihan token dengan melihat entropi logit dan attention, serta varentropy
    • Tampaknya ada upaya untuk membuat model mempertimbangkan kembali jawabannya melalui token seperti "Wait"
  • Pendekatan seperti ini diperkirakan bisa diterapkan baik pada saat inferensi maupun saat pelatihan

Penghematan data ekstrem (Extreme Data Frugality)

  • Alasan model s1 diklaim dikembangkan hanya dengan biaya 6 dolar adalah karena ia dilatih dengan model kecil dan data dalam jumlah sedikit
  • Prosesnya dilakukan dengan memilih hanya 1K data paling bernilai dari 56K contoh data
    • Kesimpulannya, data tambahan sama sekali tidak meningkatkan performa model
  • Karena ukurannya 32B, model ini bahkan bisa dijalankan di laptop
  • Model ini menggunakan 16 NVIDIA H100 selama sekitar 26 menit, dan biayanya diperkirakan sekitar 6 dolar
  • Karena biayanya rendah, banyak eksperimen (ablations) bisa dicoba, dan memang dilakukan pelatihan ulang penuh berulang kali sambil sedikit mengubah berbagai variabel
    • Contoh: mengukur langsung token mana yang lebih efektif antara "Wait" dan "Hmm"
    • Juga diuji bagian mana dari data contoh inti yang memberikan sinyal paling bermakna

Implikasi geopolitik

  • Ada pandangan bahwa AI terkait erat dengan keamanan nasional
  • Dari sinilah asal alasan perusahaan seperti OpenAI dan Anthropic menggelontorkan anggaran besar
  • Meski inovasi pengurangan biaya seperti s1 telah muncul, penting juga bahwa dengan modal besar, jauh lebih banyak percobaan bisa dijalankan secara bersamaan
  • Ada juga argumen bahwa investasi yang lebih besar diperlukan untuk semakin mempercepat laju perkembangan AI

Distealing (distilasi model tanpa izin)

  • Dataset s1 pada dasarnya adalah hasil distilasi yang memanfaatkan thought trace dari model lain (Qwen2.5)
  • OpenAI mencurigai DeepSeek melakukan distilasi tanpa izin terhadap model o1 miliknya untuk membuat model V3
  • Namun, pada kenyataannya semakin sulit untuk mencegah praktik distilasi
    • Sekitar 1.000 contoh adalah jumlah yang cukup realistis untuk dikumpulkan oleh individu
  • Alasan OpenAI belakangan merilis model o3 dalam bentuk agen alih-alih mendistribusikannya secara langsung juga tampak sebagai upaya untuk mencegah distilasi tanpa izin seperti ini

Kesimpulan

  • Kemunculan s1 adalah contoh yang menunjukkan seberapa cepat AI berevolusi di ranah terbuka
  • Perusahaan seperti OpenAI dan Anthropic sangat mungkin mencapai kemajuan yang lebih cepat dengan memanfaatkan sumber daya komputasi yang jauh lebih besar
  • s1 bukan sekadar menyalin R1 atau o1, melainkan menunjukkan bahwa bahkan hanya dengan SFT (Supervised Fine Tuning), bukan RL, kemungkinan serupa bisa dibuka
  • Ada pandangan bahwa inovasi yang lebih besar dapat diharapkan pada 2025

2 komentar

 
hoonix 2025-02-06

Permainan kata yang memelesetkan Distillation menjadi Distealing itu lucu ya!

 
GN⁺ 2025-02-06
Opini Hacker News
  • Menarik melihat perluasan penalaran melalui peretasan 'Wait'. Terasa seperti perkembangan ilmu komputer mirip mengucapkan mantra, karena metode sederhana bisa memengaruhi performa. Saya jadi penasaran bagaimana cara mulai berpikir seperti ini

  • Jika alur pemikiran memberi model 'layer' sementara yang berperan sebagai buffer untuk memproses teks, saya penasaran apakah masuk akal menjadikan buffer ini sebagai konteks terpisah dengan FNN dan mekanisme perhatian tersendiri. Ini dapat digabungkan dengan mikroproses yang dijelaskan dalam bahasa alami untuk memberikan representasi 'pemikiran' yang lebih padat

  • CoT adalah teknik yang sudah dikenal luas, tetapi DeepSeek berfokus mencari optimasi memori, bandwidth, dan paralelisme karena keterbatasan komputasi. Optimasi mereka di tingkat infrastruktur dan perangkat lunak patut diperhatikan

  • Saya rasa benchmark saat ini belum cukup kuat, dan lab riset LLM di AS kemungkinan menyadari kurangnya optimasi infrastruktur dan perangkat keras. Tingkat RL dan pelatihan induk akan menjadi semakin penting

  • Menarik bahwa metode yang dieksperimenkan lewat peretasan AI juga digunakan di lab. Saya menggunakan cara menggantinya dengan 'Okay' agar R1 terus berpikir

  • Saya sudah mem-bookmark blog Tim. Perkembangan di bidang AI dan jaringan saraf sangat mengejutkan. Secara pribadi saya kesulitan membuat agen berbasis LLM dengan model on-device yang lemah

  • Memiliki 10.000 H100 berarti bisa melakukan eksperimen 625 kali lebih banyak daripada S1. Perusahaan besar cenderung menyia-nyiakan sumber daya komputasi

  • Menarik melihat cara mengendalikan panjang output model penalaran. Mereka menemukan cara menyuntikkan CoT dan membuat jailbreak lebih mudah dengan menggantinya menjadi 'Wait'

  • Memberikan tautan ke makalah asli tentang S1

  • Dalam organisasi besar, sulit melakukan banyak eksperimen, dan karyawan fokus menghasilkan hasil dengan cepat. Pekerjaan didorong terburu-buru demi keuntungan jangka pendek

  • Membentuk output LLM itu seperti membuat patung. Model harus dimasukkan ke dalam game loop dan diajak berinteraksi di setiap tick untuk mendapatkan hasil yang diinginkan. Haus akan sumber daya komputasi akan terus berlanjut