Analisis LLM yang Memahami Kemampuan Penalaran
(magazine.sebastianraschka.com)Memahami: model penalaran
-
Definisi model penalaran: Model penalaran adalah proses menjawab pertanyaan yang membutuhkan generasi multi-langkah termasuk langkah perantara untuk menyelesaikan masalah yang kompleks. Misalnya, pertanyaan seperti, "Jika kereta bergerak dengan kecepatan 60 mil per jam selama 3 jam, berapa jauh jaraknya?" memerlukan penalaran, tidak seperti pertanyaan sederhana berbasis fakta.
-
Kebutuhan akan model penalaran: Cocok untuk tugas kompleks seperti teka-teki, soal matematika tingkat lanjut, dan masalah coding yang rumit. Namun, model ini tidak diperlukan untuk tugas sederhana seperti peringkasan, penerjemahan, dan tanya jawab berbasis pengetahuan. Model penalaran mahal dan kadang dapat menimbulkan kesalahan karena berpikir berlebihan.
Pipeline pelatihan DeepSeek R1
-
DeepSeek-R1-Zero: Model berbasis DeepSeek-V3 pra-pelatihan 671B yang dilatih hanya dengan reinforcement learning (RL). Ini disebut pelatihan "cold start", dan tidak memiliki tahap supervised fine-tuning (SFT), berbeda dengan RLHF pada umumnya.
-
DeepSeek-R1: Model penalaran andalan DeepSeek, yang ditingkatkan dari DeepSeek-R1-Zero melalui tahap SFT tambahan dan pelatihan RL.
-
DeepSeek-R1-Distill: Meningkatkan kemampuan penalaran dengan melakukan fine-tuning pada model Qwen dan Llama menggunakan data SFT yang dihasilkan pada tahap sebelumnya.
Empat metode utama untuk membangun dan meningkatkan model penalaran
-
Reasoning-time scaling: Metode untuk meningkatkan kualitas output dengan menambah sumber daya komputasi selama inferensi. Misalnya, dengan memasukkan frasa seperti "berpikirlah langkah demi langkah" ke dalam prompt input untuk mendorong model menghasilkan langkah penalaran perantara.
-
Reinforcement learning (RL) murni: DeepSeek-R1-Zero menunjukkan bahwa penalaran dapat muncul sebagai perilaku melalui RL murni. Menggunakan reward akurasi dan reward format untuk membantu model mengembangkan teknik penalaran dasar.
-
Supervised fine-tuning (SFT) dan reinforcement learning (RL): DeepSeek-R1 meningkatkan performa penalaran dengan menggabungkan SFT dan RL. Ini adalah pendekatan penting untuk membangun model penalaran berperforma tinggi.
-
Supervised fine-tuning (SFT) murni dan distilasi: DeepSeek melatih model yang lebih kecil untuk meningkatkan efisiensi. Meski lebih kecil, model ini menunjukkan performa yang relatif kuat dibandingkan DeepSeek-R1-Zero.
Pemikiran tentang DeepSeek R1
- DeepSeek-R1 tersedia sebagai open source dengan lisensi MIT, menjadikannya sumber daya yang berguna bagi para peneliti. Dibandingkan dengan o1 milik OpenAI, DeepSeek-R1 lebih efisien dalam waktu penalaran. Namun, karena kurangnya detail tentang o1 milik OpenAI, perbandingan langsung sulit dilakukan.
Mengembangkan model penalaran dengan anggaran terbatas
- Distilasi model dapat menjadi alternatif yang hemat biaya. Tim DeepSeek membuktikannya melalui model R1-distilled, yang jauh lebih kecil daripada DeepSeek-R1 tetapi menunjukkan performa penalaran yang kuat.
1 komentar
Pendapat Hacker News
Ada kecenderungan model penalaran LLM terlalu dioptimalkan untuk masalah coding dan matematika
Diperlukan riset untuk melatih LLM dengan bahasa formal terbatas, bukan bahasa alami
"Terlalu banyak berpikir" pada model penalaran bisa menjadi masalah besar berikutnya
Makalah R1 mudah dibaca, dan hasilnya menjelaskan dirinya sendiri
Apakah LLM benar-benar "berpikir" adalah pembahasan yang terpisah
Ada contoh nyata AI melakukan identifikasi berlebihan pada pencitraan medis
Kita perlu memahami bahwa LLM tidak dapat bernalar
Klaim "aha moment" dalam laporan teknis DeepSeek-R1 terasa meragukan
Beberapa bulan lalu, ada usulan di HN tentang metode penyaringan untuk meningkatkan LLM, dan sekarang ini dijelaskan sebagai "penalaran"