6 poin oleh GN⁺ 2025-02-08 | 1 komentar | Bagikan ke WhatsApp

Memahami: model penalaran

  • Definisi model penalaran: Model penalaran adalah proses menjawab pertanyaan yang membutuhkan generasi multi-langkah termasuk langkah perantara untuk menyelesaikan masalah yang kompleks. Misalnya, pertanyaan seperti, "Jika kereta bergerak dengan kecepatan 60 mil per jam selama 3 jam, berapa jauh jaraknya?" memerlukan penalaran, tidak seperti pertanyaan sederhana berbasis fakta.

  • Kebutuhan akan model penalaran: Cocok untuk tugas kompleks seperti teka-teki, soal matematika tingkat lanjut, dan masalah coding yang rumit. Namun, model ini tidak diperlukan untuk tugas sederhana seperti peringkasan, penerjemahan, dan tanya jawab berbasis pengetahuan. Model penalaran mahal dan kadang dapat menimbulkan kesalahan karena berpikir berlebihan.

Pipeline pelatihan DeepSeek R1

  • DeepSeek-R1-Zero: Model berbasis DeepSeek-V3 pra-pelatihan 671B yang dilatih hanya dengan reinforcement learning (RL). Ini disebut pelatihan "cold start", dan tidak memiliki tahap supervised fine-tuning (SFT), berbeda dengan RLHF pada umumnya.

  • DeepSeek-R1: Model penalaran andalan DeepSeek, yang ditingkatkan dari DeepSeek-R1-Zero melalui tahap SFT tambahan dan pelatihan RL.

  • DeepSeek-R1-Distill: Meningkatkan kemampuan penalaran dengan melakukan fine-tuning pada model Qwen dan Llama menggunakan data SFT yang dihasilkan pada tahap sebelumnya.

Empat metode utama untuk membangun dan meningkatkan model penalaran

  1. Reasoning-time scaling: Metode untuk meningkatkan kualitas output dengan menambah sumber daya komputasi selama inferensi. Misalnya, dengan memasukkan frasa seperti "berpikirlah langkah demi langkah" ke dalam prompt input untuk mendorong model menghasilkan langkah penalaran perantara.

  2. Reinforcement learning (RL) murni: DeepSeek-R1-Zero menunjukkan bahwa penalaran dapat muncul sebagai perilaku melalui RL murni. Menggunakan reward akurasi dan reward format untuk membantu model mengembangkan teknik penalaran dasar.

  3. Supervised fine-tuning (SFT) dan reinforcement learning (RL): DeepSeek-R1 meningkatkan performa penalaran dengan menggabungkan SFT dan RL. Ini adalah pendekatan penting untuk membangun model penalaran berperforma tinggi.

  4. Supervised fine-tuning (SFT) murni dan distilasi: DeepSeek melatih model yang lebih kecil untuk meningkatkan efisiensi. Meski lebih kecil, model ini menunjukkan performa yang relatif kuat dibandingkan DeepSeek-R1-Zero.

Pemikiran tentang DeepSeek R1

  • DeepSeek-R1 tersedia sebagai open source dengan lisensi MIT, menjadikannya sumber daya yang berguna bagi para peneliti. Dibandingkan dengan o1 milik OpenAI, DeepSeek-R1 lebih efisien dalam waktu penalaran. Namun, karena kurangnya detail tentang o1 milik OpenAI, perbandingan langsung sulit dilakukan.

Mengembangkan model penalaran dengan anggaran terbatas

  • Distilasi model dapat menjadi alternatif yang hemat biaya. Tim DeepSeek membuktikannya melalui model R1-distilled, yang jauh lebih kecil daripada DeepSeek-R1 tetapi menunjukkan performa penalaran yang kuat.

1 komentar

 
GN⁺ 2025-02-08
Pendapat Hacker News
  • Ada kecenderungan model penalaran LLM terlalu dioptimalkan untuk masalah coding dan matematika

    • Masalah yang tidak terdefinisi dengan baik membutuhkan lebih banyak penalaran, dan ini harus melampaui ambiguitas rekayasa perangkat lunak semata
    • LLM cenderung terlalu disesuaikan dengan soal matematika sehingga tidak cukup banyak berpikir di bidang lain
    • Menyukai belajar mandiri, dan membutuhkan lawan bicara yang dapat memahami topik kompleks serta menangkap kesalahpahaman
    • LLM dapat menyelesaikan masalah coding dengan baik, tetapi terlalu disesuaikan dengan teka-teki coding/matematika
  • Diperlukan riset untuk melatih LLM dengan bahasa formal terbatas, bukan bahasa alami

    • Ada pekerjaan integrasi antara Lean dan ChatGPT, tetapi bukan pendekatan yang dipimpin oleh LLM yang dilatih dengan bahasa alami
    • Membayangkan sistem yang dapat mencoba berbagai pendekatan secara kreatif dan menghindari jalur yang salah
  • "Terlalu banyak berpikir" pada model penalaran bisa menjadi masalah besar berikutnya

    • Berpikir lebih dalam tidak selalu merupakan hal yang baik
  • Makalah R1 mudah dibaca, dan hasilnya menjelaskan dirinya sendiri

    • Disarankan untuk membaca makalah R1, V3, dan DeepSeekMath
  • Apakah LLM benar-benar "berpikir" adalah pembahasan yang terpisah

    • Apakah komputer bisa berpikir sudah lama menjadi persoalan yang terselesaikan
  • Ada contoh nyata AI melakukan identifikasi berlebihan pada pencitraan medis

    • Data pelatihan membuatnya mengenali elemen tertentu sebagai penanda kanker
  • Kita perlu memahami bahwa LLM tidak dapat bernalar

  • Klaim "aha moment" dalam laporan teknis DeepSeek-R1 terasa meragukan

    • Model ini berbasis DeepSeek V3, dan mengalami masalah overthinking serta masalah format
    • Komunitas sedang berupaya mereimplementasikan pipeline-nya
  • Beberapa bulan lalu, ada usulan di HN tentang metode penyaringan untuk meningkatkan LLM, dan sekarang ini dijelaskan sebagai "penalaran"

    • Tidak menyangka DeepSeek akan menguasai pasar dengan metode yang sederhana
    • Intuisi perlu ditanggapi dengan serius