2 poin oleh GN⁺ 2024-03-17 | 1 komentar | Bagikan ke WhatsApp

Quiet-STaR: Dapat Mengajarkan Model Bahasa untuk Berpikir Sebelum Berbicara

  • Manusia terkadang berhenti untuk berpikir saat menulis atau berbicara, dan penalaran semacam ini tersirat dalam hampir semua teks tertulis.
  • Dalam Self-Taught Reasoner(STaR), ditunjukkan cara mempelajari pemikiran yang berguna dengan menalar dasar dalam tanya-jawab dari sejumlah kecil contoh, lalu belajar dari dasar yang menghasilkan jawaban yang benar.
  • Quiet-STaR adalah generalisasi dari STaR, yang melatih model bahasa untuk menghasilkan dasar pada setiap token guna menjelaskan teks masa depan sehingga prediksi menjadi lebih baik.

Tantangan utama dan solusi

  • Ada tantangan seperti biaya komputasi dari pembuatan teks berurutan, masalah bahwa model bahasa pada awalnya tidak tahu cara menghasilkan atau menggunakan pemikiran internal, serta kebutuhan untuk memprediksi melampaui token berikutnya secara individual.
  • Untuk mengatasi masalah ini, diusulkan algoritma sampling paralel per token yang menggunakan token yang dapat dipelajari untuk menandai awal dan akhir pemikiran, serta teknik teacher-forcing yang diperluas.

Peningkatan kinerja model

  • Dasar yang dihasilkan membantu memprediksi token-token yang sulit dan meningkatkan kemampuan model bahasa untuk menjawab langsung pertanyaan yang sulit.
  • Setelah model bahasa terus dipra-latih dengan Quiet-STaR pada korpus teks internet, ditemukan peningkatan zero-shot pada GSM8K(5.9%→10.9%) dan CommonsenseQA(36.3%→47.2%), serta peningkatan perplexity pada token-token sulit dalam teks alami.
  • Peningkatan ini dicapai tanpa fine-tuning untuk tugas-tugas tersebut.

Opini GN⁺

  • Quiet-STaR menunjukkan satu langkah maju menuju cara yang lebih umum dan dapat diskalakan bagi model bahasa untuk mempelajari penalaran.
  • Riset ini menandai kemajuan penting dalam memperkuat pemahaman bahasa dan kemampuan penalaran di bidang kecerdasan buatan, serta dapat berkontribusi pada perkembangan teknologi pemrosesan bahasa alami.
  • Dari sudut pandang kritis, ketika teknologi seperti ini diterapkan pada masalah dunia nyata yang kompleks, hal itu dapat menimbulkan hasil yang tidak terduga, sehingga diperlukan riset tambahan dan langkah-langkah pengamanan.
  • Proyek lain dengan fungsi serupa mencakup seri GPT dari OpenAI dan BERT dari Google, yang juga sedang diteliti untuk meningkatkan kemampuan pemahaman dan generasi bahasa.
  • Hal-hal yang perlu dipertimbangkan saat mengadopsi teknologi ini mencakup kualitas dan keberagaman data pelatihan, penggunaan model yang etis, serta biaya komputasi; manfaat yang dapat diperoleh dari memilih teknologi ini adalah terciptanya model bahasa yang lebih akurat dan lebih rinci.

1 komentar

 
GN⁺ 2024-03-17
Opini Hacker News
  • Jika sebuah jaringan tersusun dengan kedalaman sekitar 50 lapisan, itu berarti jaringan ini dapat bernalar tentang pertanyaan simbolik sebanyak 50 'langkah'. Bisa jadi 50 langkah dalam subruang tempat model dilatih dapat mencapai lebih banyak daripada satu langkah manusia, tetapi kita tahu manusia memiliki kemampuan untuk berpikir dan menimbang-nimbang melampaui langkah-langkah tersebut.
  • Edsger Dijkstra, meskipun penutur asli bahasa Belanda, memiliki gaya bahasa Inggris yang sangat presisi. Ia mengenang bahwa sejak kecil ia diajarkan untuk sudah tahu bagaimana sebuah kalimat akan diakhiri sebelum mulai mengucapkannya. Ada dugaan bahwa terdapat hubungan kausal antara dua pengamatan ini.
  • Saya terpikir bahwa pola penalaran 'chain of thought' yang berkontribusi pada peningkatan kinerja sistem berbasis LLM berjalan paralel dengan model dua sistem yang dibahas dalam Thinking, Fast and Slow karya Kahneman. 'Sistem 1' digunakan untuk pikiran yang diproses dengan usaha dan komputasi rendah, sedangkan 'Sistem 2' dipakai untuk pekerjaan kognitif sadar yang tingkatnya tinggi. Menanggapi kritik bahwa LLM tampaknya hanya menggunakan 'Sistem 1', ketika LLM diarahkan untuk berpikir langkah demi langkah, itu mirip dengan memberinya kotak pasir pengambilan keputusan seperti 'Sistem 2'.
  • Ini adalah bagian yang hilang untuk melatih AI pada banyak tugas yang jawabannya sudah diketahui tetapi langkah penalarannya tidak ada. Dengan metode ini, kemampuan bernalar dapat dicapai bahkan dengan sedikit data beranotasi. Jika pikiran yang dihasilkan sulit dipahami manusia tetapi jauh lebih membantu dalam mendapatkan jawaban yang benar, maka kita bisa mengatakan bahwa kita telah menciptakan sesuatu yang lebih cerdas daripada diri kita sendiri.
  • Banyak makna dalam teks tersembunyi di antara baris-barisnya, dan jika pembaca tidak memahami mengapa suatu pernyataan muncul dalam dokumen, maka pemahamannya hanya dangkal. Namun kebanyakan orang memiliki model dunia dan sampai tingkat tertentu tahu alasan pernyataan-pernyataan yang muncul dalam buku. Misalnya, saat membaca buku teks dinamika fluida, Anda mungkin tidak memahami matematikanya, tetapi Anda tahu mengapa pernyataan itu muncul.
  • Ada pertanyaan apakah para penulis makalah ini terkait dengan model Q* milik OpenAI yang dikelilingi rumor, atau apakah ini sekadar kebetulan nama.
  • Mereka tidak mengutip makalah [1] tentang language modeling yang menerapkan komputasi variabel (yang dipelajari) pada RNN, yang mendahului karya mereka hampir 8 tahun. Saat itu Microsoft juga memiliki sesuatu yang serupa untuk pengenalan gambar.
  • Ini pada dasarnya sama dengan yang saya coba pagi ini di tingkat prompt, tetapi saya melangkah lebih jauh dengan memikirkan pengenalan 'meta-token' yang membantu LLM menelusuri kembali konteksnya. Sebagian meta-token ini dapat memiliki efek samping seperti menekankan, menyusun, merangkum, atau melupakan sebagian konteks. Ini tidak hanya dapat memberi LLM kemampuan logis/penalaran, tetapi juga menyediakan sarana untuk membentuk struktur kognitifnya sendiri.
  • Ada kasus di mana tim Intel, seperti halnya NeuralChat, mencoba menggunakan Base Mistral 7B dengan cara yang membuatnya tidak layak untuk evaluasi.
  • Riset ini tampak sangat menarik, dan ada pertanyaan apakah para peneliti kemungkinan akan segera merilis kodenya.