- Large Language Model (LLM) dilatih terlebih dahulu dengan sejumlah besar bahasa manusia dan menunjukkan kemampuan penalaran yang kuat
- Metode "Chain-of-Thought (CoT)" membantu model menghasilkan jawaban dengan membiarkannya membuat proses berpikir langkah demi langkah
- Namun, penalaran LLM harus dihasilkan dalam bentuk kata-kata, yang menjadi batasan mendasar bagi model
- Manusia tidak selalu mengekspresikan pikirannya dalam bahasa. Apakah AI juga harus begitu?
- Makalah penelitian Meta, "Training Large Language Models to Reason in a Continuous Latent Space", mengusulkan pendekatan baru COCONUT (Chain of Continuous Thought) untuk mengatasi keterbatasan ini
Metode Chain-of-Thought (CoT)
- CoT menerima pertanyaan sebagai input dan menghasilkan jawaban akhir melalui penalaran bertahap
- Model memproses token input untuk menghasilkan token respons pertama, yaitu awal dari proses penalaran
- Secara berulang, pertanyaan dan token penalaran sebelumnya dimasukkan kembali ke model untuk menyelesaikan seluruh proses penalaran, lalu pada akhirnya menghasilkan jawaban
Metode Chain of Continuous Thought (COCONUT)
- COCONUT menggunakan mode bahasa dan mode pemikiran laten (latent thought) secara bergantian
- Mode bahasa: bekerja seperti model bahasa standar dan menghasilkan token berikutnya
- Mode pemikiran laten: menggunakan hidden state terakhir untuk menghitung langkah berikutnya
- Dalam mode pemikiran laten, hidden state terakhir digunakan sebagai input berikutnya sehingga penalaran bisa dilakukan lebih efisien
- Mode pemikiran laten dimulai dengan token
<bot> dan diakhiri dengan token <eot>, lalu beralih kembali ke mode bahasa
Prosedur pelatihan
- Model dilatih berdasarkan data CoT yang sudah ada sebelumnya, yaitu pertanyaan, langkah penalaran, dan jawaban akhir
- Pelatihan dilakukan secara bertahap:
- Pada tahap awal, model dilatih untuk menghasilkan langkah penalaran berbasis bahasa dan jawaban
- Pada tahap berikutnya, langkah penalaran dihapus dan sebagai gantinya ditambahkan token pemikiran laten untuk pelatihan
- Pada tiap tahap, loss dihitung terhadap langkah penalaran berbasis bahasa yang masih tersisa serta jawaban
- Pemikiran laten sepenuhnya dapat didiferensiasikan sehingga memungkinkan back-propagation
Peralihan dari menghasilkan pemikiran ke menghasilkan token kata
- Ada dua strategi tentang bagaimana model beralih dari mode pemikiran laten ke mode bahasa.
- Strategi pertama adalah "membiarkan model memutuskan menggunakan pengklasifikasi biner", dan strategi kedua adalah "menggunakan jumlah token pemikiran laten yang tetap"
- Kedua strategi memberikan hasil yang serupa, sehingga dipilih pendekatan jumlah tetap yang lebih sederhana
Hasil eksperimen
- Metode Coconut menunjukkan performa yang lebih baik daripada No-CoT pada semua dataset.
- Dibandingkan dengan CoT, CoT lebih unggul pada matematika, tetapi pada ProsQA yang membutuhkan kemampuan perencanaan, Coconut lebih unggul.
- Dibandingkan dengan i-CoT, Coconut menunjukkan akurasi yang lebih baik pada matematika.
- Performa Coconut:
- GSM8K (matematika): performanya lebih rendah daripada CoT
- ProsQA (membutuhkan perencanaan): performanya lebih tinggi daripada CoT
- No-CoT (menghasilkan jawaban langsung tanpa penalaran): Coconut menunjukkan performa lebih baik pada semua dataset
- Dari sisi efisiensi, menghasilkan lebih sedikit token daripada CoT
- Perbandingan dengan i-CoT:
- Akurasi lebih tinggi pada matematika
- Performa serupa pada perencanaan dan penalaran logis
- Efek curriculum learning:
- Model "w/o curriculum" menunjukkan penurunan performa yang besar
Kemampuan penalaran mirip BFS
- Pada dataset ProsQA, COCONUT menunjukkan hasil yang sangat baik dalam pemecahan masalah yang berpusat pada perencanaan
- Contoh penelusuran graf:
- CoT: menghasilkan jawaban salah dengan "berhalusinasi" hubungan yang sebenarnya tidak ada
- Coconut: dapat menelusuri jalur yang benar dengan memanfaatkan beberapa token pemikiran laten
- Coconut dapat menjelajahi beberapa kemungkinan jalur, sehingga menunjukkan performa yang lebih baik pada tugas yang intensif perencanaan
Kesimpulan dan arah riset selanjutnya
- Kesimpulan:
- Metode COCONUT secara signifikan meningkatkan kemampuan penalaran LLM
- Penalaran di ruang laten memberikan performa unggul pada tugas berpusat pada perencanaan melalui pola yang mirip BFS
- Arah riset selanjutnya:
- Mengintegrasikan continuous thought sejak tahap pretraining
- Meningkatkan efisiensi untuk menangani penalaran berurutan ganda
- Mengeksplorasi kemungkinan menggabungkan CoT dan pemikiran laten
1 komentar
Komentar Hacker News
Penekanan pada BFS berlawanan dengan yang saya coba. Manusia membagi pekerjaan menjadi langkah-langkah pendek berdasarkan naluri dan intuisi, lalu langkah-langkah panjang untuk merangkum/menyimpan tahap berikutnya. Saat gagal, manusia merangkum pohon kegagalan agar dikecualikan dari pilihan di masa depan.
Langkah berikutnya adalah membuat representasi tanpa bahasa manusia. Jika LLM dapat berkomunikasi hanya dengan embedding tanpa input teks manusia, itu akan membuka babak baru bagi AI.
Meta memulai dengan model bahasa yang sudah dipra-latih lalu melakukan fine-tuning dengan contoh penalaran langkah demi langkah. Mereka memperkenalkan token baru agar model beralih ke mode berpikir di ruang laten.
Saya penasaran apakah peningkatan besarnya berasal dari melewati tahap embedding/unembedding untuk pemikiran internal, atau apakah metode pelatihan yang mengajarkan perpindahan antara CoT dan "pemikiran laten" dengan keluaran teks itulah yang utama.
Ini bisa menjadi momen "itu" bagi AI/LLM. Manusia tidak berpikir dalam "token". Jika tetap berada di ruang laten, model dapat mengekspresikan ide dengan resolusi lebih tinggi daripada bahasa.
Para pesaing mengejar dengan cepat. Saya memperkirakan beberapa SkyNet akan saling bersaing.
Saya penasaran apakah basis pengguna karakter buatan AI milik Facebook akan bisa berinteraksi lebih baik.
Situs ini mengklaim menyederhanakan makalahnya, tetapi iklannya terlalu banyak dan saya juga tidak bisa menemukan "Coconut" di halaman resmi Meta FAIR. Saya ragu situs ini adalah tautan terbaik.
Ini adalah kiriman duplikat dari 20 hari lalu.