Coconut dari Meta AI – Meningkatkan penalaran LLM dengan rantai pemikiran berkelanjutan

(aipapersacademy.com)

6 poin oleh GN⁺ 2025-01-01 | 1 komentar | Bagikan ke WhatsApp

Large Language Model (LLM) dilatih terlebih dahulu dengan sejumlah besar bahasa manusia dan menunjukkan kemampuan penalaran yang kuat
Metode "Chain-of-Thought (CoT)" membantu model menghasilkan jawaban dengan membiarkannya membuat proses berpikir langkah demi langkah
Namun, penalaran LLM harus dihasilkan dalam bentuk kata-kata, yang menjadi batasan mendasar bagi model
Manusia tidak selalu mengekspresikan pikirannya dalam bahasa. Apakah AI juga harus begitu?
Makalah penelitian Meta, "Training Large Language Models to Reason in a Continuous Latent Space", mengusulkan pendekatan baru COCONUT (Chain of Continuous Thought) untuk mengatasi keterbatasan ini

Metode Chain-of-Thought (CoT)

CoT menerima pertanyaan sebagai input dan menghasilkan jawaban akhir melalui penalaran bertahap
Model memproses token input untuk menghasilkan token respons pertama, yaitu awal dari proses penalaran
Secara berulang, pertanyaan dan token penalaran sebelumnya dimasukkan kembali ke model untuk menyelesaikan seluruh proses penalaran, lalu pada akhirnya menghasilkan jawaban

Metode Chain of Continuous Thought (COCONUT)

COCONUT menggunakan mode bahasa dan mode pemikiran laten (latent thought) secara bergantian
- Mode bahasa: bekerja seperti model bahasa standar dan menghasilkan token berikutnya
- Mode pemikiran laten: menggunakan hidden state terakhir untuk menghitung langkah berikutnya
Dalam mode pemikiran laten, hidden state terakhir digunakan sebagai input berikutnya sehingga penalaran bisa dilakukan lebih efisien
Mode pemikiran laten dimulai dengan token <bot> dan diakhiri dengan token <eot>, lalu beralih kembali ke mode bahasa

Prosedur pelatihan

Model dilatih berdasarkan data CoT yang sudah ada sebelumnya, yaitu pertanyaan, langkah penalaran, dan jawaban akhir
Pelatihan dilakukan secara bertahap:
- Pada tahap awal, model dilatih untuk menghasilkan langkah penalaran berbasis bahasa dan jawaban
- Pada tahap berikutnya, langkah penalaran dihapus dan sebagai gantinya ditambahkan token pemikiran laten untuk pelatihan
Pada tiap tahap, loss dihitung terhadap langkah penalaran berbasis bahasa yang masih tersisa serta jawaban
Pemikiran laten sepenuhnya dapat didiferensiasikan sehingga memungkinkan back-propagation

Peralihan dari menghasilkan pemikiran ke menghasilkan token kata

Ada dua strategi tentang bagaimana model beralih dari mode pemikiran laten ke mode bahasa.
Strategi pertama adalah "membiarkan model memutuskan menggunakan pengklasifikasi biner", dan strategi kedua adalah "menggunakan jumlah token pemikiran laten yang tetap"
Kedua strategi memberikan hasil yang serupa, sehingga dipilih pendekatan jumlah tetap yang lebih sederhana

Hasil eksperimen

Metode Coconut menunjukkan performa yang lebih baik daripada No-CoT pada semua dataset.
Dibandingkan dengan CoT, CoT lebih unggul pada matematika, tetapi pada ProsQA yang membutuhkan kemampuan perencanaan, Coconut lebih unggul.
Dibandingkan dengan i-CoT, Coconut menunjukkan akurasi yang lebih baik pada matematika.
Performa Coconut:
- GSM8K (matematika): performanya lebih rendah daripada CoT
- ProsQA (membutuhkan perencanaan): performanya lebih tinggi daripada CoT
- No-CoT (menghasilkan jawaban langsung tanpa penalaran): Coconut menunjukkan performa lebih baik pada semua dataset
- Dari sisi efisiensi, menghasilkan lebih sedikit token daripada CoT
Perbandingan dengan i-CoT:
- Akurasi lebih tinggi pada matematika
- Performa serupa pada perencanaan dan penalaran logis
Efek curriculum learning:
- Model "w/o curriculum" menunjukkan penurunan performa yang besar

Kemampuan penalaran mirip BFS

Pada dataset ProsQA, COCONUT menunjukkan hasil yang sangat baik dalam pemecahan masalah yang berpusat pada perencanaan
Contoh penelusuran graf:
- CoT: menghasilkan jawaban salah dengan "berhalusinasi" hubungan yang sebenarnya tidak ada
- Coconut: dapat menelusuri jalur yang benar dengan memanfaatkan beberapa token pemikiran laten
Coconut dapat menjelajahi beberapa kemungkinan jalur, sehingga menunjukkan performa yang lebih baik pada tugas yang intensif perencanaan

Kesimpulan dan arah riset selanjutnya

Kesimpulan:
- Metode COCONUT secara signifikan meningkatkan kemampuan penalaran LLM
- Penalaran di ruang laten memberikan performa unggul pada tugas berpusat pada perencanaan melalui pola yang mirip BFS
Arah riset selanjutnya:
- Mengintegrasikan continuous thought sejak tahap pretraining
- Meningkatkan efisiensi untuk menangani penalaran berurutan ganda
- Mengeksplorasi kemungkinan menggabungkan CoT dan pemikiran laten

1 komentar

GN⁺ 2025-01-01

Komentar Hacker News

Penekanan pada BFS berlawanan dengan yang saya coba. Manusia membagi pekerjaan menjadi langkah-langkah pendek berdasarkan naluri dan intuisi, lalu langkah-langkah panjang untuk merangkum/menyimpan tahap berikutnya. Saat gagal, manusia merangkum pohon kegagalan agar dikecualikan dari pilihan di masa depan.
- Efek naluri menurun tajam seiring bertambahnya jarak. Jika menggunakan BFS, nilai naluri menjadi lebih rendah dan komputasi lebih diutamakan. Pendekatannya berbeda tergantung jenis masalahnya.
- Jika ingin membuat prototipe bersama, silakan hubungi saya.
Langkah berikutnya adalah membuat representasi tanpa bahasa manusia. Jika LLM dapat berkomunikasi hanya dengan embedding tanpa input teks manusia, itu akan membuka babak baru bagi AI.
Meta memulai dengan model bahasa yang sudah dipra-latih lalu melakukan fine-tuning dengan contoh penalaran langkah demi langkah. Mereka memperkenalkan token baru agar model beralih ke mode berpikir di ruang laten.
- Lapisan tersembunyi terakhir berulang kali disalin ke lapisan input untuk mendapatkan lebih banyak wawasan.
- Pelatihan secara bertahap menggantikan langkah penalaran berbasis bahasa dengan langkah auto-regresif di ruang laten. Model belajar mengaktifkan dan mengakhiri mode berpikir di ruang laten dengan sendirinya.
Saya penasaran apakah peningkatan besarnya berasal dari melewati tahap embedding/unembedding untuk pemikiran internal, atau apakah metode pelatihan yang mengajarkan perpindahan antara CoT dan "pemikiran laten" dengan keluaran teks itulah yang utama.
- Menarik bahwa jumlah "pemikiran laten" yang tetap memiliki kinerja yang sama dengan pengklasifikasi biner.
Ini bisa menjadi momen "itu" bagi AI/LLM. Manusia tidak berpikir dalam "token". Jika tetap berada di ruang laten, model dapat mengekspresikan ide dengan resolusi lebih tinggi daripada bahasa.
- Ruang laten murah dari sisi biaya eksekusi. Model bisa berpikir tanpa tahap encoding/decoding bahasa. Berbagai jenis data bisa dimasukkan untuk melakukan penalaran.
Para pesaing mengejar dengan cepat. Saya memperkirakan beberapa SkyNet akan saling bersaing.
Saya penasaran apakah basis pengguna karakter buatan AI milik Facebook akan bisa berinteraksi lebih baik.
Situs ini mengklaim menyederhanakan makalahnya, tetapi iklannya terlalu banyak dan saya juga tidak bisa menemukan "Coconut" di halaman resmi Meta FAIR. Saya ragu situs ini adalah tautan terbaik.
Ini adalah kiriman duplikat dari 20 hari lalu.

Coconut dari Meta AI – Meningkatkan penalaran LLM dengan rantai pemikiran berkelanjutan

Metode Chain-of-Thought (CoT)

Metode Chain of Continuous Thought (COCONUT)

Prosedur pelatihan

Peralihan dari menghasilkan pemikiran ke menghasilkan token kata

Hasil eksperimen

Kemampuan penalaran mirip BFS

Kesimpulan dan arah riset selanjutnya

Bacaan terkait

1 komentar

Komentar Hacker News