6 poin oleh GN⁺ 2025-01-01 | 1 komentar | Bagikan ke WhatsApp
  • Large Language Model (LLM) dilatih terlebih dahulu dengan sejumlah besar bahasa manusia dan menunjukkan kemampuan penalaran yang kuat
  • Metode "Chain-of-Thought (CoT)" membantu model menghasilkan jawaban dengan membiarkannya membuat proses berpikir langkah demi langkah
  • Namun, penalaran LLM harus dihasilkan dalam bentuk kata-kata, yang menjadi batasan mendasar bagi model
  • Manusia tidak selalu mengekspresikan pikirannya dalam bahasa. Apakah AI juga harus begitu?
  • Makalah penelitian Meta, "Training Large Language Models to Reason in a Continuous Latent Space", mengusulkan pendekatan baru COCONUT (Chain of Continuous Thought) untuk mengatasi keterbatasan ini

Metode Chain-of-Thought (CoT)

  • CoT menerima pertanyaan sebagai input dan menghasilkan jawaban akhir melalui penalaran bertahap
  • Model memproses token input untuk menghasilkan token respons pertama, yaitu awal dari proses penalaran
  • Secara berulang, pertanyaan dan token penalaran sebelumnya dimasukkan kembali ke model untuk menyelesaikan seluruh proses penalaran, lalu pada akhirnya menghasilkan jawaban

Metode Chain of Continuous Thought (COCONUT)

  • COCONUT menggunakan mode bahasa dan mode pemikiran laten (latent thought) secara bergantian
    • Mode bahasa: bekerja seperti model bahasa standar dan menghasilkan token berikutnya
    • Mode pemikiran laten: menggunakan hidden state terakhir untuk menghitung langkah berikutnya
  • Dalam mode pemikiran laten, hidden state terakhir digunakan sebagai input berikutnya sehingga penalaran bisa dilakukan lebih efisien
  • Mode pemikiran laten dimulai dengan token <bot> dan diakhiri dengan token <eot>, lalu beralih kembali ke mode bahasa

Prosedur pelatihan

  • Model dilatih berdasarkan data CoT yang sudah ada sebelumnya, yaitu pertanyaan, langkah penalaran, dan jawaban akhir
  • Pelatihan dilakukan secara bertahap:
    • Pada tahap awal, model dilatih untuk menghasilkan langkah penalaran berbasis bahasa dan jawaban
    • Pada tahap berikutnya, langkah penalaran dihapus dan sebagai gantinya ditambahkan token pemikiran laten untuk pelatihan
  • Pada tiap tahap, loss dihitung terhadap langkah penalaran berbasis bahasa yang masih tersisa serta jawaban
  • Pemikiran laten sepenuhnya dapat didiferensiasikan sehingga memungkinkan back-propagation

Peralihan dari menghasilkan pemikiran ke menghasilkan token kata

  • Ada dua strategi tentang bagaimana model beralih dari mode pemikiran laten ke mode bahasa.
  • Strategi pertama adalah "membiarkan model memutuskan menggunakan pengklasifikasi biner", dan strategi kedua adalah "menggunakan jumlah token pemikiran laten yang tetap"
  • Kedua strategi memberikan hasil yang serupa, sehingga dipilih pendekatan jumlah tetap yang lebih sederhana

Hasil eksperimen

  • Metode Coconut menunjukkan performa yang lebih baik daripada No-CoT pada semua dataset.
  • Dibandingkan dengan CoT, CoT lebih unggul pada matematika, tetapi pada ProsQA yang membutuhkan kemampuan perencanaan, Coconut lebih unggul.
  • Dibandingkan dengan i-CoT, Coconut menunjukkan akurasi yang lebih baik pada matematika.
  • Performa Coconut:
    • GSM8K (matematika): performanya lebih rendah daripada CoT
    • ProsQA (membutuhkan perencanaan): performanya lebih tinggi daripada CoT
    • No-CoT (menghasilkan jawaban langsung tanpa penalaran): Coconut menunjukkan performa lebih baik pada semua dataset
    • Dari sisi efisiensi, menghasilkan lebih sedikit token daripada CoT
  • Perbandingan dengan i-CoT:
    • Akurasi lebih tinggi pada matematika
    • Performa serupa pada perencanaan dan penalaran logis
  • Efek curriculum learning:
    • Model "w/o curriculum" menunjukkan penurunan performa yang besar

Kemampuan penalaran mirip BFS

  • Pada dataset ProsQA, COCONUT menunjukkan hasil yang sangat baik dalam pemecahan masalah yang berpusat pada perencanaan
  • Contoh penelusuran graf:
    • CoT: menghasilkan jawaban salah dengan "berhalusinasi" hubungan yang sebenarnya tidak ada
    • Coconut: dapat menelusuri jalur yang benar dengan memanfaatkan beberapa token pemikiran laten
  • Coconut dapat menjelajahi beberapa kemungkinan jalur, sehingga menunjukkan performa yang lebih baik pada tugas yang intensif perencanaan

Kesimpulan dan arah riset selanjutnya

  • Kesimpulan:
    • Metode COCONUT secara signifikan meningkatkan kemampuan penalaran LLM
    • Penalaran di ruang laten memberikan performa unggul pada tugas berpusat pada perencanaan melalui pola yang mirip BFS
  • Arah riset selanjutnya:
    • Mengintegrasikan continuous thought sejak tahap pretraining
    • Meningkatkan efisiensi untuk menangani penalaran berurutan ganda
    • Mengeksplorasi kemungkinan menggabungkan CoT dan pemikiran laten

1 komentar

 
GN⁺ 2025-01-01
Komentar Hacker News
  • Penekanan pada BFS berlawanan dengan yang saya coba. Manusia membagi pekerjaan menjadi langkah-langkah pendek berdasarkan naluri dan intuisi, lalu langkah-langkah panjang untuk merangkum/menyimpan tahap berikutnya. Saat gagal, manusia merangkum pohon kegagalan agar dikecualikan dari pilihan di masa depan.

    • Efek naluri menurun tajam seiring bertambahnya jarak. Jika menggunakan BFS, nilai naluri menjadi lebih rendah dan komputasi lebih diutamakan. Pendekatannya berbeda tergantung jenis masalahnya.
    • Jika ingin membuat prototipe bersama, silakan hubungi saya.
  • Langkah berikutnya adalah membuat representasi tanpa bahasa manusia. Jika LLM dapat berkomunikasi hanya dengan embedding tanpa input teks manusia, itu akan membuka babak baru bagi AI.

  • Meta memulai dengan model bahasa yang sudah dipra-latih lalu melakukan fine-tuning dengan contoh penalaran langkah demi langkah. Mereka memperkenalkan token baru agar model beralih ke mode berpikir di ruang laten.

    • Lapisan tersembunyi terakhir berulang kali disalin ke lapisan input untuk mendapatkan lebih banyak wawasan.
    • Pelatihan secara bertahap menggantikan langkah penalaran berbasis bahasa dengan langkah auto-regresif di ruang laten. Model belajar mengaktifkan dan mengakhiri mode berpikir di ruang laten dengan sendirinya.
  • Saya penasaran apakah peningkatan besarnya berasal dari melewati tahap embedding/unembedding untuk pemikiran internal, atau apakah metode pelatihan yang mengajarkan perpindahan antara CoT dan "pemikiran laten" dengan keluaran teks itulah yang utama.

    • Menarik bahwa jumlah "pemikiran laten" yang tetap memiliki kinerja yang sama dengan pengklasifikasi biner.
  • Ini bisa menjadi momen "itu" bagi AI/LLM. Manusia tidak berpikir dalam "token". Jika tetap berada di ruang laten, model dapat mengekspresikan ide dengan resolusi lebih tinggi daripada bahasa.

    • Ruang laten murah dari sisi biaya eksekusi. Model bisa berpikir tanpa tahap encoding/decoding bahasa. Berbagai jenis data bisa dimasukkan untuk melakukan penalaran.
  • Para pesaing mengejar dengan cepat. Saya memperkirakan beberapa SkyNet akan saling bersaing.

  • Saya penasaran apakah basis pengguna karakter buatan AI milik Facebook akan bisa berinteraksi lebih baik.

  • Situs ini mengklaim menyederhanakan makalahnya, tetapi iklannya terlalu banyak dan saya juga tidak bisa menemukan "Coconut" di halaman resmi Meta FAIR. Saya ragu situs ini adalah tautan terbaik.

  • Ini adalah kiriman duplikat dari 20 hari lalu.