2 poin oleh GN⁺ 2024-03-24 | 1 komentar | Bagikan ke WhatsApp

Bagaimana penalaran rantai pemikiran membantu komputasi transformer

  • Kinerja model bahasa besar meningkat ketika model menunjukkan langkah-langkah kerjanya saat memecahkan masalah.
  • Para peneliti mulai memahami mengapa teknik ini efektif.

Pelatihan transformer

  • Model bahasa besar didasarkan pada struktur matematis yang disebut jaringan saraf tiruan.
  • 'Neuron' di dalam jaringan saraf melakukan operasi matematika sederhana pada deretan panjang angka yang merepresentasikan kata-kata individual.
  • Transformer menggunakan struktur matematis khusus yang disebut attention head untuk memindai teks dengan cepat dan mengidentifikasi hubungan relevan antarkata.

Kompleksitas transformer

  • Studi teoretis tentang transformer menelitinya dengan memperlakukannya seperti jenis komputer tertentu, tanpa mempertimbangkan apa yang terjadi selama pelatihan.
  • Para peneliti telah membuktikan bahwa transformer bisa sekuat mesin Turing.

Eksperimen pemikiran

  • Para peneliti mengajukan pertanyaan tentang seberapa jauh transformer menjadi lebih kuat ketika mendaur ulang keluarannya.
  • Penalaran rantai pemikiran dapat memberikan cara untuk mengakali batasan transformer.

Kembali ke dunia nyata

  • Analisis teoretis mengungkap banyak hal tentang model bahasa nyata, tetapi tidak bisa diharapkan menghasilkan kesimpulan yang sempurna.
  • Analisis teori kompleksitas penting untuk mengenali keterbatasan transformer.

Opini GN⁺

  • Riset ini memberikan kontribusi penting untuk memahami keterbatasan dan potensi model transformer di bidang kecerdasan buatan. Secara khusus, riset ini menawarkan wawasan tentang bagaimana penalaran rantai pemikiran dapat membantu menyelesaikan masalah yang kompleks.
  • Namun, karena hasil riset teoretis tidak selalu selaras dengan kinerja model nyata, kehati-hatian diperlukan saat menerapkannya pada aplikasi dunia nyata. Kinerja di lingkungan nyata dipengaruhi oleh berbagai faktor seperti data pelatihan, arsitektur model, dan penyesuaian hyperparameter.
  • Artikel ini memberikan informasi yang berguna bagi para peneliti AI dengan membantu mereka mengenali keterbatasan model pemrosesan bahasa dan menunjukkan arah riset untuk mengembangkan model yang lebih baik.
  • Proyek lain dengan fungsi serupa mencakup seri GPT dari OpenAI, yang merupakan contoh baik untuk melihat langsung kinerja model bahasa besar.
  • Saat memperkenalkan teknologi atau model baru, selalu perlu mempertimbangkan kompatibilitas dengan sistem yang ada, biaya, kinerja, dan pemeliharaan, dan riset yang dibahas dalam artikel ini dapat memberikan pengetahuan latar belakang yang membantu dalam pengambilan keputusan tersebut.

1 komentar

 
GN⁺ 2024-03-24
Opini Hacker News
  • Opini tentang pengalaman berinteraksi dengan chain-of-thought:

    • Chain-of-thought tidak sama seperti rantai yang ketat dalam matematika atau logika.
    • Apa yang dikeluarkan model melalui penalaran langkah demi langkah bergantung pada kekuatan konteks yang relevan, dan ini jauh lebih lemah dibandingkan matematika/logika yang dilakukan manusia.
    • Model tidak bernalar secara logis seperti manusia, melainkan melompat melalui konteks yang relevan.
    • Model transformer hanya melakukan komputasi saat menghasilkan token, jadi dengan menggunakan chain-of-thought untuk menghasilkan lebih banyak token, model mendapat lebih banyak waktu untuk "berpikir".
  • Pertanyaan-pertanyaan sentral yang terkait dengan studi formal tentang komputasi:

    • Studi formal tentang komputasi dapat ditelusuri kembali ke Alan Turing yang membayangkan mesin Turing pada 1936.
    • Bahkan lebih awal, pada 1920-an Moses Schönfinkel mengembangkan logika kombinator, dan pada awal 1930-an Alonzo Church mengembangkan kalkulus lambda.
    • Model-model ini tidak cocok sebagai dasar bagi teori kompleksitas komputasi.
  • Dua sudut pandang tentang large language model (LLM):

    • Klaim bahwa LLM "memiliki kesadaran" atau "hanya prediktor token berikutnya dengan dataset yang mengesankan" cenderung terbagi antara orang yang mengenal LLM setelah mempelajari dasar-dasar ML dan kasus sebaliknya.
    • Karena konsep dasar dapat membatasi kemampuan untuk melihat gambaran yang lebih besar, perdebatan seperti ini patut disambut.
    • Hasil dari makalah asli tentang chain-of-thought sering kali tidak direproduksi dalam upaya-upaya lanjutan.
  • Model tidak bisa berpikir:

    • Model menggunakan konteks masukan untuk memprediksi keluaran.
    • Untuk masalah yang harus diselesaikan secara berulang, langkah-langkah perantara harus dipertahankan di dalam konteks.
  • Alasan singkat tentang kompleksitas komputasi:

    • Jika LLM dipandang sebagai komputer yang melakukan satu forward pass waktu konstan terhadap masukan, maka dengan memberi lebih banyak siklus, ia dapat melakukan lebih banyak komputasi.
    • Ini adalah perluasan dari masalah bahwa perceptron satu lapis tidak dapat menghitung XOR.
  • Penjelasan singkat tentang keajaiban chain-of-thought:

    • Mengutip tweet tentang betapa mengejutkannya data dan prompt bisa bekerja.
    • Ada banyak situs web yang menyediakan solusi langkah demi langkah untuk soal matematika.
  • Opini terkait chain-of-thought:

    • Chain-of-thought mirip dengan "squishing", dan ini secara intuitif dipahami sebagai pendekatan yang tepat terhadap aproksimasi kecerdasan.
  • Kasus penerapan chain-of-thought dan eksperimen kesadaran buatan:

    • Ketika chain-of-thought terus dilanjutkan melampaui jawaban atas pertanyaan, muncul suatu bentuk kesadaran buatan.
  • Kasus penerapan chain-of-thought secara terbalik:

    • Model dilatih untuk terlebih dahulu memberikan jawaban lalu menalar langkah-langkahnya setelah itu.
    • Peneliti dari Mistral AI menggunakan metode ini, dan model menunjukkan perilaku menjawab terlebih dahulu lalu menalar pada pertanyaan yang kompleks.