Bagaimana penalaran langkah demi langkah membantu komputasi jaringan saraf

(quantamagazine.org)

2 poin oleh GN⁺ 2024-03-24 | 1 komentar | Bagikan ke WhatsApp

Model bahasa besar sering gagal ketika harus langsung memberikan jawaban untuk masalah multi-langkah seperti aritmetika panjang, tetapi jika diminta membuat solusi langkah demi langkah, model dapat menyelesaikan masalah yang sebelumnya sulit
Pada 2022, chain-of-thought prompting dari peneliti Google menyebar luas sebagai cara sederhana untuk memunculkan langkah-langkah antara, tetapi alasan efektivitasnya masih terus dianalisis
Para peneliti menelaah kemampuan dan batasan Transformer melalui teori kompleksitas komputasi, dan menunjukkan bahwa struktur yang dioptimalkan untuk pemrosesan paralel dapat membatasi kemampuan komputasi saat model harus segera memberi jawaban
Menurut studi teoretis Merrill dan Sabharwal, chain of thought mulai benar-benar membantu ketika jumlah langkah antara bertambah sebanding dengan ukuran input, dan banyak masalah memerlukan lebih banyak langkah daripada itu
Hasil ini tidak berarti model nyata pasti mempelajari solusi tersebut selama pelatihan, tetapi memberikan kerangka untuk membandingkan arsitektur jaringan saraf baru tanpa melebih-lebihkan keterbatasan Transformer

Mengapa solusi langkah demi langkah mengubah kinerja model

Manusia tidak mencoba menjawab sekaligus soal seperti penjumlahan 20 digit, melainkan menumpuk perhitungan dari digit satuan ke kiri
Model bahasa besar juga dapat menjawab soal aritmetika beberapa langkah, tetapi sering gagal pada masalah yang membutuhkan banyak langkah, seperti penjumlahan bilangan besar
Pada 2022, peneliti Google menunjukkan bahwa jika model diminta menghasilkan solusi langkah demi langkah, model dapat menyelesaikan masalah yang sebelumnya tampak sulit
Pendekatan ini disebut chain-of-thought prompting dan cepat menyebar, tetapi alasan mengapa ia efektif masih dianalisis para peneliti

Bagaimana Transformer menjadi kuat dan apa batasan strukturnya

Model bahasa besar didasarkan pada jaringan saraf buatan yang merepresentasikan dan memproses kata sebagai deretan angka
- Sebelum pelatihan, parameter dimulai dari nilai acak
- Model memprediksi kata berikutnya dari sejumlah besar teks yang diambil dari internet, lalu menyesuaikan parameter agar mengurangi selisih dengan teks asli
Transformer, yang diperkenalkan peneliti Google pada 2017, sangat memperluas riset model bahasa
- Sebelum Transformer, jaringan saraf paling banyak hanya memiliki ratusan juta parameter
- Saat ini, model berbasis Transformer terbesar memiliki lebih dari 1 triliun parameter
Komponen inti Transformer adalah attention head
- Ia dengan cepat memindai seluruh teks masukan dan mencari hubungan antar kata yang berguna untuk memprediksi kata berikutnya
- Setelah itu, feedforward network melakukan komputasi besar
Struktur yang menggunakan banyak lapisan attention head dan feedforward network memungkinkan komputasi untuk setiap kata dilakukan secara bersamaan selama pelatihan
- Paralelisme ini memungkinkan pelatihan didistribusikan ke data skala besar dan banyak prosesor
- David Chiang mengatakan bahwa untuk memanfaatkan dataset besar, model juga harus besar, dan tanpa paralelisasi pelatihan tidak akan praktis
Dalam penggunaan umum setelah pelatihan selesai, Transformer menghasilkan satu kata pada satu waktu, lalu menambahkan keluaran itu kembali ke input untuk menghasilkan kata berikutnya
- Karena strukturnya tetap dioptimalkan untuk pemrosesan paralel, para peneliti mulai menyelidiki apakah paralelisme ini menimbulkan biaya pada kemampuan komputasi

Kemampuan komputasi Transformer dilihat dari teori kompleksitas

Karena sulit menganalisis langsung proses pelatihan jaringan saraf, beberapa peneliti menganalisis kemampuan komputasi intrinsik Transformer dengan mengasumsikan parameter dapat diatur ke nilai yang diinginkan
Pendekatan ini memperlakukan Transformer seperti jenis komputer yang dapat diprogram
- fungsi apa yang bisa dihitung
- jenis masalah apa yang bisa diselesaikan
Pada 2019, Pablo Barceló dan rekan penelitinya membuktikan bahwa Transformer idealisasi dengan jumlah parameter tetap, melalui pengaturan yang tepat dan pemasukan ulang keluaran secara berulang, dapat sekuat Turing machine
Hasil ini menjadi titik awal penting, tetapi bergantung pada asumsi yang tidak realistis dan dapat melebih-lebihkan kekuatan Transformer nyata
Setelah itu, para peneliti mulai membangun kerangka teoretis yang lebih realistis

Batasan Transformer yang harus langsung menjawab

William Merrill dan Ashish Sabharwal menganalisis batasan yang ditimbulkan oleh struktur paralel Transformer menggunakan kompleksitas sirkuit (circuit complexity)
Keduanya membahas kasus ketika Transformer tidak dapat memasukkan kembali keluarannya ke input, dan keluaran pertama harus langsung menjadi jawaban akhir
Dalam kerangka teoretis ini, Transformer tidak dapat menyelesaikan masalah komputasi tertentu yang berada di luar kelas kompleksitas tertentu
- Sebagai contoh yang relatif sederhana, banyak masalah matematika seperti penyelesaian persamaan linear dianggap berada di luar kelas ini
Paralelisme adalah keunggulan yang memungkinkan pelatihan, tetapi menjadi biaya dalam situasi yang menuntut jawaban instan
- Merrill mengatakan bahwa jika Transformer digunakan dengan cara memberi input lalu langsung mengharapkan jawaban, kemampuannya ternyata cukup lemah

Bagaimana chain of thought mengakali batasan itu

Hasil Merrill dan Sabharwal memunculkan pertanyaan seberapa kuat Transformer menjadi ketika dapat menggunakan kembali keluarannya
Penalaran chain-of-thought pada model bahasa nyata dipengaruhi oleh susunan prompt, tetapi pada prinsipnya jika model mengeluarkan solusi langkah demi langkah, ia dapat menggunakan kembali hasil antara itu pada lintasan Transformer berikutnya
Dalam makalah Mei 2023, tim riset Peking University membahas beberapa masalah matematika yang seharusnya tidak dapat diselesaikan Transformer biasa dalam kerangka Merrill dan Sabharwal
- Mereka menunjukkan bahwa jika langkah antara diizinkan, Transformer dapat menyelesaikan masalah-masalah itu
Pada Oktober 2023, Merrill dan Sabharwal menerbitkan studi teoretis yang menganalisis lebih rinci kemampuan komputasi chain of thought
- Mereka mengukur bagaimana kemampuan komputasi tambahan berubah sesuai jumlah langkah antara yang dapat digunakan Transformer sebelum memberikan jawaban akhir
Seperti pada contoh penjumlahan dua digit, ada masalah yang membutuhkan lebih banyak langkah antara ketika input membesar
- Cara paling sederhana untuk menjumlahkan dua bilangan 20 digit membutuhkan dua kali lebih banyak langkah penjumlahan antara dibanding menjumlahkan dua bilangan 10 digit

Langkah antara membantu, tetapi tidak gratis

Merrill dan Sabharwal menganalisis bahwa jika langkah antara sangat sedikit, keuntungan yang diperoleh Transformer juga tidak besar
Chain of thought mulai memberi efek nyata ketika jumlah langkah antara bertambah sebanding dengan ukuran input
Banyak masalah membutuhkan jumlah langkah antara yang meningkat jauh lebih besar daripada ukuran input
Karena itu, chain of thought bukan solusi universal
- Secara prinsip ia memang dapat memungkinkan penyelesaian masalah yang lebih sulit
- Namun itu membutuhkan upaya komputasi yang besar
Merrill mengatakan ia tertarik pada berbagai cara untuk mengatasi batasan Transformer satu langkah, dan chain of thought mungkin bukan cara yang paling hemat

Hal yang perlu diperhatikan saat diterapkan ke model nyata

Jangkauan hal yang bisa dikatakan analisis teoretis tentang model bahasa nyata terbatas
Bukti bahwa Transformer pada prinsipnya dapat menyelesaikan masalah tertentu tidak berarti model bahasa nyata pasti mempelajari solusi itu selama pelatihan
Hasil tentang batasan Transformer juga berangkat dari standar yang kuat
- Artinya, tidak ada Transformer yang dapat menyelesaikan masalah tertentu secara sempurna dalam semua kasus
- Daniel Hsu mengatakan bahwa beberapa kasus khusus tertentu tetap bisa ditangani dengan baik
Analisis seperti ini menjadi kerangka untuk membandingkan arsitektur jaringan saraf lain yang dapat menggantikan Transformer
- Jika dalam analisis teori kompleksitas suatu jaringan tampak lebih kuat, itu bisa menjadi dasar bahwa jaringan tersebut juga mungkin lebih baik di lingkungan nyata
Ketika model bahasa digunakan dalam beragam aplikasi dunia nyata, kita perlu menyadari bahwa masih banyak hal yang tidak dapat dilakukan model dengan baik

1 komentar

GN⁺ 2024-03-24

Pendapat Hacker News

Saya rasa chain-of-thought (rantai pemikiran) tidak seharusnya dianalogikan dengan rantai ketat dalam logika/matematika
Penalaran langkah demi langkah model tidak memberi tingkat ketelitian seperti itu pada keluarannya, dan kekuatan rantai itu hanyalah kekuatan konteks yang relevan, sehingga jauh lebih lemah daripada matematika/logika yang dilakukan manusia
Dari sudut pandang seseorang yang menangani model di bidang ini setiap hari tetapi tidak membuatnya langsung, saya tidak melihat keterkaitan niscaya yang diajarkan dalam matematika dasar, dan saya sering melihat model gagal dengan cara yang tidak akan dilakukan manusia setelah melewati usia tertentu
Pada akhirnya ini lebih dekat dengan mencari konteks yang relevan dan memang kuat, tetapi berbeda dari penalaran logis manusia. Manusia bisa mulai dari sangat sedikit konsep, duduk di kursi, dan dengan penalaran murni saja mencapai kesimpulan sekuat baja yang jauh, sedangkan model lebih seperti melompat-lompat di antara konteks
- Jika LLM lebih mirip melakukan sampling Sequential Monte Carlo di ruang laten, bagian “pemikiran” dalam chain-of-thought tampak lebih mirip fase pemanasan yang diperlukan dalam sampling SMC
  Siapa pun yang pernah serius memakai statistik Bayes tahu bahwa sampler perlu sedikit pemanasan sebelum dapat mengambil sampel secara efisien. Dalam chain-of-thought, sepertinya hal serupa terjadi: model perlu berkeliaran sebentar sebelum masuk ke sekitar wilayah yang tepat untuk mengambil sampel jawaban yang benar
- Saya rasa banyak penalaran yang dianggap manusia sebagai “1, 2, maka 3” tidak terlalu berbeda dari apa yang dilakukan LLM, dan sebenarnya juga tidak lebih cerdas dari itu
  Banyak orang merasa sudah cukup memikirkan keyakinan yang meragukan, padahal sebenarnya tidak. Mereka memakai konteks untuk menebak pikiran/kata berikutnya, dan sering sampai pada kesimpulan yang sudah mereka miliki sejak awal
  Ketika menyebut kesimpulan sekuat baja, menurut saya sebenarnya kesimpulan itu terlebih dahulu disusun secara intuitif, lalu disertai proses verifikasi kuat seperti apakah definisinya cukup jelas, apakah lompatan penalarannya sah, dan sebagainya
  Jadi yang benar-benar ingin saya lihat adalah cara mengajari LLM untuk mengubah kalimat bahasa Inggris yang ambigu menjadi bentuk yang dapat dimasukkan ke mesin penalaran formal
  Misalnya, ketimbang langsung bertanya kepada LLM “berapa banyak lapangan sepak bola yang muat di Inggris”, sering kali lebih baik memintanya menulis kode Python yang menghitungnya dengan asumsi ada get_size_football_field() dan get_size_England() dalam satuan meter persegi
- Saya tidak punya kemampuan bahwa “manusia bisa mulai dari sangat sedikit konsep dan dengan penalaran murni mencapai kesimpulan sekuat baja yang jauh”
  Saya tidak bisa bernalar setelah kira-kira lebih dari 10 baris kode Go, dan itu menjadi jelas setelah beberapa kali mencoba memecahkan puzzle sebagai hobi
- Saya rasa struktur penalaran manusia hampir sama dengan chain-of-thought
  Kita punya loop auditori, dan ketika menghadapi masalah kompleks, kita mengulang mantra seperti “sekarang sudah tahu XYZ, berikutnya apa…” sampai langkah berikutnya yang bagus muncul, lalu menambahkannya ke konteks
  Hanya saja fungsi transisinya saat ini jauh lebih baik di sisi manusia
- Dalam LLM, chain-of-thought pada akhirnya tampaknya membantu memperkuat memori
  Karena penalaran dituliskan ke dalam konteks sehingga lebih mudah dirujuk nanti, meski tentu saja ini hanya dugaan
Penjelasan sederhana yang rasanya pernah saya dengar dari Karpathy adalah bahwa model Transformer hanya melakukan komputasi saat menghasilkan (mendekode) token
Jadi dengan memakai chain-of-thought dan menghasilkan lebih banyak token, model mendapat lebih banyak waktu untuk “berpikir”. Tentu penjelasan ini tidak menangkap semua nuansa
- Penjelasan lain juga mungkin. LLM pada dasarnya mempelajari “A B”, yaitu apakah masuk akal jika B muncul setelah A
  Untuk penyelesaian singkat, ruang kemungkinan yang masuk akal jauh lebih besar, seperti A B1, A B2. Jika diminta menjawab singkat untuk pertanyaan yang subtil, jawaban yang penuh pertimbangan, jawaban yang sekilas tampak benar, dan omong kosong yang meyakinkan semuanya mungkin
  Sebaliknya, jika dipaksa menjelaskan penalarannya, ruang penyelesaian yang masuk akal menyempit. Jika mulai dari omong kosong yang meyakinkan dan secara jujur didorong sampai akhir, pada akhirnya bisa sampai pada kesimpulan bahwa itu harus dibalik
  Ini mirip dengan alasan mengapa saat membantah keyakinan berbahaya dari orang yang jujur, cara yang efektif adalah membuatnya menguraikan langsung konsekuensi dari keyakinan itu dan bersama-sama mengikuti dampak dari hal yang tampak baik tanpa banyak dipikirkan
  Ini juga mirip dengan alasan mengapa mengisi prompt dengan unsur-unsur yang menyempitkan ruang penyelesaian yang masuk akal merupakan prompt engineering yang efektif
- Arsitektur Transformer autoregresif memiliki biaya per token yang konstan, tak peduli seberapa sulit tugasnya
  Bahkan jika Anda mengajukan pertanyaan penalaran paling kompleks, jumlah komputasi untuk menghasilkan token berikutnya sama dengan pertanyaan ya/tidak paling sederhana, dan ini merupakan batasan struktural
  Membuat LLM menghasilkan data “coretan” untuk dipakai dalam komputasi agar memperhatikan informasi terkait adalah cara mengakali batas biaya konstan ini. Semakin sulit tugasnya, semakin banyak coretan yang dibutuhkan, sehingga lebih banyak konteks relevan tersisa untuk token-token mendatang
- Awalnya saya berpikir begitu, tetapi sekarang saya rasa sebenarnya tidak tepat. Karena masker yang dipakai dalam attention, meski padding ditambahkan di belakang string, jumlah pekerjaan yang dilakukan pada string tetap sama
  Sebaliknya, saya menyadari bahwa memori kerja LLM dibatasi oleh nilai aktivasi, dan itu bisa menjadi bottleneck. Model dapat memperluas memori kerjanya dengan menulis hasil parsial ke keluaran lalu membacanya kembali
  Misalnya, jika diminta “pikirkan satu angka tetapi jangan katakan”, tidak ada tempat untuk menyimpan angka itu. Tidak ada penyimpanan sementara selain tape. Namun jika diminta “berpikirlah langkah demi langkah”, hasil antara, yaitu pemikiran, disimpan di tape sehingga ada ruang penyimpanan tambahan untuk berpikir
- Dari pengalaman saya membuat produk dengan GPT3.5-Turbo, ada batas atas pada kompleksitas instruksi yang bisa ditangani model sekaligus
  Ada sisi “menambah komputasi”, tetapi intinya adalah menyusun proses agar model hanya berfokus pada rentang terbatas saat mengambil keputusan
  Pada dasarnya ini membentuk struktur pohon keputusan yang saling dibangun di atas keputusan sebelumnya. Dengan menghasilkan token perantara, model dapat memperhatikan hanya kumpulan keputusan yang lebih kecil dan sudah terlipat
  Namun, ini juga dapat menciptakan perilaku antisipatif di mana langkah perantara menjadi bias karena hasil keliru yang diperkirakan model, jadi dalam praktiknya sedikit lebih rumit
- Saya pernah memasukkan stack dan dependensi utama ke system prompt model yang dipakai untuk coding, lalu bertanya atau berdialog dengannya, dan itu sangat membantu, atau setidaknya terasa begitu
Penjelasan bahwa “studi formal tentang komputasi dimulai dari mesin Turing milik Turing pada 1936” perlu ditarik lebih jauh ke belakang
Ada logika kombinatorik dari Moses Schönfinkel pada 1920-an https://en.wikipedia.org/wiki/Moses_Sch%C3%B6nfinkel dan kalkulus lambda dari Alonzo Church pada awal 1930-an https://encyclopediaofmath.org/wiki/Lambda-calculus
Namun model-model ini kurang cocok sebagai fondasi teori kompleksitas komputasi
- Jika dilihat lebih luas, kita bisa menelusurinya lewat Pearce dan Frege, Boole, Pascal, Leibniz, hingga Aristotle
  Aristotle mungkin adalah sosok pertama yang mencoba memformalkan pemikiran terstruktur
  Perangkat komputasi Turing memformalkan cara matematikawan manusia memanipulasi simbol menurut aturan formal untuk memecahkan masalah sebagai komputasi, dan mengikuti silsilah panjang yang memikirkan pengalaman yang sama serta seberapa mudah hal itu dimekanisasi
  Yang pertama benar-benar mengimplementasikan ini untuk aritmetika adalah Pascal
- Jika tertarik dengan topik ini, termasuk karya Schönfinkel, saya merekomendasikan https://youtu.be/h0OkptwfX4g
Menurut saya, dua mode wacana tentang LLM, yaitu “ia punya kesadaran!” dan “ia hanya prediktor token berikutnya dengan dataset yang impresif”, umumnya datang dari dua kelompok yang berbeda
Yakni orang-orang yang mengenal LLM lebih dulu lalu kemudian mempelajari dasar-dasar machine learning, dan orang-orang yang mempelajari dasar-dasar machine learning lebih dulu lalu bertemu LLM masa kini
Saya termasuk kelompok kedua, tetapi risiko bahwa prasangka dari dasar-dasar itu membatasi kita melihat gambaran besarnya juga nyata, jadi perdebatan itu sendiri saya sambut baik
Mengenai chain of thought, yang saya tahu adalah banyak hasil dari makalah aslinya kemudian tidak tereproduksi dengan baik dalam upaya-upaya berikutnya. Entah itu kekhasan model yang berubah setiap hari atau ada alasan yang lebih dalam, saya tidak tahu
- Secara naluriah, saya ingin memercayai orang-orang yang juga mengetahui pengetahuan yang lebih lama
  Namun dulu ketika saya mengeluh kepada pembimbing tesis bahwa orang-orang di bidang machine learning tampaknya tidak begitu mengenal machine learning lama dan karya-karya AI sebelumnya, pembimbing saya yang punya pengalaman riset lebih dari 30 tahun mengatakan bahwa keluhan seperti itu sudah ada bahkan ketika ia masih doktoral
  Dalam AI ada terlalu banyak karya panjang—sekitar 80 tahun jika dihitung dari Pitts dan McCulloch, dan tetap panjang jika dihitung dari Turing—sehingga sangat sulit mengikuti apa yang dilakukan orang lain sambil tetap menggali topik sendiri secara mendalam
  Misalnya, jika membuka buku reinforcement learning, ia membahas masalah yang hampir sama dengan planning, dengan asumsi yang sangat mirip berupa ruang state dan action, tetapi kadang terlihat seolah-olah bidang planning itu tidak ada
  Sebagai tambahan, memang benar bahwa itu adalah prediktor token berikutnya :P
- Saat ini saya condong ke pandangan bahwa “otak organik pun hanyalah prediktor token berikutnya dengan sistem heuristik pendukung yang impresif”
  Melihat bahwa Transformer, meski merupakan aproksimasi yang begitu miskin dan sepenuhnya stateless, bisa menghasilkan capaian seimpresif ini, rasanya tidak ada resep rahasia khusus di sini
Saya pikir ini sudah jelas. LLM tidak punya suara batin atau citra mental seperti manusia, sehingga tidak bisa terlebih dahulu memikirkan masalah sampai tuntas di kepala sebelum menjawab
Jadi jika area keluaran nyata dipakai sebagai semacam buku catatan, ia bisa mencakup area penalaran yang lebih luas sebelum memberikan jawaban, dan ini mirip dengan cara manusia melakukannya
Jika mengajukan pertanyaan tertentu dengan prompt “berpikirlah langkah demi langkah”, kita bisa melihatnya mengeluarkan juga pikiran sementara yang tidak berguna bagi jawaban akhir. Itu persis seperti yang kita lakukan saat memecahkan masalah yang tidak bisa langsung kita jawab
Manusia juga sering menuliskan pikiran dan jawaban sementara atau menengah dengan kertas dan pena. LLM tidak memiliki alat seperti itu, tetapi bisa menggunakan output dengan cara serupa
Beberapa prompt Tree of Thoughts membuat LLM menghasilkan dua jenis output. Yang satu adalah “berpikir dengan suara batin”, dan yang lain adalah output untuk ditampilkan kepada manusia
Memberikan kemampuan pemanggilan metode atau “googling” juga bisa dilihat sebagai cara melakukan pemikiran dan penalaran sebelum membuat jawaban yang akan ditampilkan kepada pengguna
Model tidak bisa berpikir. Ia hanya memprediksi output dengan menggunakan konteks input
Jadi jika ada masalah yang harus diselesaikan secara berulang, langkah-langkah antara harus disimpan dalam konteks. Kalau tidak, langkah-langkah itu tidak punya tempat untuk pergi
- Kesimpulan “tidak bisa berpikir” tidak mengikuti dari pernyataan “memprediksi output dengan menggunakan input”
  Saya tidak mengerti mengapa fakta bahwa ia memprediksi output dari input harus mengarah pada keyakinan bahwa ia tidak bisa berpikir. Bisa saja berpikir seluruhnya memang seperti itu, dan kita tidak tahu
Dengan satu alasan sederhana, kita bisa memikirkan mengapa 11 + 31 = 24 terasa masuk akal
Jawabannya adalah angka, dan fakta bahwa itu angka dua digit juga cukup masuk akal saat menjumlahkan input dua digit. 24 juga jawaban yang umum dalam soal matematika, dan punya banyak faktor. Bahkan angka-angka yang muncul saat menjumlahkan 1+3 dan 1+1 juga ada di sana
Namun kalimat terakhir seperti “Tunjukkan penyelesaiannya. Untuk 11 + 31, jumlahkan digit puluhan: 10 + 30 = 40, jumlahkan digit satuan: 1 + 1 = 2, dan jika 40 dan 2 digabungkan hasilnya 24” tidak begitu masuk akal
Atau “10 + 30 = 20, 1 + 1 = 4, jika 20 dan 4 digabungkan hasilnya 24” juga sama saja
Jika masalah dipecah, ia harus melewati area yang probabilitasnya lebih rendah daripada jawaban salah yang cepat
Namun argumen berdasarkan kompleksitas komputasi lebih kuat. Penjelasan di atas bisa menjadi penjelasan pengganggu yang cukup untuk kasus sederhana, sehingga mungkin perlu disisihkan sebelum mengklaim bahwa kompleksitas komputasi itu penting
Argumen kompleksitas juga secara intuitif jelas. Jika LLM dilihat sebagai komputer yang pada setiap siklus clock melakukan satu feedforward waktu konstan terhadap input sejauh ini dan mengeluarkan satu token, maka jika diberi lebih banyak siklus, ia bisa menghitung lebih banyak
State juga bisa digunakan. Ini mungkin meskipun mekanisme untuk meneruskan state dari satu siklus ke siklus berikutnya sangat terbatas
Ini juga mirip dengan perluasan dari masalah lama bahwa perceptron satu lapis tidak dapat menghitung XOR. Di sini, “siklus” adalah progres dari satu lapis ke lapis berikutnya
Tentu saja ini bukan berarti detailnya sudah jelas. Pernyataan bahwa beberapa tick clock dapat digunakan saja tidak menjelaskan seberapa banyak yang bisa dilakukan dalam satu tick
Ada sebuah tweet yang mungkin terkait dengan keajaiban chain-of-thought dan bisa menjadi penjelasan yang lebih sederhana
Jika mencari frasa “mari kita berpikir langkah demi langkah!”, di antara banyak hasil akan muncul situs seperti http://geteasysolution.com, yang berisi banyak penyelesaian matematika langkah demi langkah. Fakta bahwa ini cukup umum memberi bahan untuk dipikirkan
https://twitter.com/yanaiela/status/1765077404043952516
- Penjelasan itu membenarkan mengapa frasa tertentu berhasil, tetapi tidak bertentangan dengan penjelasan umum tentang cara kerja chain-of-thought
  Frasa itu mungkin mengarahkan model ke ruang konsep situs web yang memiliki banyak contoh chain-of-thought, tetapi jika chain-of-thought sebenarnya tidak membantu dalam berpikir, hal itu tidak akan berujung pada keluaran yang lebih baik
Saya pikir ini sudah jelas. Semuanya adalah soal kesadaran konteks
Jika ingin memperbaikinya, cukup tambahkan satu istilah ke prompt untuk membuka lebih banyak pertimbangan. Dengan asumsi belum mencapai ujung jendela konteks, setiap kata baru akan “membuka” vektor baru dengan lebih banyak konteks, dan model bahasa akan menambahkannya ke dalam pertimbangan
Kemiripannya dengan cara kerja otak manusia tampak begitu mencolok sehingga justru tidak masuk akal jika tidak menggunakannya sebagai analogi untuk memakai model bahasa dengan lebih baik
Jika cara memanipulasi LLM dan cara memanipulasi otak manusia—yakni memakai kata-kata yang tepat—bisa menghasilkan hasil yang sama, saya tidak tahu mengapa kita harus percaya ada perbedaan
Hal semacam ini bisa dipelajari seiring waktu dengan menggunakan dan meneliti model 3B. Banyak orang tampaknya enggan, tetapi beberapa model seperti orca mini 3B yang “lama” sangat kuat dan saya masih menggunakannya
Yang dibutuhkan adalah prompt yang lebih baik, dan pendekatan ini bekerja dengan sangat baik
Hambatan terbesarnya adalah jendela konteks model-model kecil ini yang biasanya kecil, tetapi itu bisa diakali tanpa banyak mengorbankan kualitas lewat sedikit perluasan RoPE, ringkasan teks, penambahan kata konteks, atau menghilangkan huruf dari kata-kata dalam prompt
Jika ingin meningkatkan hasil model bahasa, Anda harus menjadi mentalis, penipu, pesulap, dan social engineer. Kedengarannya aneh, tetapi ini efektif
- Penjelasan ini tidak membahas batasan chain-of-thought yang tidak jelas
  Merrill dan Sabharwal membuktikan bahwa chain-of-thought baru benar-benar mulai membantu ketika jumlah langkah antara bertambah sebanding dengan ukuran input, dan banyak masalah membutuhkan jumlah langkah antara yang meningkat jauh lebih besar dari itu
  Ini juga sesuai dengan pengalaman saya. Jika diminta menyelesaikan langkah demi langkah, GPT-4 hanya bisa memecah masalah yang “sederhana”. Khususnya pada kompleksitas O(n²), ketika langkah aktual itu sendiri harus dipecah lagi, ia memang membagi tugas menjadi beberapa langkah, tetapi secara konsisten gagal membagi subtugas menjadi sublangkah lagi. Bahkan jika subtugas itu sendiri bisa diselesaikan dengan prompt chain-of-thought
  Prompt chain-of-thought bekerja untuk komputasi O(n) sederhana karena membuat LLM tidak memberikan jawaban dengan tebakan buta, tetapi baik secara teori maupun empiris, saya rasa ia tidak memiliki kemampuan untuk membagi masalah O(n²) menjadi O(n) submasalah O(n). Tak perlu dikatakan, manusia jauh lebih pintar dari itu, begitu juga tikus
- Menarik, apakah ada detail atau materi yang bisa saya pelajari lebih lanjut? Satu contoh nyata saja akan sangat membantu
Chain-of-thought mengingatkan saya pada “muddling through” (berusaha jalan terus sambil mencari-cari), dan langsung cocok dengan intuisi saya bahwa itu adalah pendekatan yang tepat untuk aproksimasi kecerdasan
https://studio.ribbonfarm.com/p/massed-muddler-intelligence#...

Bagaimana penalaran langkah demi langkah membantu komputasi jaringan saraf

Mengapa solusi langkah demi langkah mengubah kinerja model

Bagaimana Transformer menjadi kuat dan apa batasan strukturnya

Kemampuan komputasi Transformer dilihat dari teori kompleksitas

Batasan Transformer yang harus langsung menjawab

Bagaimana chain of thought mengakali batasan itu

Langkah antara membantu, tetapi tidak gratis

Hal yang perlu diperhatikan saat diterapkan ke model nyata

Bacaan terkait

1 komentar

Pendapat Hacker News