Penalaran Model Bahasa Besar: Sudut Pandang Geometris

(arxiv.org)

1 poin oleh GN⁺ 2024-07-09 | 1 komentar | Bagikan ke WhatsApp

Kinerja penalaran LLM ditafsirkan bukan sekadar sebagai persoalan ukuran model, tetapi melalui geometri lapisan Transformer, dengan membahas keterkaitan bahwa kepadatan graf self-attention mengubah dimensi intrinsik input MLP
MLP membagi ruang input menjadi banyak wilayah afin per-bagian, dan ketika dimensi intrinsik input membesar, ia dapat membentuk lebih banyak wilayah untuk mengaproksimasi fungsi nonlinear dengan lebih rinci
Dalam graf attention yang memandang token sebagai node, ketika jumlah head atau panjang konteks bertambah, kepadatan graf meningkat, dan akibatnya ruang representasi yang ditangani MLP juga dapat membesar
Dalam eksperimen GSM8K-Zero dan Llama 3 8B/70B Instruct, saat ditambahkan 1~10 contoh few-shot, peningkatan dimensi intrinsik pada lapisan terakhir sangat selaras dengan kenaikan tingkat jawaban benar
Peningkatan dimensi intrinsik pada lapisan pertama dapat muncul bahkan jika hanya menambahkan token acak, sehingga daya jelaskannya lemah; peningkatan penalaran yang nyata lebih jelas terlihat ketika konteks yang relevan memperkaya representasi lapisan akhir

Mengapa kemampuan penalaran dilihat lewat geometri

Dalam pemanfaatan LLM di dunia nyata, peningkatan kemampuan penalaran adalah tugas inti, dan model seperti GPT-4 dan Llama 3 menunjukkan performa kuat di berbagai tugas
Arah perbaikan yang ada secara umum terbagi dua
- Memperbesar ukuran model: ada kasus di mana model yang lebih besar menunjukkan kemampuan penalaran yang lebih baik
- Memperpanjang panjang konteks: pendekatan seperti chain of thought, retrieval augmented generation, dan prompting berbasis contoh digunakan dengan menambah token input
Input yang lebih panjang dan model yang lebih besar dapat meningkatkan biaya komputasi serta latensi inferensi dalam penggunaan nyata
Studi ini menelaah hubungan antara daya representasi dan kemampuan penalaran LLM melalui geometri lapisan Transformer
Pertanyaan intinya adalah bagaimana panjang sekuens input dan jumlah attention head memengaruhi geometri LLM, khususnya dimensi intrinsik dari blok self-attention

Pembagian ruang oleh MLP dan daya representasi

MLP yang menggunakan nonlinieritas seperti ReLU, leaky-ReLU, absolute value, dan max-pooling dapat dipandang sebagai fungsi afin per-bagian kontinu yang membagi ruang input menjadi beberapa wilayah
Pada tiap wilayah, terdapat affine map yang menangani input pada bagian tersebut
- Jika fungsi target linear pada suatu bagian, satu wilayah saja sudah cukup
- Jika fungsi target nonlinear, dibutuhkan beberapa wilayah untuk mengaproksimasi kelengkungannya
Dalam eksperimen toy yang mengaproksimasi fungsi sine, ketika jumlah hidden neuron meningkat dari 50 menjadi 500, lebih banyak wilayah terbentuk dan aproksimasi menjadi lebih rinci
Letak wilayah-wilayah itu di ruang input bergantung pada data, dan ukuran, keseragaman, serta perubahan struktural pada data pelatihan dapat memengaruhi kepadatan pembagian
Bahkan dengan jumlah neuron yang sama, jika dimensi intrinsik input membesar, jumlah wilayah yang dapat dibentuk MLP meningkat secara eksponensial

Bagaimana dimensi intrinsik muncul dalam Transformer

Lapisan Transformer pada causal LLM terdiri dari self-attention, multi-head attention, MLP, residual connection, dan layer normalization
Attention map dapat ditafsirkan sebagai graf dengan token sebagai node dan nilai attention sebagai bobot edge
Kepadatan graf self-attention menunjukkan tingkat keterhubungan antar-token, dan kepadatan ini terkait dengan dimensi intrinsik input MLP
Menurut Theorem 2.1, setiap row dari keluaran multi-head attention berada di dalam Minkowski sum dari convex hull single-head, dan dimensi efektifnya dibatasi oleh jumlah token dengan nilai attention lebih besar dari 0 pada tiap head
Soft intrinsic dimension yang digunakan dalam studi ini didefinisikan sebagai jumlah token dengan nilai attention lebih besar dari threshold ε
- Dalam eksperimen, ε ditentukan berdasarkan statistik dan distribusi nilai attention
- Pada semua eksperimen, threshold ditetapkan ke 0.1

Jalur bagaimana attention head dan panjang konteks meningkatkan daya representasi

Karena dimensi intrinsik input MLP ditentukan oleh attention map, semakin padat graf attention, semakin banyak wilayah yang dapat dibentuk MLP
Ada dua cara utama untuk meningkatkan dimensi intrinsik
- Menambah jumlah attention head: efek dari beberapa head dijumlahkan sehingga dimensi efektif dapat membesar
- Mengubah prompt atau memperluas konteks: input dapat diubah untuk meningkatkan kepadatan graf attention
Eksperimen toy one-layer LLM menggunakan struktur embedding → attention block → MLP 1-hidden-layer untuk mengaproksimasi fungsi sine
Hasil perbandingan context length 10/100 dan jumlah head 1/10 menunjukkan bahwa ketika panjang konteks dan jumlah head bertambah, jumlah wilayah yang dibentuk MLP pada ruang input juga meningkat
Mengubah jumlah head mungkin memerlukan pre-training atau fine-tuning, tetapi panjang konteks dapat disesuaikan tanpa menyentuh weight model

Eksperimen GSM8K-Zero dan Llama 3

Eksperimen mengevaluasi performa respons LLM terhadap pertanyaan reasoning menggunakan dataset GSM8K-Zero
Kondisinya terdiri dari baseline 0-shot dan variasi prompt 1~10-shot
- Contoh few-shot adalah pasangan question-answer yang dipilih secara acak dari training set GSM8K-Zero
- Dalam eksperimen pembanding, token acak atau teks few-shot example yang diacak ditempelkan di bagian depan
Model yang diuji adalah Llama3 8B Instruct dan Llama3 70B Instruct
Base prompt terdiri dari sekitar 300 sampel dari GSM8K-Zero yang menghasilkan jawaban salah
Benar atau tidaknya respons dievaluasi dengan prompting ke model Mixtral 8×22B Instruct

ID lapisan terakhir lebih selaras dengan performa

Saat contoh few-shot ditempelkan di depan, peluang memperoleh jawaban benar meningkat ketika dimensi intrinsik pada lapisan terakhir juga meningkat
Baik pada Llama3 8B maupun 70B Instruct, semakin besar perubahan final layer ID, semakin tinggi kecenderungan rasio correct response
Pada lapisan pertama, dimensi intrinsik dapat meningkat apa pun jenis token yang ditempelkan
- Graf attention pada lapisan pertama bekerja mirip uniform distribution terhadap keseluruhan token
- Eksperimen token acak menunjukkan bahwa peningkatan ID pada lapisan pertama tidak selalu terkait dengan performa penalaran
Pada kondisi token acak, peningkatan ID terbatas atau bernilai negatif, dan rasio correct response mencapai saturasi di kisaran 40%
Pada Figure 8 yang membandingkan beberapa lapisan, terlepas dari ukuran model, ID lapisan terakhir muncul sebagai sinyal yang lebih berguna untuk membedakan apakah respons benar atau tidak
Dalam LLM, tiap token yang dihasilkan self-attention head ditransformasikan secara independen di MLP, dan MLP dengan partition yang lebih rinci dapat menerapkan affine map yang lebih adaptif untuk tiap token
Prediksi dibentuk dari kombinasi linear embedded token, sehingga galat aproksimasi per token dapat terakumulasi, dan pembagian yang lebih rinci di sekitar token dapat mengurangi galat aproksimasi prediksi akhir
Bagaimana dimensi intrinsik dan partition affine map terhubung dengan kemampuan generalisasi LLM masih belum cukup dieksplorasi, baik dalam studi ini maupun sebagian besar riset terkait

1 komentar

GN⁺ 2024-07-09

Komentar Hacker News

Nilai AI tampak seperti kurva bathtub. Di level rendah, ia adalah autocomplete superkuat yang cukup bagus menulis kode 1–3 baris; di level tinggi, ia bagus untuk menjelaskan konsep tingkat atas yang terkait dengan tugas yang dihadapi.
Di area tengah, ia tidak bekerja dengan baik. Jika diminta membuat rencana beberapa tahap, tiap bagiannya secara terpisah mungkin baik-baik saja, tetapi tidak saling mengunci. AI tidak punya perasaan bahwa “empat bagian ini harus terhubung erat dan membentuk satu kesatuan”, dan rasanya seperti membuat empat langkah dari A ke B sambil asal menyambungkan rute-rute yang berbeda.
- Itu bukan kurva bathtub. Tugas level rendah dan tugas level “tinggi” pada akhirnya sama-sama pembuatan teks probabilistik.
  Ia tidak menalar tentang kode, juga tidak menalar tentang penjelasan yang diberikannya. AI tidak bisa berpikir, tidak membangun model internal atas masalah yang diberikan, dan hanya menebak. Alasan tugas-tugas “tengah” ini gagal adalah karena untuk menghasilkan jawaban yang benar diperlukan penalaran abstrak.
- Jika melihat data pelatihan, contoh rencana beberapa tahap tidak terlalu banyak. Jika arsitekturnya mempelajari bagaimana konsep-konsep, yaitu vektor berdimensi tinggi, saling terkait, ia tidak bisa bekerja dengan baik ketika contoh penalaran yang dibutuhkan tidak cukup.
  Pada akhirnya, ini akan membaik ketika terkumpul data seperti data sintetis, deskripsi tujuan yang baik, dan kode yang mengimplementasikan tujuan tersebut.
- Sumbu level rendah dan level tinggi mungkin bukan ukuran yang baik untuk mengevaluasi AI. Kita perlu menerapkan kernel trick pada ukuran ini untuk memisahkan tinggi-rendahnya level dari masalah perencanaan multilangkah.
  Dengan kata lain, kita perlu memakai dimensi lain untuk membedakan ketiga masalah ini.
Entah apakah kalian ingat permainan “Mad Libs”. Itu permainan yang mengisi bagian kosong seperti “kata kerja”, “kata benda”, “kata sifat”, lalu di halaman berikutnya kata-kata itu dipakai untuk membuat cerita konyol. Saat memasukkan kata-kata di awal, tidak ada konteks, jadi secara tata bahasa benar tetapi secara konteks tidak masuk akal, dan itulah yang membuatnya lucu.
LLM seperti Mad Libs yang ditempeli prediktor konteks. Ia membuat keluaran yang benar secara tata bahasa, dan karena korelasi statistik umumnya menghasilkan hasil yang bermakna, prediktor konteks mengurangi omong kosong. Namun di sini tidak ada “penalaran”; yang ada hanya pengisian kerangka tata bahasa dan autocomplete statistik.
- Benar, tetapi itu adalah model autocomplete yang begitu kompleks sampai hampir sulit dibayangkan. Dan sebagian besar penalaran manusia dapat diprediksi secara statistik dari tulisan, sehingga hanya dengan model autocomplete yang baik pun kita benar-benar bisa memperoleh perilaku yang tampak seperti penalaran.
  Jangan meremehkan betapa luar biasanya ia bekerja dengan baik, dan betapa mengejutkannya fakta bahwa ia memang bekerja, hanya karena tidak berfungsi di semua kasus. Inti artikel aslinya juga adalah mengeksplorasi bagaimana fenomena mirip penalaran muncul dari model autocomplete yang cukup besar.
- Pernyataan bahwa ini “hanya pengisian kerangka tata bahasa dan autocomplete statistik” adalah hipotesis stochastic parrot, dan selalu diulang setiap kali makalah LLM muncul di HN.
  Hipotesis ini bukan sekadar klaim filosofis; ia menghasilkan prediksi yang dapat dibantah, dan eksperimen telah cukup membantahnya. LLM memiliki model dunia. Makalah terkenal tentang topik ini adalah OthelloGPT, dan yang lebih baru adalah Transformers Represent Belief State Geometry in their Residual Stream.
- Saya tidak mengerti mengapa orang-orang terus yakin bahwa “penalaran” bukanlah suatu bentuk pengisian kerangka tata bahasa dan autocomplete statistik.
- Saya memandang penalaran sebagai pengisian kerangka tata bahasa dan autocomplete statistik yang sudah cukup maju.
  Perlu juga diingat bahwa transformasi tata bahasa bersifat Turing complete: https://wiki.c2.com/?RewriteRules
- Dari gagasan ini, tepatnya dari ad-libs, saya menamai pustaka TypeScript untuk pengisian bagian kosong LLM: https://github.com/gsuuon/ad-llama/
Tampaknya ada dua sisi dalam diskusi ini. Ada sudut pandang bahwa, sambil menyerap teks dalam jumlah sangat besar, model entah bagaimana menciptakan kemampuan bernalar; dengan kata lain, penalaran muncul setelah bahasa.
Sebaliknya, ada juga pandangan bahwa penalaran itu sudah dilakukan manusia dan dituliskan, sehingga ketika diajukan pertanyaan seperti “setelah Juliet, apakah Romeo seharusnya mencari cinta lain?”, model memantulkan kembali kumpulan penalaran yang tercermin dalam miliaran esai sastra Inggris. Apakah ada sesuatu yang terlewat?
- Keduanya tampak seperti dua sisi dari koin yang sama. LLM pada dasarnya dilatih untuk melakukan pelengkapan teks, dan pelatihan adalah proses mencari cara paling efektif untuk melakukannya dalam struktur model dan jumlah parameter yang diberikan.
  Jika berangkat dari “LLM menyerap teks dalam jumlah sangat besar”, model sederhana bisa melengkapi teks lewat hafalan. Namun untuk melengkapi 234 * 452 = dengan benar, benar-benar menghitung jauh lebih sederhana daripada menghafal semua kemungkinan perkalian. Demikian pula, jika dapat memahami dunia dan bernalar, model bisa melengkapi kalimat yang ditulis manusia dengan lebih baik. Karena itu, kita dapat berharap bahwa model yang dilatih dengan cukup baik, memiliki parameter cukup banyak untuk melakukan ini tetapi tidak sebanyak hingga sekadar overfitting, akan mengembangkan kemampuan bernalar sampai tingkat tertentu.
  Jika berangkat dari “ada banyak penalaran dalam set pelatihan”, maka bahkan pada tahap hafalan pun bisa diperoleh hasil yang tampak seperti penalaran. Namun logika bahwa model akan mengembangkan penalaran nyata tetap berlaku dan bahkan menjadi lebih kuat. Jika harus melengkapi argumen seseorang, itu jauh lebih mudah ketika dapat mengikuti alur pikir orang tersebut.
- Ada baiknya melihat tes penalaran yang lebih luas yang kini digunakan untuk LLM, seperti MuSR. Karena pertanyaannya dibuat baru, jelas sulit menjelaskannya hanya dengan penjelasan yang kedua: https://arxiv.org/abs/2310.16049
- Alasan model seperti itu dapat “bernalar”, atau lebih tepatnya menangani konsep yang kompleks, cukup intuitif. Saat memproses teks dalam jumlah sangat besar, model membentuk representasi internal di mana konsep-konsep direpresentasikan sebagai node sederhana, yaitu neuron atau kelompok neuron.
  Jadi, pada praktiknya model mendistilasi pengetahuan. Atau kita juga bisa menganggapnya seperti analisis komponen utama yang sangat baik yang mengekstrak berbagai aspek penting, atau seperti graf semantik yang dibuat secara otomatis. Begitu pengetahuan didistilasi, kita bisa dengan mudah membangun di atasnya dengan menggabungkan konsep-konsep. Tidak ada rahasia khusus.
- Setelah menelusuri makalahnya, tampaknya mereka menyadari masalah ini tetapi agak melewatinya.
  Mereka mengatakan bahwa jelas kemampuan aproksimasi dan generalisasi bukanlah konsep yang sama. Namun, apakah kemampuan bernalar LLM terhubung dengan generalisasi belum ditentukan, dan karena konsep-konsep ini masih sulit ditunjuk secara tepat, bagian eksperimen berfokus pada hubungan antara dimensi intrinsik, yaitu daya ekspresi, dan kemampuan bernalar.
- Dalam ungkapan “model memantulkan kembali jawaban itu”, ada banyak hal yang tersirat dalam kata memantulkan kembali. Benarkah sesederhana itu?
  Apakah maksudnya model menerima pandangan dari esai kritik sastra tertentu yang pernah “dibacanya”? Atau apakah model mengambil semacam pandangan “rata-rata” dari keseluruhan? Sejak awal, bagaimana kita bisa mendefinisikan pandangan “rata-rata” tentang suatu topik?
  Ini masalah menarik yang menyentuh inti dari apa itu LLM, tetapi makalah ini memiliki fokus yang jauh lebih sempit, jadi sepertinya tidak akan memberikan jawabannya.
Apa hubungan penalaran dengan geometri? Apakah mirip dengan gagasan bahwa konsep-konsep yang berbeda memiliki bentuk geometris yang inheren? Apakah ini sudut pandang Platonis atau intelektualis tentang geometri akal budi? Sulit memahami banyak isi makalahnya
- Tambahan setelah membaca makalahnya sedikit lebih jauh tentang dari mana geometri muncul
  Makalah ini[1], salah satu sumber yang dikutip oleh makalah tersebut, menunjukkan bahwa lapisan nonlinier dalam jaringan saraf dalam modern membagi input menjadi wilayah-wilayah, lalu menghasilkan output dengan menerapkan pemetaan afin[2] untuk tiap wilayah. Makalah itu juga membahas bagaimana hal ini terhubung dengan kuantisasi vektor dan klasterisasi k-means
  Jadi perspektif geometris di sini bukan geometri ala SMA, melainkan konsep yang lebih abstrak seperti ruang vektor[3] atau geometri komputasional kombinatorial[4]
  Makalah yang diajukan menunjukkan bahwa pembagian semacam ini terhubung langsung dengan kemampuan aproksimasi jaringan saraf. Lalu, semakin besar kemampuan aproksimasinya, semakin baik jawaban untuk soal cerita matematika, sehingga kemampuan aproksimasi dikemukakan berkorelasi dengan kemampuan penalaran LLM
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Jaringan saraf modern banyak memakai aljabar linear, terutama arsitektur transformer[1] yang menggerakkan LLM modern
  Karena aljabar linear berkaitan erat dengan geometri[2], cukup wajar bila ada aspek geometris yang menentukan kemampuan dan performa
  Dalam makalah ini, secara khusus mereka melihat dimensi intrinsik[3] dari lapisan attention dan menelaah bagaimana hal itu berkorelasi dengan performa LLM
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- Gagasan bahwa “konsep-konsep yang berbeda memiliki bentuk geometris yang inheren” itu benar. Bahkan fondasi matematika bisa dibangun di atas konsep ini, dan “penalaran” serta pembuktian dalam arti tertentu juga bisa dibuat
  Sistem tipe dependen bekerja dengan cara seperti ini. Coba cari HoTT dan teori homotopi modal. Lean4, Coq, dan pembuktian teorema juga bekerja dengan cara ini
  Jika memikirkan dasar kalkulus lambda atau aljabar Boolean, objek-objek matematis yang tersusun di atas lattice atau semilattice berupa himpunan terurut parsial ditangani sebagai serangkaian transformasi. Misalnya, dalam aljabar Boolean, implikasi memberikan urutan parsial
  Akan menarik memahami apakah densitas mekanisme attention mengikuti perkembangan yang mirip dengan sistem tipe dependen, dan apakah ada keterhubungan antara tipe dependen yang terlibat dalam pembuktian dan ruang korespondensi di dalam LLM melalui relaksasi kontinu yang mirip operator proksimal serta transformasi dari konsep tingkat tinggi ke token output
  Kita sudah melihat bahwa geometri bermakna dalam embedding. Konsep sederhana tertentu berkorespondensi dengan arah vektor. Sama sekali tidak mengejutkan jika penalaran atas konsep dependen berkorespondensi dengan subruang kompleks pada jalur yang dilalui LLM, dan jika dengan pelatihan yang cukup, keterhubungan itu makin mendekati struktur logis dari pembuktian yang bersesuaian
- Makalah ini tidak mengatakan hal itu, tetapi dari sini bisa dibuat benchmark sintetis ala AlphaGeometry[1]. Caranya, mesin geometri menghasilkan 100 juta soal cerita dan LLM diminta menyelesaikannya
  Masalah geometri mudah dibuat dan diselesaikan secara mekanis, tetapi tidak ada alasan khusus mengapa LLM transformer umum harus sangat bagus dalam hal itu, dan keuntungannya adalah skalanya bisa diperbesar luar biasa. Berbeda dari benchmark seperti HumanEval yang hanya punya 164 soal, ini juga memudahkan menghindari kritik bahwa LLM menghafal jawabannya
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Sepertinya yang dimaksud adalah embedding kata. Di sini konteks di-embed ke dalam ruang geometri berdimensi tinggi, dan dimensi tertentu bisa menangkap hal seperti seberapa “feminin” sebuah kata atau seberapa “mendekati biru” kata itu
Saya penasaran apa yang dimaksud dengan wilayah di sini, apakah semakin banyak wilayah semakin baik, bagaimana wilayah dibedakan, dan apakah satu wilayah bisa menjadi konsep yang sama dengan beberapa wilayah terkait
- Sejauh yang saya pahami, wilayah adalah potongan-potongan yang membentuk partisi wilayah input, yaitu potongan ruang vektor yang dibentuk oleh bobot. Ada penjelasan lebih rinci mulai bagian 3.1 dalam makalah yang dikutip[1]
  Argumen makalah itu adalah bahwa lapisan-lapisan dalam jaringan saraf dalam secara umum membagi wilayah input menjadi beberapa wilayah, dan tiap wilayah memiliki pemetaan afinnya sendiri terhadap input
  Untuk fungsi aktivasi sembarang, kita harus menemukan baik partisinya maupun parameter pemetaan afin untuk tiap wilayah. Namun karena fungsi aktivasi yang umum bersifat konveks secara global, makalah itu menunjukkan bahwa sifat ini bisa dimanfaatkan agar partisi sepenuhnya ditentukan oleh parameter pemetaan afin per wilayah
  Jadi output lapisan untuk suatu input x menjadi “transformasi afin sepotong-sepotong dari x yang bergantung pada partisi-wilayah”. Parameter pemetaan afin pada dasarnya adalah yang berubah selama pelatihan, sehingga jumlah dan bentuk wilayah juga berubah selama pelatihan
  Makalah yang diajukan menunjukkan bahwa semakin banyak wilayah, semakin besar kemampuan aproksimasi lapisan jaringan saraf. Jika memikirkan hal di atas, ini sendiri tidak mengejutkan, tetapi dipakai sebagai batu pijakan penting
  [1]: https://arxiv.org/abs/1805.06576v2
Seperti banyak diskusi filosofis lainnya, mengklaim bahwa LLM bisa “menalar” tidak terlalu bermakna. Sebab “penalaran” bukan istilah yang terdefinisi dengan baik, dan tidak semua orang akan menyepakati satu definisi yang sama
Jika bertanya kepada ilmuwan komputer, filsuf kontinental, dan antropolog apa itu “penalaran”, mereka akan memberi jawaban yang sama sekali berbeda
Jika yang dimaksud dengan penalaran adalah penalaran deduktif seperti dalam matematika dan penalaran induktif seperti dalam sains, tidak ada bukti bahwa LLM melakukan hal semacam itu. Tidak ada alasan juga untuk percaya bahwa pencocokan pola linguistik saja dapat meniru semua hal yang kita sebut sebagai pemikiran manusia. Untuk mengklaim demikian, kita harus mendefinisikan “pemikiran” dengan sangat sempit dan mengabaikan fakta bahwa kita adalah kecerdasan yang bertubuh, serta dapat mengetahui diri kita sendiri dengan cara yang transparan dan mungkin pra-linguistik. Kecuali AI menjadi terwujud secara fisik dan mampu melakukan hal yang sama, saya tidak percaya ia akan “berpikir” atau “menalar” seperti manusia. Tetap saja ini hanya sulap statistik yang sangat mengesankan
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Ada banyak bukti bahwa mereka melakukan induksi
- Mungkin itu benar, tetapi jika “cukup bagus”, mengapa itu penting? Jika saya tidak bisa membedakan apakah pengguna di Slack/Teams yang menyelesaikan tiket tepat waktu dan kualitas kodenya juga baik adalah LLM atau saya sendiri, saya tidak terlalu peduli apakah entitas itu mengetahui dirinya sendiri secara transparan dan pra-linguistik
“Tinggal tambahkan lebih banyak dimensi saja, bro!”
Saya bukan orang AI, hanya suka mengamati dari samping. Setelah membaca sekilas makalahnya, ringkasan saya sebagai nonpakar kira-kira begini; kalau ada yang salah, mohon dikoreksi
Jaringan saraf modern, misalnya lapisan multilayer perceptron[1] yang digunakan dalam LLM, pada dasarnya membagi input menjadi beberapa wilayah. Jumlah wilayah yang bisa dibagi oleh satu lapisan MLP bergantung secara eksponensial pada dimensi intrinsik[2] input, dan jumlah wilayah/pembagian tampaknya meningkatkan kemampuan aproksimasi lapisan MLP
Jadi, tanpa menambah jumlah neuron pun, input dapat secara efektif “didistilasi” sehingga kemampuan aproksimasi lapisan MLP meningkat besar
Dalam arsitektur transformer, input ke lapisan MLP adalah lapisan self-attention[3]. Para penulis menunjukkan bahwa kepadatan graf pada lapisan self-attention berkorelasi kuat dengan dimensi intrinsik lapisan self-attention. Artinya, semakin padat lapisan self-attention, semakin baik kinerja MLP
Salah satu cara meningkatkan kepadatan lapisan attention adalah menambahkan lebih banyak konteks. Tampaknya performa LLM meningkat jika dimensi intrinsik lapisan akhir dinaikkan dengan menempelkan token apa pun sebagai konteks sebelum pertanyaan
Makalah ini juga menulis bahwa arsitektur transformer rentan terhadap akumulasi galat aproksimasi, dan pembagian yang lebih presisi yang diberikan oleh lapisan MLP yang menerima input berdimensi intrinsik tinggi dapat membantu mengatasinya. Namun, dampaknya terhadap generalisasi masih perlu diteliti lebih lanjut
Jika hasilnya tetap bertahan, makalah ini tampaknya memberi wawasan yang baik untuk mengoptimalkan jaringan saraf mirip LLM dengan lebih baik
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Akan lebih intuitif jika kepadatan didefinisikan sebagai jumlah sisi yang menghubungkan token dalam graf attention. Lebih sederhananya, ini adalah jumlah kali suatu token memiliki koneksi dengan token lain, dibagi dengan jumlah token
  Jadi token yang benar-benar saling terkait dan memberi informasi memang baik, tetapi token yang tidak relevan tidak membantu
  Ungkapan “jika menempelkan token apa pun sebagai konteks sebelum pertanyaan, performa LLM meningkat” sepertinya tidak akurat. Yang ditemukan makalah ini adalah bahwa jika token jenis apa pun ditempelkan sebelum pertanyaan saat ini, dimensi intrinsik lapisan pertama meningkat, tetapi peningkatan ini tidak selalu berkorelasi dengan kemampuan penalaran model
  Hanya ketika token yang ditempelkan di depan meningkatkan dimensi intrinsik lapisan akhir model, kemampuan penalaran LLM meningkat secara signifikan
- Bukankah jumlah wilayah berbeda yang diminati adalah subset dari dimensi Vapnik–Chervonenkis[a] data, dan dalam kasus ekstrem bisa dianggap sama?
  Dalam teks aslinya tidak ada penyebutan dimensi VC
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Penalaran Model Bahasa Besar: Sudut Pandang Geometris

Mengapa kemampuan penalaran dilihat lewat geometri

Pembagian ruang oleh MLP dan daya representasi

Bagaimana dimensi intrinsik muncul dalam Transformer

Jalur bagaimana attention head dan panjang konteks meningkatkan daya representasi

Eksperimen GSM8K-Zero dan Llama 3

ID lapisan terakhir lebih selaras dengan performa

Bacaan terkait

1 komentar

Komentar Hacker News