Kemampuan “mendadak melesat” LLM mungkin bersifat bertahap dan dapat diprediksi

(quantamagazine.org)

1 poin oleh GN⁺ 2024-03-26 | 1 komentar | Bagikan ke WhatsApp

Peneliti Stanford menilai sebagian kemampuan emergent pada LLM mungkin tidak muncul tiba-tiba, melainkan tampak seperti lompatan tajam karena cara pengukuran kinerja
BIG-bench mengevaluasi LLM lewat 204 tugas dan mengamati peningkatan diskontinu pada beberapa tugas, ketika kinerja yang semula mendekati 0 melonjak setelah skala tertentu
Metrik akurasi yang hanya melihat benar/salah, seperti pada penjumlahan tiga digit, dapat memperlakukan jawaban yang sebagian benar sebagai kegagalan dan menutupi proses peningkatan yang sebenarnya
Jika memakai skor parsial per digit, terlihat peningkatan bertahap: seiring bertambahnya parameter, model menebak lebih banyak angka dengan benar, sehingga interpretasi emergensi pada penjumlahan menjadi lebih lemah
Masih ada persoalan tentang bagaimana memprediksi metrik mana yang akan menunjukkan peningkatan tajam serta cara mengevaluasi tugas yang menuntut jawaban benar, sehingga diperlukan sains prediktif untuk model generasi berikutnya

Lompatan kinerja mendadak yang dilihat BIG-bench

Beyond the Imitation Game benchmark, atau BIG-bench, mengevaluasi kemampuan model bahasa besar melalui 204 tugas yang dibuat oleh 450 peneliti
Pada banyak tugas, kinerja membaik secara mulus dan dapat diprediksi seiring model membesar, tetapi pada sebagian tugas, kinerja yang lama hampir 0 tiba-tiba meningkat
Makalah Agustus 2022 menilai perilaku ini mengejutkan dan sulit diprediksi, serta perlu diperhitungkan dalam diskusi tentang keselamatan, potensi, dan risiko AI
Kemampuan ini disebut emergence, istilah untuk perilaku kolektif yang baru muncul ketika sebuah sistem mencapai tingkat kompleksitas tinggi

Bantahan Stanford: mungkin ilusi dari metrik, bukan dari model

Sanmi Koyejo, Rylan Schaeffer, dan Brando Miranda dari Stanford University membantah dalam makalah baru bahwa kemunculan kemampuan secara tiba-tiba bisa berasal dari cara kinerja LLM diukur
Intinya, kemampuan bukan muncul secara tak terduga; bergantung pada metrik pengukuran, peningkatan yang mulus dan dapat diprediksi bisa tampak seperti lompatan tajam
Para peneliti mengakui fakta bahwa LLM menjadi lebih efektif seiring skalanya membesar
Namun, apakah kurva peningkatan terlihat mulus atau tampak bergerigi dan tajam tidak hanya dipengaruhi cara kerja internal model, tetapi juga pilihan metrik atau kurangnya contoh uji

Skala model dan objek evaluasi

LLM dilatih dengan menganalisis dataset teks raksasa dari sumber daring seperti buku, penelusuran web, dan Wikipedia, lalu mencari hubungan antara kata-kata yang sering muncul bersama
Ukuran model diukur dari jumlah parameter, yang secara kasar berkaitan dengan cara kata-kata dapat terhubung
Skala model utama adalah sebagai berikut
- GPT-2: 1,5 miliar parameter
- GPT-3.5: 350 miliar parameter
- GPT-4: dirilis pada Maret 2023, menjadi dasar Microsoft Copilot, dan diketahui menggunakan 1,75 triliun parameter
Fakta bahwa LLM besar dapat menjalankan tugas yang tidak bisa dilakukan model kecil bukanlah inti perdebatan
Peneliti Stanford juga mengakui bahwa kompleksitas tambahan pada model yang lebih besar dapat meningkatkan kinerja pada masalah yang lebih sulit dan beragam

Batasan metrik akurasi yang tampak pada penjumlahan tiga digit

Dalam studi BIG-bench 2022, GPT-3 dan LAMDA dinilai tidak mampu menyelesaikan soal penjumlahan dengan tepat ketika parameternya masih sedikit
GPT-3 tampak tiba-tiba mampu melakukan penjumlahan ketika dilatih dengan 13 miliar parameter, dan LAMDA menunjukkan perubahan serupa pada 68 miliar parameter
Hasil ini mengarah pada interpretasi bahwa kemampuan penjumlahan muncul secara emergent pada ambang tertentu
Peneliti Stanford menunjukkan bahwa evaluasi ini hanya melihat akurasi, sehingga jawaban yang tidak sepenuhnya benar diperlakukan sebagai gagal
- Misalnya, jika jawaban untuk 100+278 adalah 376, jawaban itu jauh lebih dekat ke jawaban sebenarnya dibanding −9.34, tetapi dalam metrik benar/salah keduanya dianggap gagal
Para peneliti menggunakan metrik skor parsial yang melihat seberapa baik model memprediksi angka pertama, kedua, dan ketiga secara terpisah
Dengan metrik ini, terlihat pola bahwa semakin banyak parameter, LLM semakin akurat memprediksi deretan digit hasil penjumlahan
Karena itu, kemampuan penjumlahan dapat diinterpretasikan sebagai peningkatan bertahap dan dapat diprediksi, bukan lompatan mendadak yang tak terduga

Perdebatan yang masih tersisa

Tianshi Li dari Northeastern University menilai makalah Stanford belum menjelaskan cara memprediksi metrik mana yang akan menunjukkan peningkatan tajam LLM dan kapan hal itu terjadi
Dalam hal ini, masih ada ruang untuk melihat sebagian kemampuan sebagai tetap tidak dapat diprediksi
Jason Wei dari OpenAI berargumen bahwa pada kemampuan seperti aritmetika, yang menuntut jawaban benar, jawaban tepat itu sendiri penting, sehingga laporan emergence sebelumnya juga valid
Alex Tamkin dari Anthropic menilai makalah baru ini membuat tugas multi-tahap dipecah lebih kecil sehingga kontribusi tiap komponennya dapat dikenali
Pada saat yang sama, Tamkin menilai tidak semua lompatan bisa disebut ilusi, dan ada literatur yang menunjukkan diskontinuitas meskipun memakai prediksi satu tahap atau metrik kontinu

Tantangan untuk memprediksi model yang lebih besar

Xia “Ben” Hu dari Rice University menilai bahwa meskipun emergence pada LLM saat ini dapat dijelaskan dengan alat ukur lain, penjelasan yang sama belum tentu berlaku untuk LLM masa depan yang lebih besar dan kompleks
Hu mengatakan bahwa saat LLM tumbuh ke tingkat berikutnya, model akan meminjam pengetahuan dari tugas lain dan model lain
Bagi Tamkin, diskusi tentang emergence terhubung langsung dengan upaya memprediksi bagaimana LLM akan berperilaku
Karena teknologi LLM memiliki cakupan penerapan yang luas, membangun sains prediktif agar tidak dikejutkan oleh model generasi berikutnya menjadi semakin penting

1 komentar

GN⁺ 2024-03-26

Komentar Hacker News

Ada beberapa masalah dalam studi ini: 1) Mengganti akurasi gaya lulus/gagal dengan metrik yang lebih halus seperti jarak edit token bisa menjadi proksi kemampuan yang sangat buruk, tergantung tugasnya
2) Bahkan dengan metrik para penulis, masih ditemukan beberapa kemampuan emergen potensial
3) Setelah lewat, semuanya terlihat mudah. Kita bisa melihat ulang data dan mengutak-atiknya sampai menemukan transformasi yang membuat emergensi menghilang, tetapi saat itu mereka memakai metrik akurasi pengujian yang umum, dan fakta bahwa hasilnya tidak dapat diprediksi serta mengejutkan adalah fenomena yang benar-benar patut diperhatikan
Makalah ini bernilai, tetapi kesimpulannya tidak boleh ditarik terlalu jauh
- Seperti juga disebutkan di bagian akhir tulisan, hampir benar dalam penjumlahan tidak terlalu berarti. Entah benar atau salah
  Meski begitu, setelah cara penilaian diubah pun sebagian kemampuan emergen masih tersisa, jadi upaya itu layak diapresiasi
Saya rasa “emergensi hilang kalau memakai tolok ukur lain” juga berlaku untuk sebagian besar perilaku emergen
Jika skalanya diubah dan kita melihat molekul air satu per satu, yang terlihat bukan bongkahan es yang tiba-tiba muncul, melainkan molekul-molekul yang menempel satu demi satu ke struktur kristal
- Tidak selalu begitu. Masalahnya, definisi dalam machine learning memang sangat longgar
  Saya menulis lebih detail di sini[0]. Yang Anda sebutkan memang menjelaskan emergensi, tetapi berbeda dari klaim ketika dikatakan bahwa LLM memiliki kemampuan emergen. Perbedaan itu juga dijelaskan dalam tulisan tersebut
  [0] https://news.ycombinator.com/item?id=39812315
- Namun, mengetahui struktur molekul pada 50°C dan 75°C hampir tidak memberi tahu apa pun tentang titik beku
  Contoh lain, jika kita mengukur jumlah kasus infeksi suatu virus, ia bisa menyebar ke seluruh dunia (R0 > 1, misalnya COVID-19) atau gagal menyebar luas (R0 < 1, misalnya Ebola). Meskipun tidak sepenuhnya biner, dari luar tampaknya seperti biner, sehingga itu adalah perilaku emergen
  Sebaliknya, jika R0 diukur langsung, akan terlihat peningkatan bertahap, dan varian masa depan, efikasi vaksin, dan sebagainya dapat diprediksi jauh lebih mudah
  Menurut saya, “emergen” merujuk misalnya pada sigmoid, sedangkan “bertahap” merujuk pada fungsi linear atau logaritmik
- Tidak ada orang yang salah mengira es sebagai emergensi mendadak. Bahkan dengan mata telanjang pun jelas bahwa ia terbentuk secara bertahap
Makalah: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Masa depan selalu lebih mudah diprediksi setelah ia tiba
Dalam praktiknya mungkin ada sifat emergen seperti transisi fase yang tetap sulit diprediksi bahkan secara retrospektif, tetapi saya rasa itu tidak umum. Saya juga ragu apakah ada satu saja contoh LLM yang meyakinkan
Kasus yang lebih umum, menurut saya, adalah kemampuan tingkat tinggi bergantung pada beberapa kemampuan tingkat rendah, dan hubungan itu sulit diprediksi. Komponen-komponennya mungkin memang meningkat secara mulus, tetapi kita harus tahu apa yang perlu dilihat, yakni komponen inti mana yang penting
Untuk memprediksi kemampuan emergen, kita perlu mengidentifikasi terlebih dahulu komponen yang diperlukan, dan sampai batas tertentu juga mensimulasikan level yang harus dicapai tiap komponen agar dapat mendukung perilaku yang diharapkan
Tentu saja ini bukan hanya soal ukuran model atau skala data; jenis dan kualitas data juga penting, dan perubahan drastis bisa terjadi antarversi model. Sangat sulit menganalisis sebelumnya pola atau manipulasi baru apa—yakni kemampuan komponen—yang akan dipelajari model dari set pelatihan yang diperbarui
Saya juga penasaran seberapa sering arah sebaliknya terjadi. Maksudnya, ketika perancang model berhasil mengidentifikasi bahwa “untuk melakukan X dibutuhkan kemampuan A, B, C, dan untuk memperoleh A, B, C dibutuhkan dataset baru P dan Q.” Dalam situasi hipotetis seperti itu, kemajuan menuju kemampuan X mestinya bisa diukur
- Sepengetahuan saya, sebelum Transformer, hal semacam itu sama sekali tidak terjadi. Model tidak bisa memuat begitu banyak keterampilan individual tanpa saling mengganggu
  Model yang memiliki banyak kemampuan berkualitas tinggi itu sendiri masih merupakan fenomena yang cukup baru
  Meski begitu, saya melihat pendekatan semacam itu memang diperlukan, dan kemungkinan besar LLM terbaik saat ini sudah melakukan hal yang mirip. Hanya saja belum ada pihak yang mengungkapkan apa yang mereka lakukan, jadi ini sekadar dugaan
“Namun pada tugas lain, peningkatan kemampuan tidak mulus. Performa cukup lama bertahan hampir di 0, lalu tiba-tiba melonjak. Studi-studi lain juga menemukan lonjakan kemampuan serupa.”
Wah, judul kiriman ini tampaknya cukup tidak akurat, bukan?
- Paragraf itu merangkum hasil studi sebelumnya, dan makalah ini justru menantang hasil tersebut
- Dalam konteks ini, tampaknya maksudnya kemampuan semacam itu memang sengaja diteliti dan dibuat, bukan tiba-tiba muncul begitu saja dari mana pun
  Sebagian besar dunia terkejut oleh kemunculan mendadak “AI”, tetapi ada juga orang-orang yang sudah tahu bahwa hal-hal seperti ini akan datang
Pendekatan memberi skor parsial memang masuk akal, tetapi jika ingin melatih model agar menghasilkan jawaban benar, benar atau tidaknya jawaban tetap penting
Saat melatih aritmetika pada model kecil, meski kurva loss mencapai keadaan stabil, saya melihat sebagian angka benar tetapi jawabannya tetap salah. Bisa saja dilatih lebih lanjut, tetapi jumlah epoch pelatihan yang dibutuhkan tampaknya berbanding terbalik secara eksponensial dengan ukuran model
Jadi model dengan x parameter akan memerlukan waktu n² kali lebih lama daripada model dengan 2x parameter, misalnya
Pada jumlah parameter tertentu, mendapatkan jawaban benar melalui pelatihan gradient descent pada praktiknya menjadi hampir mustahil
Semakin banyak parameter, semakin mudah mendorongnya menuju konvergensi, dan ini sebenarnya metrik yang penting
Setelah titik tertentu, estimasi waktu sampai kemampuan itu muncul secara spontan menjadi lebih panjang daripada umur manusia, bahkan umur seluruh umat manusia. Dalam arti bahwa peningkatan ukuran model membuat hal itu menjadi mungkin, menurut saya sah saja mengatakan kemampuan itu muncul secara cukup mendadak sebagai emergensi
- Intinya adalah sekalipun kita menginginkan model yang menghasilkan jawaban benar, untuk melihat seberapa jauh dari target, kita harus memakai skor parsial alih-alih akurasi biner
  Jika memakai metrik yang perbaikannya tampak mendadak dan tak dapat diprediksi, kemampuan itu bisa saja muncul secara spontan sehingga kita bahkan tidak bisa memperkirakan berapa lama lagi harus melatihnya
  Sebaliknya, jika metrik skor parsial membaik secara mulus dan dapat diprediksi, kita punya peluang untuk mengekstrapolasi progres pelatihan dan memperkirakan kapan akurasi target akan tercapai, ketimbang mengekstrapolasi akurasi itu sendiri secara langsung
  Jika estimasi waktunya terlalu panjang sehingga diputuskan untuk melatih model yang lebih besar, ekstrapolasi antarukuran model juga dapat membantu memperkirakan seberapa besar model yang dibutuhkan
- Pelatihan model tampaknya terlalu dioptimalkan untuk kontinuitas. Misalnya variabel kontinu dapat dibagi tanpa batas, tetapi logika dan algoritma bukan sesuatu yang kabur seperti itu, melainkan struktur yang kaku
  Agar agen pembelajar benar-benar mempelajari logika dan algoritma, sepertinya ia harus bisa melakukan generalisasi dari konsep kabur ke konsep yang kaku. Apakah itu akan terjadi otomatis hanya dengan penskalaan, atau membutuhkan peralihan mendasar, masih belum jelas
- Sudah lihat submit ini? https://news.ycombinator.com/item?id=39575264
  Kedengarannya seperti pembahasan yang saling terkait
Ini makalah yang bagus. Namun emergensi tidak selalu mensyaratkan lonjakan metrik yang mendadak atau ketidakmampuan diprediksi. Kemampuan baru juga bisa muncul secara bertahap
- Dalam machine learning, ketika orang menyebut “emergensi”, yang dimaksud adalah metrik yang memiliki lonjakan mendadak, seperti dijelaskan dalam makalah yang memperkenalkan istilah tersebut: https://arxiv.org/abs/2206.07682
Model bisa saja menjadi lebih pintar tanpa lompatan diskontinu. Karena kita mengukurnya dengan cara yang tidak memberi skor pada jawaban parsial, kita mungkin hanya melewatkan sinyal bahwa ia selama ini terus menjadi lebih tajam
Ini tampaknya juga cukup sejalan dengan apa yang terlihat sebagai pemikiran Sam Altman. OpenAI sepertinya merasa bahwa hanya dari jumlah komputasi pelatihan dan ukuran data, mereka dapat memprediksi kemampuan penalaran model dengan cukup baik
- Sam Altman lebih mirip orang sales, dan itu bukan pemikirannya sendiri, melainkan ia mengulang pemikiran banyak pakar yang bekerja di OpenAI
Jam yang berhenti pun benar dua kali sehari
LLM adalah mesin plausibilitas. Hipotesis mendasar yang diuji di sini adalah bahwa jika plausibilitas meningkat, akurasi juga meningkat
Hipotesis ini mudah ditolak hanya dengan melihat konten tulisan manusia yang digunakan untuk melatih LLM, sehingga semua fenomena yang bergantung padanya memiliki batas atas. Karena itu, sekadar memperbesar LLM tidak akan menghasilkan AGI
- “LLM adalah mesin plausibilitas” adalah salah satu cara memandang LLM, tetapi itu saja tidak otomatis menimbulkan batas atas pada kemampuannya
  Pernyataan bahwa manusia adalah organisme yang bereproduksi juga benar. Sekilas tampaknya manusia hanya terseleksi untuk kemampuan bereproduksi sehingga tidak mungkin berevolusi memiliki kecerdasan, tetapi kenyataannya tidak begitu. Klasifikasi yang benar sekalipun tidak menentukan batas atas kemampuan manusia
  LLM berevolusi untuk mempertahankan pengetahuan seefisien mungkin
  Strategi sederhana untuk mempertahankan pengetahuan adalah menghafal, dan neural network jelas bisa menghafal
  Strategi lain adalah menggunakan algoritma. Neural network juga dapat berevolusi untuk mempertahankan pengetahuan melalui algoritma. Misalnya, terlihat bahwa neural network kecil mengembangkan struktur mirip FFT untuk melakukan penjumlahan. Awalnya dimulai dengan hafalan dan belum sempurna, tetapi pada tahap akhir pelatihan beralih ke algoritma penjumlahan yang menggunakan FFT dan menghasilkan keluaran sempurna
  Menurut saya LLM yang lebih baik mempertahankan pengetahuan melalui kompresi yang canggih. Ini mencakup pembuatan model dunia dan cara menghubungkan teks masukan dengan model tersebut
  Saya melihat ini sebagai komponen mesin penalaran. Memang belum sempurna, punya bug, dan struktur saat ini mungkin segera mencapai batasnya, tetapi ini sama sekali berbeda dari hafalan murni
- Anda berasumsi manusia secara stabil mengejar akurasi, bukan plausibilitas
  Fakta bahwa seluruh sistem sains dirancang untuk menekan klaim yang tampak masuk akal tetapi salah justru menunjukkan kebalikannya
- Secara filosofis itu benar, tetapi dalam praktiknya AI sedang berada di jalur untuk melampaui manusia dalam banyak tugas dan pekerjaan yang sebelumnya dianggap membutuhkan kecerdasan
- Kesimpulan bahwa “semua fenomena yang bergantung padanya memiliki batas atas” terdengar masuk akal, tetapi mudah dipatahkan dengan contoh tandingan. Murid yang baik bisa melampaui gurunya, dan murid biasa pun jika belajar dari banyak guru bisa melampaui semuanya
  Sebagai catatan sampingan, karena itulah saya pikir sistem master-journeyman pada Abad Pertengahan sangat efisien
  Secara lebih abstrak, kesimpulan itu tampaknya berasumsi bahwa transfer learning tidak ada
Metrik yang digunakan para penulis membingungkan
Edit distance terasa seperti cara yang aneh untuk menguji apakah model memahami aritmetika([1], Figure 3). 1+3=3 tampaknya akan diperlakukan sama benarnya dengan 1+1=9
Saya penasaran mengapa mereka tidak melihat seberapa jauh keluaran model dari nilai sebenarnya dengan abs(actual-expected). Saya juga penasaran apakah pada metrik itu ada titik belok
https://arxiv.org/abs/2206.07682
- Itu bergantung pada bagaimana aritmetikanya dilakukan. Jika manusia melakukan penjumlahan bersusun, 12345+35791=58136 adalah kesalahan yang sama besarnya dengan 48146. Hasil sebenarnya adalah 48136, dan keduanya hanya salah pada satu kolom digit. Binary half-adder juga bekerja dengan cara yang sama
  Kita tidak tahu bagaimana LLM melakukan aritmetika. Token edit distance mungkin menarik, tetapi bagaimanapun klaim makalahnya sendiri tidak banyak berubah
  Terpisah dari itu, tautannya salah. Makalah yang dimaksud ada di sini: https://arxiv.org/pdf/2304.15004.pdf

Kemampuan “mendadak melesat” LLM mungkin bersifat bertahap dan dapat diprediksi

Lompatan kinerja mendadak yang dilihat BIG-bench

Bantahan Stanford: mungkin ilusi dari metrik, bukan dari model

Skala model dan objek evaluasi

Batasan metrik akurasi yang tampak pada penjumlahan tiga digit

Perdebatan yang masih tersisa

Tantangan untuk memprediksi model yang lebih besar

Bacaan terkait

1 komentar

Komentar Hacker News