1 poin oleh GN⁺ 2024-03-26 | 1 komentar | Bagikan ke WhatsApp

Seberapa cepat model bahasa besar mempelajari kemampuan yang tak terduga?

  • Penelitian baru tentang kemampuan Large Language Models (LLM) mengusulkan bahwa apa yang disebut sebagai 'kemampuan yang mendadak melesat' sebenarnya berkembang secara bertahap dan dapat diprediksi.
  • Para peneliti menggambarkan kemampuan ini sebagai perilaku 'mendadak melesat', dan mengibaratkannya dengan transisi fase dalam fisika, seperti ketika cairan berubah menjadi es.
  • Namun, tim peneliti dari Stanford University berpendapat bahwa kemunculan mendadak kemampuan tersebut hanyalah hasil dari cara para peneliti mengukur kinerja LLM.

Pengukuran kinerja model bahasa besar

  • Model bahasa besar menganalisis kumpulan data teks dalam jumlah sangat besar untuk menemukan keterkaitan antara kata-kata yang sering muncul bersama.
  • Ukuran model diukur berdasarkan jumlah parameter, dan semakin banyak parameter, semakin banyak keterkaitan yang dapat ditemukan oleh LLM.
  • GPT-2 memiliki 1,5 miliar parameter, GPT-3.5 memiliki 350 miliar, dan GPT-4 menggunakan 1,75 triliun parameter.

Perkembangan bertahap dari kemampuan yang tak terduga

  • Tim peneliti Stanford University berpendapat bahwa kemampuan LLM tidak muncul secara tiba-tiba dan tak terduga, melainkan berkembang secara bertahap dan dapat diprediksi.
  • Sebagai contoh, dalam penjumlahan tiga digit, GPT-3 dan LaMDA gagal menghitung dengan benar ketika parameternya masih sedikit, tetapi ketika jumlah parameter meningkat, model itu tiba-tiba menjadi mampu melakukan penjumlahan.
  • Alih-alih menilai LLM hanya berdasarkan akurasi, para peneliti menggunakan metode pengukuran yang memberi skor parsial dan menemukan bahwa LLM secara bertahap belajar memprediksi urutan angka yang benar.

Pandangan ilmuwan lain

  • Ilmuwan lain menunjukkan bahwa penelitian ini tidak sepenuhnya menyelesaikan konsep 'mendadak melesat'.
  • Kriteria pengukuran mana yang tepat, atau bagaimana memprediksi kapan kinerja LLM akan meningkat tajam, masih belum pasti.
  • Beberapa ilmuwan berpendapat bahwa laporan sebelumnya tentang 'mendadak melesat' memang akurat, dan menekankan bahwa untuk kemampuan seperti aritmetika, jawaban benar adalah segalanya.

Opini GN⁺

  • Penelitian ini dapat berdampak penting pada diskusi tentang keamanan kecerdasan buatan dan potensi risikonya. Jika kemampuan LLM berkembang secara dapat diprediksi, hal ini bisa menjadi indikator penting untuk pengembangan dan pengelolaan AI yang aman.
  • Ketika hasil penelitian ini diterapkan pada pengembangan AI nyata, para pengembang perlu menyadari pentingnya cara mengukur kinerja dan merancang metode evaluasi yang lebih canggih.
  • Artikel ini dapat membantu memahami perubahan dan kemajuan yang terjadi di garis depan riset AI, khususnya dengan menawarkan sudut pandang baru tentang cara mengevaluasi kinerja model AI.
  • Dari sudut pandang kritis, perlu diakui bahwa hasil penelitian ini tidak sepenuhnya menjelaskan peningkatan kinerja semua LLM, dan bahwa pada model yang lebih besar dan lebih kompleks, fenomena 'mendadak melesat' masih dapat terjadi.
  • Terkait teknologi ini, seri GPT dari OpenAI sudah digunakan luas di pasar, dan penelitian ini dapat memberi inspirasi bagi pengembangan LLM lain yang serupa dengan GPT.

1 komentar

 
GN⁺ 2024-03-26
Komentar Hacker News
  • Beberapa masalah terkait penelitian

    • Metode evaluasi yang digunakan dalam penelitian mungkin tidak mencerminkan kemampuan teknis dengan tepat.
    • Terlepas dari kriteria pengukuran para penulis, beberapa kemampuan potensial tetap terlihat.
    • Memprediksi hasil berdasarkan data masa lalu memang mudah, tetapi yang penting adalah bahwa dalam praktiknya muncul hasil yang tak terduga.
    • Makalah ini memiliki nilai, tetapi kesimpulannya tidak boleh diperluas secara berlebihan.
  • Sulitnya memprediksi masa depan

    • Memprediksi masa depan baru menjadi mudah setelah hal itu sudah terjadi.
    • Kemampuan tingkat tinggi bergantung pada banyak subkemampuan dan sulit diprediksi.
    • Untuk melakukan prediksi, elemen-elemen dasar yang diperlukan harus diidentifikasi lebih dulu, lalu disimulasikan pada tingkat seperti apa elemen-elemen itu harus tercapai.
    • Jenis dan kualitas data juga penting, dan bisa ada perubahan tajam antarversi model.
  • Perubahan hasil akibat perubahan kriteria pengukuran

    • Jika menggunakan kriteria pengukuran yang berbeda, fenomena yang terlihat bisa menghilang.
    • Jika molekul air diamati satu per satu, alih-alih melihat bongkahan es yang muncul tiba-tiba, kita bisa melihat pembentukan struktur kristal yang berlangsung bertahap.
  • Judul makalah: "Are Emergent Abilities of Large Language Models a Mirage?"

  • Pengamatan terhadap perubahan kemampuan yang tajam

    • Penelitian lain juga menemukan lompatan kemampuan yang tajam.
    • Model mungkin menjadi lebih cerdas secara bertahap, dan kemajuan ini bisa terlewat karena metode pengukuran yang tidak memberi skor untuk jawaban parsial.
  • Pendekatan skor parsial dan pelatihan model

    • Memberikan skor parsial itu baik, tetapi pelatihan untuk mendapatkan jawaban yang tepat tetap penting.
    • Semakin besar ukuran model, semakin mudah mencapai konvergensi.
    • Seiring ukuran model meningkat, kemampuan dapat tampak muncul secara tiba-tiba.
  • Kemunculan kemampuan secara bertahap

    • Kemunculan kemampuan tidak memerlukan lompatan tajam atau sifat yang tak dapat diprediksi.
    • Kemampuan baru dapat muncul secara bertahap.
  • Keterbatasan Large Language Models (LLMs)

    • LLMs adalah mesin untuk mengevaluasi kemungkinan.
    • Hanya dengan memperbesar skala LLMs tidak akan menghasilkan Artificial General Intelligence (AGI).
  • Kebingungan soal kriteria pengukuran

    • Metode pengukuran yang menggunakan edit distance mungkin tidak tepat.
    • Ini tampak seperti cara yang aneh untuk menguji apakah model memahami aritmetika.
    • Mungkin akan lebih baik mempertimbangkan selisih antara nilai aktual dan nilai yang diharapkan.
    • Tautan makalah: arXiv:2206.07682