Seberapa cepat model bahasa besar mempelajari kemampuan yang tak terduga?
- Penelitian baru tentang kemampuan Large Language Models (LLM) mengusulkan bahwa apa yang disebut sebagai 'kemampuan yang mendadak melesat' sebenarnya berkembang secara bertahap dan dapat diprediksi.
- Para peneliti menggambarkan kemampuan ini sebagai perilaku 'mendadak melesat', dan mengibaratkannya dengan transisi fase dalam fisika, seperti ketika cairan berubah menjadi es.
- Namun, tim peneliti dari Stanford University berpendapat bahwa kemunculan mendadak kemampuan tersebut hanyalah hasil dari cara para peneliti mengukur kinerja LLM.
Pengukuran kinerja model bahasa besar
- Model bahasa besar menganalisis kumpulan data teks dalam jumlah sangat besar untuk menemukan keterkaitan antara kata-kata yang sering muncul bersama.
- Ukuran model diukur berdasarkan jumlah parameter, dan semakin banyak parameter, semakin banyak keterkaitan yang dapat ditemukan oleh LLM.
- GPT-2 memiliki 1,5 miliar parameter, GPT-3.5 memiliki 350 miliar, dan GPT-4 menggunakan 1,75 triliun parameter.
Perkembangan bertahap dari kemampuan yang tak terduga
- Tim peneliti Stanford University berpendapat bahwa kemampuan LLM tidak muncul secara tiba-tiba dan tak terduga, melainkan berkembang secara bertahap dan dapat diprediksi.
- Sebagai contoh, dalam penjumlahan tiga digit, GPT-3 dan LaMDA gagal menghitung dengan benar ketika parameternya masih sedikit, tetapi ketika jumlah parameter meningkat, model itu tiba-tiba menjadi mampu melakukan penjumlahan.
- Alih-alih menilai LLM hanya berdasarkan akurasi, para peneliti menggunakan metode pengukuran yang memberi skor parsial dan menemukan bahwa LLM secara bertahap belajar memprediksi urutan angka yang benar.
Pandangan ilmuwan lain
- Ilmuwan lain menunjukkan bahwa penelitian ini tidak sepenuhnya menyelesaikan konsep 'mendadak melesat'.
- Kriteria pengukuran mana yang tepat, atau bagaimana memprediksi kapan kinerja LLM akan meningkat tajam, masih belum pasti.
- Beberapa ilmuwan berpendapat bahwa laporan sebelumnya tentang 'mendadak melesat' memang akurat, dan menekankan bahwa untuk kemampuan seperti aritmetika, jawaban benar adalah segalanya.
Opini GN⁺
- Penelitian ini dapat berdampak penting pada diskusi tentang keamanan kecerdasan buatan dan potensi risikonya. Jika kemampuan LLM berkembang secara dapat diprediksi, hal ini bisa menjadi indikator penting untuk pengembangan dan pengelolaan AI yang aman.
- Ketika hasil penelitian ini diterapkan pada pengembangan AI nyata, para pengembang perlu menyadari pentingnya cara mengukur kinerja dan merancang metode evaluasi yang lebih canggih.
- Artikel ini dapat membantu memahami perubahan dan kemajuan yang terjadi di garis depan riset AI, khususnya dengan menawarkan sudut pandang baru tentang cara mengevaluasi kinerja model AI.
- Dari sudut pandang kritis, perlu diakui bahwa hasil penelitian ini tidak sepenuhnya menjelaskan peningkatan kinerja semua LLM, dan bahwa pada model yang lebih besar dan lebih kompleks, fenomena 'mendadak melesat' masih dapat terjadi.
- Terkait teknologi ini, seri GPT dari OpenAI sudah digunakan luas di pasar, dan penelitian ini dapat memberi inspirasi bagi pengembangan LLM lain yang serupa dengan GPT.
1 komentar
Komentar Hacker News
Beberapa masalah terkait penelitian
Sulitnya memprediksi masa depan
Perubahan hasil akibat perubahan kriteria pengukuran
Judul makalah: "Are Emergent Abilities of Large Language Models a Mirage?"
Pengamatan terhadap perubahan kemampuan yang tajam
Pendekatan skor parsial dan pelatihan model
Kemunculan kemampuan secara bertahap
Keterbatasan Large Language Models (LLMs)
Kebingungan soal kriteria pengukuran