LLM tidak lagi belajar dari “internet”

(allenpike.com)

20 poin oleh GN⁺ 2024-06-03 | 2 komentar | Bagikan ke WhatsApp

Dulu, LLM terutama dilatih menggunakan data internet, dan hingga kini sebagian besar masih demikian, tetapi hal itu makin tidak sepenuhnya benar
Konsep “simulator internet” tidak lagi berguna untuk memprediksi cara kerja GPT-5 ke atas
- Model-model baru sudah melampaui definisi itu, dan perubahan ini baru saja dimulai

Tembok Data (Data Wall)

Pada 2020, makalah GPT-3 dari OpenAI menjelaskan dataset pelatihan secara rinci, tetapi itu kini menjadi peninggalan masa lalu
- Sejak 2022, umpan balik yang disesuaikan dari pengguna mulai dipakai dalam pelatihan LLM, dan OpenAI dkk. makin tertutup soal data pelatihan
- Kita tidak tahu GPT-4, Sora, atau GPT-5 dilatih dengan apa, tetapi jelas bukan hanya data internet semata
Para pelatih LLM belakangan menabrak “tembok data”
- OpenAI pada dasarnya sudah memiliki hampir semua data di web, sehingga untuk membuat LLM yang lebih baik mereka perlu memperoleh dan menghasilkan data privat
Bagi laboratorium yang punya dana, jawabannya adalah mengamankan dan membuat data privat
- Pada tahap awal, fokusnya adalah membuat data pelatihan yang ada menjadi lebih berguna, atau menambahkan data privat yang sudah ada ke dalam kumpulan pelatihan
- Contohnya
  1. Anotasi dan penyaringan: peneliti membuat anotasi pada data pelatihan agar bisa fokus pada data berkualitas tinggi dan menghasilkan model yang lebih baik
  2. RLHF: laboratorium meminta manusia menilai keluaran model, lalu memakai data ini untuk fine-tuning model dan mendorong perilaku yang lebih berguna
  3. Data penggunaan: ChatGPT disebut menghasilkan sekitar 10 miliar token data per hari
  4. Akuisisi data: banyak data seperti email, log chat, manual proprietari, tiket JIRA, rekaman telepon, laporan internal, dan kontrak tidak ada di internet, dan para pelatih model dapat menambahkannya ke data pelatihan
Namun, teknik-teknik ini tidak sepenuhnya menyelesaikan masalah bahwa “LLM lemah dalam menghasilkan keluaran yang berbeda dari data yang sudah ada”
- LLM kesulitan melakukan hal-hal seperti berikut (karena tidak banyak teks daring yang menunjukkan ini)
  1. Mengekspresikan keraguan atau ketidakpastian dalam jawaban
  2. Menjaga percakapan panjang tanpa frasa berulang atau loop
  3. Menyusun rencana tingkat tinggi yang akan dikejar agen LLM
  4. Bernalar seperti engineer senior terhadap codebase legacy skala besar
  5. Mengikuti prompt yang sangat panjang atau kompleks secara andal
Arsitektur yang lebih baik dan parameter yang lebih banyak mungkin membantu mengatasi batasan ini, tetapi OpenAI, Meta, Google, Microsoft, dan lainnya menghabiskan banyak uang untuk menutup kesenjangan ini dengan cara yang lebih sederhana: melatih dengan membuat contoh-contoh baru

LLM kini dilatih dengan data khusus

Laporan teknis Phi-3 dari Microsoft (dirilis pada April) adalah contoh terbaru dari meningkatnya data khusus
- phi-3-mini hanya memiliki 3,8 miliar parameter, tetapi menunjukkan performa yang mampu bersaing dengan model Mixtral yang lebih besar dan berat
- Sebagian dari peningkatan ini dijelaskan oleh dimasukkannya data sintetis berkualitas tinggi yang dihasilkan oleh LLM yang lebih besar ke dalam data pelatihan
- Data sintetis dapat menutup celah pada data sumber internet dan meningkatkan performa model untuk ukuran tertentu
Data sintetis saat ini menjadi topik yang banyak diperhatikan dalam riset LLM
- Masih belum jelas sejauh mana LLM bisa dilatih menggunakan keluarannya sendiri (bisa jadi seperti ular jaringan saraf raksasa yang memakan ekornya sendiri)
- Namun setidaknya, data sintetis akan membantu menutup kesenjangan yang muncul ketika LLM bertindak seperti “simulator internet”
  - Misalnya, ketika contoh pelatihan untuk mengekspresikan ketidakpastian kurang, atau ketika datanya tidak representatif dan bias, contoh yang lebih baik dapat dibuat
Namun membuat data sintetis yang sangat baik dengan LLM adalah masalah yang sulit dan kemungkinan punya batas
- Karena itu, muncullah sumber besar terakhir data di luar internet: “manusia”

Berapa banyak data yang bisa dibuat dengan US$1 miliar per tahun?

Jika dibayar, orang-orang bersedia membuat data
- Scale.ai menyebut dirinya sebagai “pabrik manufaktur data untuk AI” dan menjalankan layanan yang memungkinkan laboratorium membayar orang untuk membuat data
- Perusahaan AI disebut sudah membayar lebih dari US$1 miliar per tahun untuk layanan Scale
- Sebagian dana ini dipakai untuk anotasi dan evaluasi data yang diambil dari web atau LLM, tetapi juga untuk membuat data pelatihan baru dari nol
- Scale berfokus pada pekerja yang sangat terspesialisasi, seperti akademisi setingkat doktor, pengacara, akuntan, penyair, penulis, dan orang-orang yang fasih dalam bahasa tertentu
- Mereka melatih dan menguji model untuk perusahaan seperti OpenAI, Cohere, Anthropic, dan Google, serta menerima bayaran per jam yang lebih tinggi
Perusahaan seperti OpenAI dapat membayar para ahli agar membuat data baru yang unggul untuk mengisi kekosongan dalam data sumber internet, lalu memakai data itu untuk pelatihan model berikutnya
- Dataset seperti “50.000 contoh ekspresi ketidakpastian yang matang saat seorang Ph.D. diberi pertanyaan yang jawabannya tidak ia ketahui” bisa jadi jauh lebih berharga daripada biaya produksinya
LLM pada awalnya memang dilatih dari internet, dan banyak kelemahan awalnya dapat dipahami sebagai akibat dari campuran konten acak yang dipublikasikan di web
Namun, seiring skala dan pengaruh data pelatihan khusus terus membesar, LLM diperkirakan akan melampaui “simulasi internet” secara signifikan
- Terutama pada hal-hal yang tidak ada di internet, tetapi bisa dibuktikan lewat pembuatan data khusus bernilai lebih dari US$1 miliar
Artinya, kereta ini kemungkinan akan terus melaju untuk sementara waktu

Opini GN⁺

Pentingnya data: Untuk meningkatkan performa LLM, dibutuhkan data dari beragam sumber. Data internet saja memiliki keterbatasan.
Masalah biaya: Pembuatan data khusus membutuhkan biaya besar. Ini bisa menjadi beban berat bagi laboratorium atau perusahaan kecil.
Batasan data sintetis: Data sintetis berguna, tetapi bisa berbeda dari data yang benar-benar dibuat manusia. Karena itu, realisme model bisa tetap terbatas.
Prospek masa depan: Perkembangan LLM dengan memanfaatkan data khusus dan data sintetis diperkirakan akan terus berlanjut. Ini dapat membawa inovasi di berbagai bidang.
Situasi persaingan: Perusahaan besar seperti OpenAI, Google, dan Microsoft berinvestasi dalam pembuatan data khusus, sehingga persaingan kemungkinan akan makin sengit.

2 komentar

bytebrawlers 2024-06-04

Yang disebut data wall pada akhirnya menjadi masalah ketika Compute yang tersedia cukup, dan justru ketika melihat efisiensi serta pasokan listrik, batas peningkatan Compute—yakni persoalan jumlah daya listrik—akan menjadi lebih penting.

GN⁺ 2024-06-03

Opini Hacker News

Tulisan ini menunjukkan beberapa poin bagus, dan terutama Phi-3 adalah teknik yang sangat menarik. Aneh karena tidak menyebut arsitektur terbaru seperti Anthropic, Mistral, dan FAIR.
LLM modern tidak dilatih hanya dengan data yang dikumpulkan dari web, tetapi juga dengan dataset khusus yang dibuat oleh banyak orang. Ini menunjukkan potensi pertumbuhan, tetapi ada risiko berkembang tanpa batas ke arah yang salah.
Fakta bahwa manusia menghasilkan data yang bias adalah masalah. Sebagai contoh bahwa LLM tidak mampu menghasilkan respons yang orisinal, model itu tidak bisa mengusulkan berbagai cara untuk mendorong orang mengklik tombol subscribe YouTube.
Data yang digunakan untuk melatih LLM disediakan oleh programmer India bergaji rendah. Saat ini data disediakan oleh para ahli, tetapi ada kemungkinan akan beralih ke pekerja bergaji rendah.
Alasan sistem pakar gagal adalah karena harus terus membayar para pakar. Kerja sama OpenAI dan MS bertujuan mencapai AGI (kecerdasan umum buatan), tetapi ada batasan nyata.
Melatih model multimodal masih merupakan tantangan. Bukan kekurangan data, melainkan masalah lain yang menyebabkan bottleneck.
Dataset seperti "50.000 contoh yang dengan hati-hati mengekspresikan ketidakpastian terhadap pertanyaan yang bahkan tidak diketahui para Ph.D." bisa memiliki nilai yang lebih besar daripada biaya produksinya.
Karena investasi teknologi, semoga muncul program seperti WPA yang membuat penulis terampil menulis. Ini bisa menciptakan kumpulan karya manusia yang unggul.
Kemajuan besar AI di masa depan tampaknya tidak akan berkaitan dengan data.
OpenAI dan pihak lain akan membayar uang dalam jumlah besar kepada perusahaan yang berjanji menjaga data tetap tertutup. Perusahaan seperti Slack, Atlassian, dan Dropbox termasuk dalam kategori ini.