30 poin oleh xguru 2023-08-22 | 1 komentar | Bagikan ke WhatsApp
  • Kumpulan 10 tantangan utama yang dibicarakan di bidang LLM beserta tautan untuk pembelajaran lanjutan

Mengurangi dan Mengukur Halusinasi

  • Hambatan terbesar bagi perusahaan dalam mengadopsi LLM adalah halusinasi
  • Mengembangkan metrik untuk meredakan dan mengukur halusinasi adalah topik riset yang populer, dan banyak startup berfokus pada hal ini
  • Tips sementara untuk mengurangi halusinasi antara lain menambahkan konteks ke prompt, Chain-Of-Thought, Self-Consistency, dan meminta model memberikan jawaban yang ringkas

Panjang Konteks dan Optimasi Penyusunan Konteks

  • Sebagian besar pertanyaan membutuhkan konteks
  • Menurut paper SituatedQA, sebagian besar pertanyaan pencarian informasi memiliki jawaban yang berbeda tergantung konteks (16.5% dari dataset NQ-Open termasuk dalam kasus ini)
  • Dalam kasus perusahaan, angkanya kemungkinan jauh lebih tinggi (misalnya untuk chatbot dukungan pelanggan, konteksnya adalah riwayat pelanggan terkait atau informasi tentang produk)
  • Panjang konteks sangat penting khususnya untuk RAG(Retrieval Augmented Generation)
  • RAG bekerja dalam 2 tahap
    • Chunking (indexing): mengumpulkan semua dokumen yang akan digunakan di LLM. Membuat embedding, membaginya menjadi chunk agar embedding bisa dimasukkan ke LLM, lalu menyimpan embedding ke vector DB
    • Query: ketika pengguna mengirim query, LLM mengubah query menjadi embedding. Lalu mengambil chunk yang paling mirip dengan embedding tersebut dari basis data vektor
  • Semakin panjang konteks, semakin banyak chunk yang bisa dimasukkan. Jika informasi yang bisa diakses model lebih banyak, bukankah responsnya akan lebih baik?
  • Tidak selalu demikian. Banyaknya konteks yang digunakan model dan seberapa efisien model menggunakan konteks tersebut adalah dua pertanyaan yang berbeda
  • Bersamaan dengan upaya memperpanjang panjang konteks model, ada juga upaya untuk membuat konteks lebih efisien
    • Ini disebut prompt engineering atau prompt construction
    • Sebagai contoh, paper terbaru menunjukkan bahwa model lebih memahami informasi di awal atau akhir konteks daripada di bagian tengah

Mengintegrasikan Modalitas Data Lain

  • Multimodality sangat kuat, tetapi masih diremehkan
  • Alasan mengapa ini penting
    • Ada berbagai kasus yang menangani beragam jenis data seperti medis, robotika, e-commerce, ritel, game, dan hiburan
      • Prediksi medis memerlukan teks (catatan dokter, kuesioner) dan gambar (CT, X-Ray, MRI)
      • Metadata produk mencakup gambar, video, deskripsi, dan data tabular
    • Multimodality akan membawa peningkatan besar pada performa model
      • Model yang dapat memahami teks dan gambar memiliki performa lebih baik daripada model yang hanya memahami teks
      • Karena model berbasis teks membutuhkan data teks dalam jumlah sangat besar, ada kekhawatiran bahwa data internet yang dibutuhkan untuk melatih model akan segera habis
      • Jika teks menjadi langka, kita harus memanfaatkan modalitas data lain
  • Hal yang sangat dinantikan secara khusus: memungkinkan orang dengan gangguan penglihatan menjelajahi internet dan dunia nyata melalui multimodality

Membuat LLM Lebih Cepat dan Lebih Murah

  • Ketika GPT-3.5 dirilis pada November 2022, banyak orang khawatir tentang latensi dan biaya penggunaan di production
  • Namun, analisis latensi/biaya telah banyak berubah sejak saat itu
  • Bahkan belum sampai setengah tahun, komunitas sudah menemukan cara membuat model yang sangat mendekati GPT-3.5 dari sisi performa, hanya dengan 2% jejak memori GPT-3.5
  • Intinya: jika kita membuat sesuatu yang cukup bagus, orang-orang akan menemukan cara untuk membuatnya cepat dan murah
  • Empat tahun lalu, empat teknik utama untuk optimasi/kompresi model dirangkum sebagai berikut
    • Quantization: metode optimasi model yang paling umum. Mengurangi ukuran model dengan menggunakan lebih sedikit bit untuk merepresentasikan parameter. Alih-alih floating point 32-bit, digunakan 16-bit, bahkan 4-bit
    • Knowledge distillation: melatih model kecil (murid) agar meniru model yang lebih besar atau ensemble model (guru)
    • Low-rank factorization: mengganti tensor berdimensi tinggi dengan tensor berdimensi lebih rendah untuk mengurangi jumlah parameter. Misalnya, memfaktorkan tensor 3x3 menjadi hasil kali tensor 3x1 dan 1x3 sehingga hanya memiliki 6 parameter alih-alih 9
    • Pruning
  • Hingga sekarang empat teknik ini masih relevan dan populer. Alpaca menggunakan teknik knowledge distillation, dan QLoRA menggunakan kombinasi low-rank factorization dan quantization

Merancang Arsitektur Model Baru

  • Sejak AlexNet pada 2012, banyak arsitektur seperti LSTM dan seq2seq pernah populer lalu menghilang
  • Dibandingkan itu, Transformer sangat bertahan lama. Muncul pada 2017, dan menarik untuk melihat sampai kapan tren ini akan berlanjut
  • Mengembangkan arsitektur baru yang melampaui Transformer bukan hal mudah. Transformer telah dioptimalkan secara besar-besaran selama 6 tahun terakhir
  • Arsitektur baru harus bisa menunjukkan performa pada skala yang menarik bagi orang saat ini
    • Transformer awalnya dirancang agar berjalan cepat di TPU, lalu kemudian dioptimalkan untuk GPU
  • Pada 2021, ada banyak antusiasme di lab Chris Ré seputar S4.
    Belakangan ini mereka masih terus berinvestasi pada arsitektur baru, dan yang terbaru mereka mengembangkan arsitektur Monarch Mixer bersama startup Together

Mengembangkan Alternatif GPU

  • GPU adalah hardware dominan untuk deep learning sejak AlexNet pada 2012
  • Salah satu alasan AlexNet populer adalah karena itu merupakan paper pertama yang berhasil menggunakan GPU untuk melatih neural network
    Sebelum GPU, untuk melatih model sebesar AlexNet diperlukan ribuan CPU
    Dibanding ribuan CPU, 2 GPU jauh lebih mudah diakses oleh mahasiswa doktoral dan peneliti, dan inilah yang memicu ledakan riset deep learning
  • Selama 10 tahun terakhir, perusahaan besar, startup, dan banyak perusahaan lain telah mencoba membuat hardware baru untuk AI
  • Yang paling menonjol adalah TPU milik Google, IPU milik Graphcore, dan Cerebras
  • SambaNova menerima pendanaan lebih dari $1 miliar untuk mengembangkan chip AI baru, tetapi kemudian pivot menjadi platform AI generatif
  • Untuk beberapa waktu, quantum computing sangat diharapkan, dan para pemain utamanya adalah sebagai berikut
    • QPU milik IBM
    • Komputer kuantum Google pada awal tahun ini mengumumkan tonggak penting soal pengurangan kesalahan kuantum di Nature. Quantum virtual machine dapat diakses melalui Google Colab
    • MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory, dan lainnya
  • Arah lain yang sangat menarik adalah chip photonic
    • Chip masa kini memindahkan data menggunakan listrik, sehingga mengonsumsi banyak daya dan juga menimbulkan latensi
    • Chip fotonik menggunakan foton untuk memindahkan data dan memanfaatkan kecepatan cahaya untuk komputasi yang lebih cepat dan efisien
    • Berbagai startup di bidang ini telah mengumpulkan pendanaan ratusan juta dolar, termasuk Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+), dan Luminous Computing ($115M)

Membuat Agent Menjadi Layak Digunakan

  • Agent adalah LLM yang dapat menjalankan tugas seperti pencarian internet, mengirim email, dan melakukan reservasi
  • Dibandingkan arah riset lain dalam tulisan ini, ini bisa dibilang bidang yang paling awal tahapnya
  • Karena kebaruannya dan potensi yang sangat besar, agent mendapat popularitas yang antusias
  • Auto-GPT kini adalah repo ke-25 paling populer di GitHub berdasarkan jumlah star
  • GPT-Engineering juga merupakan repositori populer lainnya
  • Meski antusiasmenya tinggi, masih ada keraguan apakah LLM cukup andal dan cukup baik untuk diberi wewenang bertindak
  • Startup yang paling menonjol di bidang ini adalah Adept
    • Didirikan oleh dua rekan penulis Transformer dan mantan VP OpenAI, dan sejauh ini telah mengumpulkan hampir $500 juta pendanaan

Meningkatkan Pembelajaran melalui Human Preference

  • RLHF, Reinforcement Learning from Human Preference, memang keren tetapi agak hacky
    Tidak akan mengejutkan bila orang menemukan cara yang lebih baik untuk melatih LLM. RLHF masih memiliki pertanyaan terbuka seperti berikut
    • Bagaimana mengekspresikan preferensi manusia secara matematis?
      • Saat ini preferensi manusia ditentukan melalui perbandingan
      • Pelabel manusia menentukan apakah respons A lebih baik daripada respons B, tetapi tidak mempertimbangkan seberapa jauh respons A lebih baik daripada respons B
    • Bagaimana dengan selera manusia?
      • Anthropic mengukur kualitas respons model berdasarkan tiga sumbu: helpfulness, honesty, dan harmlessness
      • DeepMind berusaha menghasilkan respons yang menyenangkan bagi sebagian besar orang
      • Apakah kita menginginkan AI yang bisa mengambil sikap, atau AI yang datar yang menghindari topik-topik yang berpotensi kontroversial?
    • Dengan mempertimbangkan perbedaan budaya, agama, dan kecenderungan politik, preferensi siapa yang merupakan preferensi yang "manusiawi"?
  • Ada banyak kesulitan dalam memperoleh data pelatihan yang dapat cukup mewakili semua calon pengguna
    Sebagai contoh, dalam data InstructGPT milik OpenAI tidak ada pelabel berusia di atas 65 tahun. Para pelabel sebagian besar berasal dari Filipina dan Bangladesh
  • Upaya yang dipimpin komunitas punya niat baik, tetapi bisa berujung pada data yang bias
    Sebagai contoh, dalam dataset OpenAssistant, 201 dari 222 responden (90.5%) menyatakan diri sebagai laki-laki

Meningkatkan Efisiensi Antarmuka Chat

  • Sejak ChatGPT, ada banyak diskusi tentang apakah chat adalah antarmuka yang cocok untuk berbagai tugas
  • Ini bukan diskusi baru; di Asia, chat telah digunakan sebagai antarmuka superapp selama sekitar 10 tahun
  • Secara pribadi saya menyukai antarmuka chat karena alasan berikut
    • Chat adalah antarmuka yang bisa dipelajari cara pakainya dengan cepat, termasuk oleh orang yang sebelumnya tidak pernah terpapar komputer atau internet
    • Antarmuka chat bersifat aksesibel. Jika tangan sedang sibuk, kita bisa menggunakan suara alih-alih teks
    • Chat adalah antarmuka yang luar biasa kuat. Ia dapat menerima permintaan apa pun, dan bahkan ketika responsnya kurang baik, tetap memberikan sebuah respons
  • Namun, saya masih melihat ada area yang bisa ditingkatkan pada antarmuka chat
    • Beberapa pesan per giliran
    • Input multimodal
    • Integrasi AI generatif ke dalam workflow
    • Edit dan hapus pesan

Membangun LLM untuk Bahasa Non-Inggris

  • Saat ini, LLM English-first tidak bekerja dengan baik untuk bahasa lain dari sisi performa, latensi, maupun kecepatan
  • Beberapa pembaca awal tulisan ini mengatakan bahwa arah ini seharusnya tidak dimasukkan
    • Ini lebih dekat ke masalah logistics daripada riset. Kita sebenarnya sudah tahu caranya, dan hanya perlu menginvestasikan uang serta usaha
      Namun ini tidak benar. Sebagian besar bahasa kekurangan resource. Dibandingkan bahasa Inggris atau Mandarin, data berkualitas tinggi jauh lebih sedikit, dan melatih model besar mungkin memerlukan teknik yang berbeda
    • Orang yang lebih pesimistis bahkan mengatakan bahwa di masa depan banyak bahasa akan menghilang, dan internet akan terbentuk menjadi dua dunia dengan dua bahasa: Inggris dan Mandarin. Masih ingat Esperando?
  • Dampak alat AI seperti machine translation dan chatbot terhadap pembelajaran bahasa masih belum jelas
    Akankah itu membantu orang mempelajari bahasa baru lebih cepat, atau justru sepenuhnya menghilangkan kebutuhan untuk mempelajari bahasa baru?

1 komentar

 
joone 2023-08-31

Penulis artikel ini ternyata adalah penulis buku Designing Machine Learning Systems yang diterbitkan oleh O'Reilly.
Versi terjemahannya diterbitkan oleh Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220