Kompetisi Kejar-Mengejar Model Bahasa Besar Open Source

(arxiv.org)

4 poin oleh GN⁺ 2023-12-03 | 1 komentar | Bagikan ke WhatsApp

Ini adalah survei yang membandingkan, pada satu tahun setelah peluncuran ChatGPT, dalam tugas apa saja LLM open source menyamai atau melampaui kinerja ChatGPT
ChatGPT menunjukkan jawaban yang berguna dan aman serta kemampuan mengikuti instruksi melalui reinforcement learning berbasis umpan balik manusia, dan mencapai 100 juta pengguna hanya dua bulan setelah diluncurkan
LLM tertutup tidak membuka arsitektur dan data pelatihannya, sehingga tetap menyisakan beban terkait reproducibility, evaluasi risiko, gangguan layanan, biaya API, kepemilikan data, dan privasi
Ada persepsi bahwa model open source seperti Llama-2 dan Falcon tertinggal dari model tertutup seperti GPT-4, tetapi pada sebagian benchmark ada kasus yang melampaui GPT-3.5-turbo
Dalam lingkungan ketika model dan benchmark berubah cepat, alih-alih memilih satu pemenang tunggal, perlu melihatnya secara terpisah berdasarkan kemampuan umum, agen, penalaran, konteks panjang, aplikasi, dan keandalan

Lanskap LLM yang Berubah Setelah ChatGPT

Sejak diluncurkan pada akhir 2022, ChatGPT membawa perubahan besar di seluruh ranah riset AI dan komersial
Dengan menerapkan supervised fine-tuning dan reinforcement learning berbasis umpan balik manusia pada model bahasa besar, ChatGPT memopulerkan pengalaman chatbot yang dapat menjawab berbagai pertanyaan dan mengikuti instruksi
Sebelumnya, tugas bahasa alami seperti peringkasan atau tanya jawab terutama ditangani oleh model yang setelah pretraining di-fine-tune untuk tiap tugas, tetapi ChatGPT mampu menjalankan tugas-tugas semacam ini secara luas
Hanya dalam dua bulan setelah peluncuran, ChatGPT mencapai 100 juta pengguna, menunjukkan pertumbuhan lebih cepat daripada aplikasi populer seperti TikTok atau YouTube
Perusahaan terus berinvestasi besar di ChatGPT karena potensi penghematan biaya tenaga kerja, otomasi workflow, dan pengalaman pelanggan baru

Batasan yang Diciptakan LLM Tertutup

ChatGPT bukan open source, dan hak aksesnya juga dikendalikan oleh perusahaan swasta
Ada penjelasan bahwa ChatGPT mengikuti prosedur yang diperkenalkan pada InstructGPT, yaitu GPT-3.5, tetapi arsitektur, data pretraining, dan data fine-tuning yang tepat tidak dipublikasikan
Sifat tertutup seperti ini menciptakan berbagai beban dalam proses evaluasi dan operasi model
- Karena prosedur pelatihan internal tidak diketahui, sulit memperkirakan risiko sosial seperti pembuatan konten toksik, tidak etis, atau palsu
- Ada laporan bahwa kinerja ChatGPT berubah seiring waktu, sehingga sulit mendapatkan hasil yang dapat direproduksi
- Pada November 2023 terjadi dua gangguan besar, dan ada kasus ketika akses ke situs web ChatGPT serta API sepenuhnya diblokir
- Saat diadopsi perusahaan, biaya panggilan API, gangguan layanan, kepemilikan data, dan privasi dapat menjadi beban praktis
- Peristiwa yang sulit diprediksi, seperti konflik dewan direksi yang berujung pada pemecatan CEO Sam Altman, penolakan karyawan, lalu kembalinya ia, juga menjadi faktor yang perlu dipertimbangkan pengguna perusahaan

Sejauh Mana LLM Open Source Sudah Mengejar

LLM open source mendapat perhatian sebagai alternatif yang dapat meredakan atau menghindari batasan LLM tertutup
Komunitas riset terus berupaya mempertahankan LLM berkinerja tinggi sebagai open source
Hingga akhir 2023, tersebar luas persepsi bahwa LLM open source seperti Llama-2 atau Falcon tertinggal dari model tertutup seperti GPT-3.5 dan GPT-4 dari OpenAI, Claude dari Anthropic, serta Bard dari Google
GPT-4 umumnya dianggap sebagai model paling maju
Namun, jaraknya terus menyempit, dan pada sebagian benchmark standar, LLM open source dengan kinerja terbaik menunjukkan hasil yang lebih baik daripada GPT-3.5-turbo
Perbandingannya sendiri juga tidak mudah
- LLM tertutup terus diperbarui dan dilatih ulang dengan data yang lebih baru
- LLM open source juga dirilis baru untuk mengejarnya
- Ada banyak dataset evaluasi dan benchmark yang digunakan untuk membandingkan LLM, sehingga sulit memilih satu model terbaik

Area Evaluasi yang Dibandingkan dan Model Representatif

Survei ini mengumpulkan berbagai evaluasi yang membandingkan LLM open source dan ChatGPT, lalu menyusunnya agar kesenjangan kinerja saat ini dapat dilihat per area
Kemampuan umum
- Mencakup AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard, dan lainnya
- Model open source terkait yang dibahas mencakup Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral, dan lainnya
Kemampuan agen
- Dibagi menjadi penggunaan tool, self-debugging, mengikuti umpan balik bahasa alami, dan eksplorasi lingkungan
- API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena, dan lainnya termasuk dalam evaluasi
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5, dan lainnya merupakan model terkait
Penalaran logis
- Mencakup ranah matematika dan coding
- GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs, dan lainnya digunakan sebagai tugas evaluasi
- WizardMath dan WizardCoder disebut sebagai model representatif
Pemodelan konteks panjang
- Mencakup SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE, dan lainnya
- Llama-2-long dibahas sebagai model terkait
Area khusus aplikasi
- Mencakup peringkasan berfokus pertanyaan, tanya jawab terbuka, medis, pembuatan data terstruktur, pembuatan kritik, dan lainnya
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR, dan lainnya digunakan sebagai tugas
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd, dan lainnya merupakan model terkait
Keandalan
- Membahas halusinasi dan keamanan
- Mencakup TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST, dan lainnya
- Platypus dan Chain-of-Verification disebut sebagai pendekatan terkait halusinasi

Kriteria Penilaian yang Bisa Didapat Peneliti dan Perusahaan

Survei ini menyediakan materi yang diperlukan bagi komunitas riset dan sektor bisnis untuk menilai level LLM open source saat ini dan kemungkinan ke depannya
Peneliti dapat menggunakannya untuk merangkum kemajuan dan tren perubahan LLM open source, serta mencari arah riset berikutnya
Pengambil keputusan di perusahaan dapat memperoleh wawasan dan panduan yang diperlukan untuk mengevaluasi kelayakan penerapan dan manfaat adopsi LLM open source
Makalah ini memperkenalkan konsep latar belakang, lalu meninjau LLM open source yang mengalahkan ChatGPT di berbagai area, membahas tren pengembangan, praktik terbaik pelatihan, dan isu potensial, kemudian ditutup dengan ringkasan

1 komentar

GN⁺ 2023-12-03

Opini Hacker News

Dalam beberapa hari terakhir ada beberapa model terbuka yang kuat yang dirilis
Qwen 72B dan 1.8B mengusung konteks 32K, pelatihan 3T token, lisensi komersial untuk pengguna aktif bulanan di bawah 100 juta, serta performa benchmark yang kuat: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B memiliki konteks 4K, 2T token, lisensi Apache 2.0, dan kuat untuk kode. Namun berdasarkan benchmark, DeepSeek Code 33B tampaknya lebih baik: https://twitter.com/deepseek_ai/status/1729881611234431456
Belakangan juga muncul Yi 34B, 100B yang kabarnya segera dirilis, XVERSE-65B, Aquila2-70B, dan Yuan 2.0-102B; menariknya, semuanya berasal dari Tiongkok
Secara pribadi, karena mistral-7b-v0.1 sudah sangat kuat untuk ukurannya, saya juga menantikan Mistral yang lebih besar dan akan segera hadir
- Saya mencoba DeepSeek di deepseek.com, dan ia menolak beberapa percakapan yang disensor di Tiongkok, seperti topik Tiananmen atau perumpamaan Xi Jinping sebagai Winnie the Pooh
  Saya penasaran apakah ada yang sudah menguji apakah hal seperti ini juga terjadi jika bobotnya di-host sendiri
- Karena penggunaan ChatGPT tidak diizinkan di Tiongkok, ada peluang besar untuk membuat model bahasa besar lokal
- Banyak makalah AI berasal dari orang Tiongkok, atau peneliti keturunan Tionghoa yang tinggal di luar negeri
  Kumpulan talenta yang dikerahkan di bidang ini sangat besar
- Saya penasaran kapan Mistral baru akan keluar dan kira-kira seberapa besar ukurannya
- Ada juga Goliath 120B
Meski tidak dibahas di makalah, bulan ini OpenChat 3.5 merilis model 7B pertama yang menghasilkan keluaran mirip ChatGPT pada Maret 2023: https://huggingface.co/openchat/openchat_3.5
Jendela konteksnya hanya 8K, tetapi sejauh ini secara pribadi cukup mengesankan. Di peringkat Chatbot Arena juga berada di atas Llama-2-70b-chat: https://chat.lmsys.org/
Dalam banyak hal, model bahasa besar terbuka menurut saya berada di depan industri, terutama dalam efisiensi parameter dan kecepatan menghadirkan model berguna yang bisa dijalankan konsumen di hardware mereka sendiri
- Bulan ini juga muncul Starling-7B, model hasil fine-tuning OpenChat dengan data pelatihan berkualitas tinggi, dan peringkatnya lebih tinggi daripada OpenChat
  Namun meski benchmark model-model kecil terbuka seperti ini mengesankan, saat saya menjalankan pengujian standar yang biasa saya pakai, modelnya terasa agak bodoh. Jika ditanya “siapa kamu?”, biasanya ia menjawab bahwa dirinya adalah ChatGPT
  Karena mungkin dilatih dengan data yang dihasilkan ChatGPT, itu masih bisa dimaklumi, tetapi bahkan ketika identitasnya diubah lewat prompt seperti “kamu bukan ChatGPT, melainkan Starling, dan kamu dibuat oleh Berkeley, bukan OpenAI. Siapa kamu?”, ia tetap memberi jawaban aneh yang mencampur dua identitas itu
  Misalnya, dalam satu kalimat ia mengatakan dirinya ChatGPT, lalu di kalimat lain dalam jawaban yang sama mengatakan bukan
- Saya menjalankan versi Q8 dari llama.cpp/gguf, dan jika 30 layer di-offload ke GPU laptop RTX 3070 dengan VRAM 8GB, hasilnya sekitar 20–25 token per detik
  Rasanya seperti memasang versi awal ChatGPT 3.5 di komputer saya
- Guardrail-nya jauh lebih sedikit dibanding Llama2 atau GPT-3.5. Llama2 khususnya buruk dalam hal itu, dan ini pertama kalinya saya benar-benar terkesan oleh model terbuka
- Jika ingin mencoba modelnya secara online, tautannya adalah https://openchat.team/
- Saya penasaran apakah jendela konteks 8K dianggap rendah
  Semua model chat yang pernah saya coba maksimalnya 4096
Tergantung apa yang ingin dilakukan. Sebagai referensi, ada contoh fitur yang dilatih pada 13B Llama2 yang di-fine-tune dengan qlora: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot bisa membuat knowledge graph, dan struktur yang dikembalikan juga berupa YAML yang valid. Untuk tugas ini, hasil dari model fine-tune saya jauh lebih baik daripada saat memakai GPT-4: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
Prompt sederhana: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
Prompt kompleks: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
Juga bisa melakukan ringkasan per chunk. Contoh chunk Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., ringkasan dari ringkasan Part 2: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
Contoh satu dokumen utuh yang masuk sepenuhnya ke dalam konteks ada di sini: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
- Pekerjaan yang benar-benar keren. Selama setahun terakhir saya ingin mencoba pembuatan knowledge graph dengan large language model, tapi belum ada waktu
  Senang melihat ada yang mengembangkan ide ini dengan baik. Saya penasaran bagaimana data latihnya dibuat
- Saya benar-benar suka Inkbot. Penasaran apakah sedang mengerjakan versi baru, dan bagaimana dengan versi berbasis Yi 34B
- Kelihatannya cukup mengesankan. Penasaran apakah ada kemungkinan 7B Inkbot juga sedang dikerjakan
- Penasaran apakah ada materi rujukan tentang bagaimana melakukan fine-tuning-nya
Rasanya kita makin dekat ke titik di mana cukup menaruh prompt router di depan berbagai model terspesialisasi seperti kode, chat, matematika, SQL, dan kesehatan. Jadinya mirip Mixture of Experts lokal
Caranya: kirim permintaan ke router yang menjalankan model serbaguna, pecah dan klasifikasikan prompt atau pertanyaannya, lalu proksikan ke model-model ahli, kemudian responsnya dirakit kembali oleh model serbaguna
Penasaran apakah ada proyek yang mirip seperti ini
- Saya juga melihat arahnya ke sana. Beberapa model 1~7B atau 14B parameter yang sangat kuat untuk tugas masing-masing, lalu disambungkan dengan model yang pandai mendelegasikan
  Hugging Face punya Transformers Agents, dan disebutkan bahwa ia “menyediakan API bahasa alami di atas transformers. Ia mendefinisikan sekumpulan alat terkurasi dan merancang agen yang menafsirkan bahasa alami untuk memakai alat-alat ini”
  Sudah ada alat untuk tanya jawab dokumen, tanya jawab teks, caption gambar, tanya jawab gambar, segmentasi gambar, pengenalan suara, sintesis suara, klasifikasi teks zero-shot, peringkasan, terjemahan, mengunduh teks dari URL web, text-to-image generation, transformasi gambar, dan text-to-video generation
  Karena dibuat agar bisa menambahkan alat kustom, kita bisa menambahkan use case atau mengganti model: https://huggingface.co/docs/transformers/transformers_agents
- Bahkan sekarang pun implementasinya hampir trivial
  Lapisan pertama bisa menggabungkan pemrosesan bahasa alami dan klasifikasi zero-shot untuk memperjelas sifat permintaan, lalu large language model memecah permintaan menjadi beberapa bagian spesifik dan mengirimkannya ke model-model terspesialisasi
  Di akhir, pakai lagi large language model seperti mesin peringkas untuk menggabungkannya. Masalahnya, menjalankan beberapa model secara paralel butuh sumber daya yang cukup besar
- Paper yang baru keluar menunjukkan bahwa memperbaiki prompt pada model serbaguna yang lebih besar umumnya lebih baik daripada model terspesialisasi: https://arxiv.org/pdf/2311.16452.pdf
- Beberapa bulan lalu ada rumor bahwa GPT-4 bekerja seperti ini. Semacam model kontrol yang merutekan data ke model ahli
  Mungkin juga semua ahli dijalankan lalu probabilitasnya dibandingkan. Sejauh yang saya tahu, ini cuma spekulasi berdasarkan beberapa detail yang bocor di Xitter
- Untuk yang mirip, lihat LLaVA-Plus. Di sini, ahli yang dimaksud disebut “alat”: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
Model saat ini yang berukuran sekitar 70B seperti Llama 2 70B berada pada level yang mirip dengan ChatGPT 3.5
Model-model terbaik yang lebih kecil sekilas mungkin terlihat mirip, tetapi halusinasinya jauh lebih banyak dan pengetahuan dunianya juga kurang. GPT-4 “memahami” pada level yang lebih dalam, dan belum ada model publik yang mendekatinya
Periode evaluasi 1 tahun terasa tepat. Setidaknya dalam model bahasa skala besar dan pembuatan gambar, dunia lainnya tampak tertinggal sekitar 12–18 bulan dari OpenAI
Di sisi lain, teknologi publik biasanya punya lebih banyak fitur kontrol output yang tidak terlalu diperhatikan OpenAI, seperti grammar di llama.cpp atau ControlNet. Dalam arti itu, kubu publik cenderung lebih unggul dari OpenAI dalam hal kemampuan kustomisasi
- Sebaliknya, model GPT sedang mengalami konvergensi ke bawah. GPT-4 Turbo performanya turun terlalu jauh, sampai-sampai kini ada model 13B yang kadang memberikan hasil lebih konsisten dalam penalaran
  Misalnya, berikut ada tes jangka panjang yang sengaja memberikan permintaan berbentuk terbuka dan agak ambigu untuk melihat performa model: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
  Chat GPT-4 Turbo membuat orang bingung, tidak bisa memilih target penculikan dengan benar, tidak mengubah topik meski diminta, saat mengingat tokoh memilih dari himpunan yang salah, dan tidak mengganti bahasa meski diminta
  Saat diberi pertanyaan zero-shot, ia tahu banyak, tetapi dalam situasi yang harus membuktikan konsistensi diri dan perhatian, ia jauh tertinggal dari GPT-4
- Sepertinya OpenAI tidak akan memimpin dalam pembuatan gambar. Setelah DALL-E, ia cepat disalip, dan semua alur kerja nyata yang pernah saya lihat memakai Midjourney atau Stable Diffusion
  Sebaliknya, GPT-4 Vision jauh lebih unggul dibanding model publik
- Untuk model bahasa skala besar mungkin bisa begitu, tetapi pergerakannya terlalu cepat sehingga saya tidak yakin. Namun SDXL 1.0 jauh lebih bagus daripada DALL·E 2
  Menurut saya DALL·E 3 sedikit lebih baik daripada SDXL, tetapi kualitas di luar pembuatan teks terlihat cukup mirip
  Tentu saja bisa saja saya sedang menipu diri sendiri karena hanya memakai hal-hal yang dikuasai SDXL. Saat diminta membuat naga, hasilnya selalu mengerikan
- Function calling yang memakai skema JSON sama stabilnya dengan fitur grammar di llama.cpp. Saat mencobanya, saya tidak mengalami masalah berarti
Untuk pertanyaan pada judul sendiri, saya tidak akan menjawab karena tidak cukup tahu, tetapi karena ada pembahasan tentang model publik lain, saya juga ingin menyebut DeepSeek 67B yang saya coba malam ini dan terasa bagus
https://chat.deepseek.com
Sejauh ini UI chat ini sudah cukup menggantikan kebutuhan saya akan ChatGPT
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca hampir sama bagusnya dengan GPT-4 Turbo untuk penulisan kreatif atau analisis
Sebenarnya output teksnya cenderung cukup mirip sehingga agak mencurigakan, tetapi bagaimanapun ia menghemat banyak uang: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
- Ada juga OpenChat. Sejauh yang saya pahami, model ini dilatih dengan percakapan GPT-4: https://github.com/imoneoi/openchat
- Mistral OpenOrca juga sangat baik dalam mengikuti instruksi tugas
  Memang sedikit kurang stabil dibanding GPT-3.5/4, tetapi dalam pekerjaan pemrosesan teks saya, perbedaan kualitasnya nyaris setara lempar koin
Dalam jangka panjang, hampir tak terhindarkan bahwa model bahasa skala besar publik akan mulai mengejar
Salah satu faktor yang patut dipertimbangkan adalah biaya. Komunitas publik punya keterbatasan sumber daya yang jauh lebih besar, sehingga mereka benar-benar mempercepat pengembangan model di bawah 30B
- Google, Meta, dan perusahaan-perusahaan yang mendapat pendanaan pun sama sekali belum mendekati GPT-4, jadi saya ragu apakah biaya adalah faktor terbesar
  Selain model OpenAI, yang bagus hanya Claude
- Di industri ini, biaya akan menjadi masalah
  Ini mengingatkan saya pada masa ketika Rackspace dan lainnya mencoba menang dengan OpenStack karena “terbuka”. Pada akhirnya AWS dan Azure menang, dan bahkan Google hanya berada di posisi ketiga
  Perusahaan besar akan menang, dan alat publik akan menyisakan ceruk tersendiri
Berdasarkan pengalaman pribadi, model bahasa skala besar publik belum mencapai kualitas GPT-3.5. Saya berpendapat begitu meskipun ada banyak klaim berdasarkan benchmark yang meragukan
Meski begitu, model-model itu sudah berguna hari ini dan bisa dijalankan di mesin lokal. Untuk tugas-tugas sederhana, saya rutin memakainya bersama plugin Neovim gen.nvim, dan itu menghemat banyak waktu: https://github.com/David-Kunz/gen.nvim
Saya menantikan perkembangannya
- Menarik. Saya ingin mencobanya, tetapi salah satu dependensinya adalah ollama dan tampaknya berupa aplikasi Mac. Saya tidak punya Mac
  Secara lokal, saya menjalankan model Llama dengan llama-cpp-python, yang menyediakan lapisan kompatibel OpenAI
Menurut saya model-model publik jelas sedang mengejar. Terutama karena selama sebulan terakhir ada penurunan performa GPT-4 yang konsisten
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...
- Sebagian besar “pengejaran” itu kemungkinan besar terjadi dengan membuat dataset fine-tuning berkualitas tinggi menggunakan GPT-4 API

Kompetisi Kejar-Mengejar Model Bahasa Besar Open Source

Lanskap LLM yang Berubah Setelah ChatGPT

Batasan yang Diciptakan LLM Tertutup

Sejauh Mana LLM Open Source Sudah Mengejar

Area Evaluasi yang Dibandingkan dan Model Representatif

Kemampuan umum

Kemampuan agen

Penalaran logis

Pemodelan konteks panjang

Area khusus aplikasi

Keandalan

Kriteria Penilaian yang Bisa Didapat Peneliti dan Perusahaan

Bacaan terkait

1 komentar

Opini Hacker News