[2023/11/06 ~ 11/12] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Gambaran umum
-
Kami telah menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
-
Jika melihat makalah yang dipilih minggu ini, tampak ada banyak penelitian tentang model Transformer dan large language models (LLM).
-
Judul seperti 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers', dan 'S-LoRA' tampaknya berfokus pada pendalaman pemahaman tentang struktur dan mekanisme pembelajaran model Transformer.
-
'Hallucination in LLMs', 'On the Road with GPT-4V(ision)', dan 'GPT4All' membahas kinerja serta contoh penerapan large language model seperti GPT, sehingga terlihat jelas kecenderungan yang kuat untuk menitikberatkan pada perkembangan dan aplikasi large language model.
Survei tentang halusinasi pada large language model: prinsip, taksonomi, tantangan, dan pertanyaan terbuka / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
Pengenalan makalah
- Sebuah makalah survei yang komprehensif tentang halusinasi pada LLM (lebih dari 50 halaman), yang memberikan informasi tentang prinsip, klasifikasi, tantangan, dan pertanyaan terbuka terkait masalah halusinasi pada LLM. #survey-paper #hallucination
> A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.
Abstrak makalah
- Kemunculan large language model (LLM) telah menandai terobosan besar dalam natural language processing (NLP), yang mendorong kemajuan luar biasa dalam pemahaman dan generasi teks. Namun, di balik kemajuan tersebut, LLM menunjukkan kecenderungan serius untuk menghasilkan halusinasi, yaitu konten yang tidak konsisten dengan fakta dunia nyata atau masukan pengguna. Fenomena ini menimbulkan tantangan besar bagi penerapan praktisnya dan memunculkan kekhawatiran terhadap keandalan LLM dalam skenario dunia nyata, sehingga menarik perhatian yang semakin besar untuk mendeteksi dan memitigasi halusinasi tersebut. Dalam survei ini, kami bertujuan memberikan tinjauan yang menyeluruh dan mendalam mengenai perkembangan terbaru di bidang halusinasi pada LLM. Kami memulai dengan taksonomi inovatif untuk halusinasi pada LLM, lalu mendalami faktor-faktor yang berkontribusi terhadap munculnya halusinasi. Selanjutnya, kami menyajikan gambaran komprehensif mengenai metode deteksi halusinasi dan benchmark. Selain itu, berbagai pendekatan representatif yang dirancang untuk memitigasi halusinasi juga diperkenalkan. Terakhir, kami menganalisis tantangan yang menyoroti keterbatasan saat ini dan merumuskan pertanyaan-pertanyaan terbuka, dengan tujuan menjelaskan arah bagi penelitian masa depan tentang halusinasi pada LLM.
> The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.
Tautan makalah
https://arxiv.org/abs/2311.05232
Baca lebih lanjut
https://x.com/omarsar0/status/1722985251129966705
Menyederhanakan blok Transformer / Simplifying Transformer Blocks
Pengenalan makalah
- Dengan menyederhanakan blok Transformer, penelitian ini menemukan bahwa banyak komponen blok dapat dihapus tanpa kehilangan kecepatan pelatihan; dengan menggunakan berbagai arsitektur seperti model autoregressive decoder-only dan model bert encoder-only, blok yang disederhanakan dapat meniru kecepatan pelatihan per pembaruan dan kinerja Transformer standar, bahkan mencapai throughput pelatihan 15% lebih cepat dengan parameter yang lebih sedikit (15%).
> Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).
Abstrak makalah
- Resep desain sederhana untuk Transformer yang dalam adalah menyusun blok bangunan yang identik. Namun, blok transformer standar jauh dari sederhana, karena menganyam sub-blok attention dan MLP dengan skip connection serta layer normalisasi dalam susunan yang presisi. Kompleksitas ini menghasilkan arsitektur yang rapuh, di mana perubahan yang tampaknya kecil dapat secara signifikan menurunkan kecepatan pelatihan, atau membuat model tidak dapat dilatih. Dalam penelitian ini, diajukan pertanyaan: sampai sejauh mana blok transformer standar dapat disederhanakan? Dengan menggabungkan teori propagasi sinyal dan pengamatan empiris, penelitian ini memotivasi modifikasi yang memungkinkan banyak komponen blok dihapus tanpa kehilangan kecepatan pelatihan, termasuk skip connection, parameter projection atau value, sub-blok berurutan, dan layer normalisasi. Dalam eksperimen pada model autoregressive decoder-only maupun model BERT encoder-only, transformer yang disederhanakan meniru kecepatan pelatihan per pembaruan dan performa transformer standar, sekaligus menawarkan throughput pelatihan 15% lebih cepat dan menggunakan parameter 15% lebih sedikit.
> A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.
Tautan makalah
https://arxiv.org/abs/2311.01906
Baca selengkapnya
https://x.com/maksym_andr/status/1722235666724192688
Dukungan kemampuan pemilihan model yang lebih sempit pada model Transformer melalui campuran data pretraining / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models
Pengenalan makalah
- Menyelidiki seberapa efektif transformer dapat menjembatani campuran data pretraining untuk mengidentifikasi dan mempelajari tugas baru secara in-context, baik yang berada di dalam maupun di luar distribusi pretraining; dalam rezim yang diteliti, terdapat bukti terbatas bahwa perilaku in-context learning model mampu melakukan generalisasi melampaui data pretraining-nya.
> Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.
Abstrak makalah
- Model Transformer, khususnya large language model (LLM), memiliki kemampuan luar biasa untuk melakukan in-context learning (ICL) — yakni menjalankan tugas baru ketika diberi prompt berupa contoh input-output yang belum pernah dilihat tanpa pelatihan model eksplisit apa pun. Dalam penelitian ini, dikaji seberapa efektif transformer dapat menjembatani campuran data pretraining mereka, yang terdiri dari beberapa keluarga tugas yang berbeda, untuk mengidentifikasi dan mempelajari tugas baru secara in-context baik yang berada di dalam maupun di luar distribusi pretraining. Dengan membangun di atas penelitian sebelumnya, pertanyaan ini diselidiki dalam lingkungan terkontrol, dengan mempelajari model transformer yang dilatih pada sequence pasangan $(x, f(x))$ alih-alih bahasa alami. Hasil empiris menunjukkan bahwa transformer memperlihatkan kemampuan pemilihan model unsupervised yang nyaris optimal, dalam kemampuannya untuk terlebih dahulu mengidentifikasi keluarga tugas yang berbeda secara in-context dan belajar di dalamnya secara in-context ketika keluarga tugas tersebut terwakili dengan baik dalam data pretraining mereka. Namun, ketika dihadapkan pada tugas atau fungsi yang berada di luar domain data pretraining, ditunjukkan berbagai mode kegagalan transformer dan penurunan kemampuan generalisasi bahkan untuk tugas ekstrapolasi yang sederhana. Secara keseluruhan, hasil ini menyoroti bahwa kemampuan ICL yang mengesankan dari model sekuens berkapasitas tinggi mungkin lebih erat terkait dengan cakupan campuran data pretraining mereka daripada bias induktif yang menciptakan kemampuan generalisasi fundamental.
> Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.
Tautan makalah
https://arxiv.org/abs/2311.00871
Baca selengkapnya
https://x.com/abacaj/status/1721223737729581437
Generasi musik yang sederhana dan dapat dikendalikan / Simple and Controllable Music Generation
Pengenalan makalah
- Sebuah LLM berbasis transformer satu tahap yang bekerja pada beberapa aliran representasi musik diskret terkompresi, dan dapat menghasilkan sampel berkualitas tinggi (mono dan stereo) sambil dikondisikan oleh deskripsi teks atau fitur melodi.
> A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.
Abstrak makalah
- Makalah ini membahas tugas generasi musik bersyarat. Mereka memperkenalkan MusicGen, sebuah Language Model (LM) tunggal yang beroperasi pada beberapa aliran representasi musik diskret terkompresi, yaitu token. Berbeda dari penelitian sebelumnya, MusicGen terdiri dari transformer LM satu tahap bersama pola interleaving token yang efisien, sehingga menghilangkan kebutuhan untuk mengaskadekan beberapa model, misalnya secara hierarkis atau lewat upsampling. Dengan pendekatan ini, mereka menunjukkan bagaimana MusicGen dapat menghasilkan sampel berkualitas tinggi, baik mono maupun stereo, sambil dikondisikan oleh deskripsi tekstual atau fitur melodi, sehingga memungkinkan kontrol yang lebih baik atas output yang dihasilkan. Mereka melakukan evaluasi empiris yang luas, mencakup studi otomatis maupun studi manusia, dan menunjukkan bahwa pendekatan yang diusulkan lebih unggul daripada baseline yang dievaluasi pada benchmark text-to-music standar. Melalui studi ablasi, mereka menyoroti pentingnya setiap komponen yang membentuk MusicGen. Sampel musik, kode, dan model tersedia di https://github.com/facebookresearch/audiocraft
> We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft
Tautan makalah
https://arxiv.org/abs/2306.05284
Baca lebih lanjut
https://x.com/AIatMeta/status/1723043913638810025
Update bergantian untuk model transformer yang efisien / Alternating Updates for Efficient Transformers
Pengenalan makalah
- Sebuah metode yang memungkinkan pemanfaatan peningkatan skala dan kapasitas pada model transformer tanpa menambah biaya komputasi; hal ini dicapai dengan mengerjakan subblok dari representasi yang diperlebar di setiap lapisan dan menggunakan mekanisme predict-and-correct untuk memperbarui blok yang dinonaktifkan; metode ini memperlebar representasi yang dipelajari sambil hanya menimbulkan peningkatan latensi yang dapat diabaikan.
> A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.
Abstrak makalah
- Sudah diketahui luas bahwa ketika skala jaringan transformer mendalam membesar, kualitas dan kinerjanya meningkat. Namun, peningkatan skala ini sering kali disertai lonjakan besar pada biaya komputasi dan latensi inferensi. Pure Storage memperkenalkan Alternating Updates (AltUp), metode yang mudah diimplementasikan untuk meningkatkan kapasitas model tanpa beban komputasi. AltUp memungkinkan perluasan representasi yang dipelajari, yaitu token embedding, sambil hanya menimbulkan peningkatan latensi yang dapat diabaikan. AltUp mencapai hal ini dengan bekerja pada subblok dari representasi yang diperluas di setiap layer dan menggunakan mekanisme predict-and-correct untuk memperbarui blok yang dinonaktifkan. Kami juga menyajikan perluasan AltUp, seperti penerapannya pada dimensi sekuens, serta menunjukkan bagaimana AltUp dapat digabungkan secara sinergis dengan pendekatan yang sudah ada, seperti model Sparse Mixture-of-Experts, untuk memperoleh model efisien dengan kapasitas yang lebih tinggi. Eksperimen kami pada model transformer benchmark dan tugas bahasa menunjukkan efektivitas AltUp yang konsisten di berbagai skenario. Secara khusus, pada benchmark SuperGLUE dan SQuAD, AltUp memberikan percepatan hingga $87%$ dibandingkan baseline dense pada akurasi yang sama.
> It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.
Tautan makalah
https://arxiv.org/abs/2301.13310
Baca lebih lanjut
https://x.com/GoogleAI/status/1722004366201418132
Ubah Frasa dan Jawab: Biarkan Large Language Models Mengajukan Pertanyaan yang Lebih Baik untuk Diri Mereka Sendiri / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves
Pengenalan makalah
- Metode prompting yang efektif yang menggunakan LLM untuk mengubah frasa dan memperluas pertanyaan yang diajukan manusia guna meningkatkan kinerja secara keseluruhan; dapat meningkatkan performa berbagai model di beragam tugas; pendekatan ini juga dapat dikombinasikan dengan chain-of-thought untuk semakin meningkatkan performa.
> An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.
Abstrak makalah
- Kesalahpahaman tidak hanya muncul dalam komunikasi antarmanusia, tetapi juga antara manusia dan large language model (LLM). Ketidaksesuaian semacam ini dapat membuat LLM menafsirkan pertanyaan yang tampaknya tidak ambigu dengan cara yang tidak terduga, sehingga menghasilkan jawaban yang salah. Meskipun sudah diketahui luas bahwa kualitas prompt, seperti pertanyaan, sangat memengaruhi kualitas jawaban yang diberikan LLM, metode sistematis untuk menyusun pertanyaan yang lebih mudah dipahami LLM masih belum berkembang dengan baik. Dalam makalah ini, penulis memperkenalkan metode bernama
Rephrase and Respond(RaR), yang memungkinkan LLM menyusun ulang dan memperluas pertanyaan yang diajukan manusia lalu memberikan jawaban dalam satu prompt. Pendekatan ini merupakan metode prompting yang sederhana namun efektif untuk meningkatkan performa. Selain itu, diperkenalkan juga varian RaR dua tahap, di mana LLM pertama-tama memperbaiki redaksi pertanyaan lalu meneruskan pertanyaan asli dan pertanyaan yang telah dirumuskan ulang tersebut bersama-sama ke LLM lain yang bertugas menjawab. Hal ini memungkinkan pemanfaatan efektif dari hasil perumusan ulang yang dihasilkan satu LLM oleh LLM lainnya. Hasil eksperimen menunjukkan bahwa metode ini secara signifikan meningkatkan performa berbagai model pada beragam tugas. Makalah ini juga membandingkan RaR secara komprehensif dengan metode Chain-of-Thought (CoT) yang populer, baik secara teoretis maupun empiris. Hasilnya menunjukkan bahwa RaR bersifat saling melengkapi dengan CoT dan dapat dikombinasikan dengan CoT untuk mencapai hasil yang lebih baik. Penelitian ini tidak hanya berkontribusi pada peningkatan performa LLM secara efisien dan efektif, tetapi juga menyoroti evaluasi yang adil terhadap kemampuan LLM. Data dan kode tersedia di https://github.com/uclaml/Rephrase-and-Respond.
> Kesalahpahaman tidak hanya muncul dalam komunikasi antarmanusia, tetapi juga antara manusia dan Large Language Models (LLMs). Perbedaan semacam itu dapat membuat LLM menafsirkan pertanyaan yang tampaknya tidak ambigu dengan cara yang tidak terduga, sehingga menghasilkan jawaban yang salah. Walaupun sudah diakui secara luas bahwa kualitas prompt, seperti pertanyaan, sangat memengaruhi kualitas jawaban yang diberikan LLM, metode sistematis untuk merancang pertanyaan yang dapat lebih mudah dipahami LLM masih belum berkembang dengan baik. Dalam makalah ini, kami memperkenalkan metode bernamaRephrase and Respond(RaR), yang memungkinkan LLM merumuskan ulang dan memperluas pertanyaan yang diajukan manusia serta memberikan jawaban dalam satu prompt. Pendekatan ini merupakan metode prompting yang sederhana namun efektif untuk meningkatkan performa. Kami juga memperkenalkan varian RaR dua langkah, di mana sebuah LLM perumus ulang terlebih dahulu merumuskan ulang pertanyaan, lalu meneruskan pertanyaan asli dan versi yang telah dirumuskan ulang bersama-sama ke LLM lain yang berbeda untuk menjawab. Ini memungkinkan pemanfaatan yang efektif atas pertanyaan yang telah dirumuskan ulang oleh satu LLM pada LLM lainnya. Eksperimen kami menunjukkan bahwa metode kami secara signifikan meningkatkan performa berbagai model pada beragam tugas. Kami juga menyajikan perbandingan komprehensif antara RaR dan metode Chain-of-Thought (CoT) yang populer, baik secara teoretis maupun empiris. Kami menunjukkan bahwa RaR bersifat komplementer terhadap CoT dan dapat dikombinasikan dengan CoT untuk mencapai performa yang bahkan lebih baik. Karya kami tidak hanya berkontribusi pada peningkatan performa LLM secara efisien dan efektif, tetapi juga menyoroti evaluasi yang adil terhadap kapabilitas LLM. Data dan kode tersedia di https://github.com/uclaml/Rephrase-and-Respond.
Tautan makalah
https://arxiv.org/abs/2311.04205
Bacaan lebih lanjut
https://x.com/QuanquanGu/status/1722364144379396513
Melaju di jalan bersama GPT-4V(ision): Eksplorasi awal visual-language model untuk kendaraan otonom / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving
Pengantar makalah
- Makalah ini memberikan evaluasi menyeluruh terhadap visual-language model mutakhir terbaru, GPT-4V(ision), serta penerapannya pada kendaraan otonom; model ini menunjukkan performa unggul dalam pemahaman adegan dan penalaran kausal dibandingkan sistem otonom yang sudah ada.
> Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.
Abstrak makalah
- Realisasi teknologi kendaraan otonom bergantung pada integrasi canggih antara sistem persepsi, pengambilan keputusan, dan kontrol. Pendekatan tradisional, baik yang berbasis data maupun berbasis aturan, dibatasi oleh ketidakmampuannya menangkap nuansa lingkungan berkendara yang kompleks dan niat pengguna jalan lain. Hal ini menjadi hambatan besar, khususnya dalam mengembangkan penalaran berbasis akal sehat dan pemahaman adegan yang mendalam yang diperlukan untuk kendaraan otonom yang aman dan andal. Kemunculan Visual Language Model (VLM) membuka cakrawala baru dalam mewujudkan kendaraan otonom sepenuhnya. Laporan ini memberikan evaluasi menyeluruh terhadap VLM state-of-the-art terbaru dan penerapannya dalam skenario kendaraan otonom. Laporan ini menelaah kemampuan model untuk memahami dan menalar adegan berkendara, mengambil keputusan, dan pada akhirnya bertindak layaknya pengemudi. Pengujian komprehensif dilakukan mulai dari pengenalan adegan dasar hingga penalaran kausal yang kompleks, serta pengambilan keputusan real-time dalam berbagai kondisi. Hasil pengujian menunjukkan bahwa 'nama model' memperlihatkan kinerja yang unggul dalam pemahaman adegan dan penalaran kausal dibandingkan sistem kendaraan otonom yang ada. Ini menunjukkan potensi untuk menangani skenario di luar distribusi pada situasi berkendara nyata, mengenali niat, dan membuat keputusan yang terinformasi. Namun, tantangan seperti identifikasi arah, pengenalan lampu lalu lintas, vision grounding, dan tugas penalaran spasial masih tetap ada. Keterbatasan ini menegaskan perlunya riset dan pengembangan lebih lanjut. Proyek ini saat ini dapat diakses dan dimanfaatkan oleh siapa saja di GitHub: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
> The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
Tautan makalah
https://arxiv.org/abs/2311.05332
Bacaan lanjutan
https://x.com/arankomatsuzaki/status/1722795897359139057
GPT4All: Ekosistem model bahasa terkompresi open source / GPT4All: An Ecosystem of Open Source Compressed Language Models
Pengenalan makalah
- Menjelaskan secara ringkas detail teknis keluarga model GPT4All beserta repositori open source yang bertujuan mendemokratisasi akses ke LLM.
> Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.
Abstrak makalah
- Baru-baru ini, large language model (LLM) telah mencapai performa setara manusia pada berbagai benchmark profesional dan akademik. Aksesibilitas model-model ini tertinggal dibanding performanya. LLM mutakhir memerlukan infrastruktur mahal, hanya dapat diakses melalui antarmuka web yang dibatasi laju aksesnya, terkunci secara geografis, dan disensor, serta tidak memiliki kode dan laporan teknis yang tersedia secara publik. Dalam makalah ini, kami menceritakan kisah GPT4All, sebuah repositori open source populer yang bertujuan mendemokratisasi akses ke LLM. Kami menguraikan detail teknis keluarga model GPT4All asli, serta evolusi proyek GPT4All dari satu model menjadi ekosistem open source yang matang. Kami berharap makalah ini dapat berfungsi baik sebagai gambaran teknis model GPT4All asli maupun sebagai studi kasus tentang pertumbuhan lanjutan ekosistem open source GPT4All.
> Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.
Tautan makalah
https://arxiv.org/abs/2311.04931
Bacaan lanjutan
https://x.com/_akhaliq/status/1722833378590793915
S-LoRA: Menyajikan ribuan adapter LoRA secara bersamaan / S-LoRA: Serving Thousands of Concurrent LoRA Adapters
Pengenalan makalah
- Ini adalah pendekatan yang memungkinkan penyajian banyak adapter LoRA secara skalabel dengan menyimpan semua adapter di memori utama dan memindahkan adapter dari kueri yang sedang berjalan ke memori GPU, serta menggunakan strategi paralelisme tensor baru dan kernel CUDA kustom yang sangat dioptimalkan untuk batching heterogen pada komputasi LoRA, meningkatkan throughput 4x dibandingkan solusi lain, dan menambah jumlah adapter yang dapat disajikan hingga beberapa kali lipat.
> An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.
Abstrak makalah
- Penerapan model bahasa skala besar umumnya mengadopsi paradigma "pretrain-then-finetune". Low-Rank Adaptation (LoRA), metode fine-tuning yang efisien secara parameter, sering digunakan untuk menyesuaikan model dasar ke berbagai tugas, sehingga menghasilkan koleksi besar adapter LoRA yang diturunkan dari satu model dasar. Kami mengamati bahwa paradigma ini menghadirkan peluang besar untuk inferensi batch saat serving. Untuk memanfaatkan peluang ini, kami memperkenalkan S-LoRA, sebuah sistem yang dirancang untuk serving banyak adapter LoRA secara skalabel. S-LoRA menyimpan semua adapter di memori utama dan memindahkan adapter yang digunakan oleh kueri yang sedang berjalan ke memori GPU. Untuk menggunakan memori GPU secara efisien dan mengurangi fragmentasi, S-LoRA mengusulkan Unified Paging. Unified Paging menggunakan unified memory pool untuk mengelola bobot adapter dinamis dengan rank yang berbeda-beda dan tensor cache KV dengan panjang sekuens yang bervariasi. Selain itu, S-LoRA menggunakan strategi paralelisme tensor baru dan kernel CUDA kustom yang sangat dioptimalkan untuk mendukung batching heterogen pada komputasi LoRA. Secara keseluruhan, fitur-fitur ini memungkinkan S-LoRA melayani ribuan adapter LoRA pada satu GPU atau di beberapa GPU dengan overhead kecil. Dibandingkan dengan library mutakhir seperti HuggingFace PEFT dan vLLM (dengan dukungan naif untuk serving LoRA), S-LoRA dapat meningkatkan throughput hingga 4 kali lipat dan menambah jumlah adapter yang dilayani hingga beberapa orde magnitudo. Hasilnya, S-LoRA memungkinkan serving yang skalabel untuk banyak model fine-tuning spesifik tugas dan menawarkan potensi untuk layanan fine-tuning kustom berskala besar. Kodenya tersedia di https://github.com/S-LoRA/S-LoRA
> The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA
Tautan makalah
https://arxiv.org/abs/2311.03285v2
Bacaan lebih lanjut
https://x.com/ai_database/status/1722190708797592013
FreshLLM: Menyegarkan model bahasa skala besar melalui augmentasi mesin pencari / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
Pengenalan makalah
- Mengusulkan benchmark QA dinamis (FreshQA) untuk menguji faktualitas teks yang dihasilkan LLM, mengusulkan FreshPrompt, metode prompting few-shot sederhana yang secara signifikan meningkatkan performa LLM di FreshQA dengan memasukkan informasi relevan dan terkini yang diambil dari mesin pencari ke dalam prompt, serta menemukan bahwa menginstruksikan LLM untuk menghasilkan jawaban yang ringkas dan langsung membantu mengurangi halusinasi dibandingkan mendorong jawaban yang lebih panjang dan bertele-tele.
> Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.
Abstrak makalah
- Sebagian besar large language model (LLM) dilatih hanya sekali dan tidak pernah diperbarui, sehingga tidak memiliki kemampuan untuk beradaptasi secara dinamis dengan dunia yang terus berubah. Studi ini melakukan analisis mendetail tentang faktualitas teks yang dihasilkan LLM dalam konteks menjawab pertanyaan yang menguji pengetahuan dunia terkini. Secara khusus, penelitian ini memperkenalkan FreshQA, benchmark QA dinamis baru yang mencakup beragam jenis pertanyaan dan jawaban, termasuk pertanyaan yang membutuhkan pengetahuan dunia yang berubah cepat serta pertanyaan dengan premis keliru yang harus dibantah. Berbagai LLM tertutup maupun open-source dibenchmark dengan prosedur evaluasi dua mode yang memungkinkan pengukuran baik akurasi maupun halusinasi. Melalui evaluasi manusia yang mencakup lebih dari 50 ribu penilaian, penelitian ini menyoroti keterbatasan model-model tersebut dan menunjukkan bahwa masih ada ruang perbaikan yang besar. Misalnya, ditemukan bahwa semua model, terlepas dari ukuran modelnya, mengalami kesulitan pada pertanyaan yang melibatkan pengetahuan yang berubah cepat dan premis yang salah. Berdasarkan hasil ini, diperkenalkan FreshPrompt, metode prompting few-shot sederhana yang secara signifikan meningkatkan kinerja LLM pada FreshQA dengan mengintegrasikan informasi terbaru yang relevan dan diambil dari mesin pencari ke dalam prompt. Hasil eksperimen menunjukkan bahwa FreshPrompt mengungguli metode prompting berbantuan mesin pencari pesaing seperti Self-Ask (Press et al., 2022) maupun sistem komersial seperti Perplexity.AI. Analisis tambahan terhadap FreshPrompt menunjukkan bahwa jumlah bukti yang diambil serta urutannya memainkan peran penting dalam memengaruhi kebenaran jawaban yang dihasilkan LLM. Selain itu, menginstruksikan LLM untuk menghasilkan jawaban yang ringkas dan langsung terbukti membantu mengurangi halusinasi dibandingkan mendorong jawaban yang lebih panjang. Untuk memudahkan pekerjaan lanjutan, FreshQA dirilis di github.com/freshllms/freshqa dan akan diperbarui secara berkala.
> Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
Tautan makalah
https://arxiv.org/abs/2310.03214
Baca lebih lanjut
https://x.com/_akhaliq/status/1710108355157487635
Artikel asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8
Belum ada komentar.