[2024/01/29 ~ 02/04] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Gambaran Umum
-
Kami telah mencoba menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
-
Melihat kecenderungan makalah yang dipilih minggu ini, riset tentang large language models (LLMs) dan berbagai variannya tampak menonjol. Berdasarkan judul-judul makalah seperti "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs", dan "SliceGPT", dapat dilihat bahwa riset yang berfokus pada peningkatan performa model bahasa, perluasan aplikasi, dan peningkatan efisiensi berlangsung sangat aktif.
-
Tren riset ini dapat ditafsirkan sebagai cerminan dari upaya berkelanjutan dunia akademik dan industri untuk melampaui keterbatasan teknologi pemrosesan bahasa dan menyelesaikan masalah yang semakin kompleks. Belakangan ini, LLMs telah melampaui pemrosesan teks sederhana dan memperluas penerapannya ke berbagai bidang seperti penalaran matematis yang kompleks, pemrosesan data multimodal, serta penelusuran dan rekonstruksi informasi yang lebih canggih. Selain itu, karena ukuran dan kompleksitas model-model ini yang sangat besar, teknik seperti kompresi model menjadi elemen kunci agar model dapat diterapkan dan digunakan dengan lebih efisien di lingkungan nyata. Tren ini semakin menekankan pentingnya teknologi tersebut ketika model skala besar harus dijalankan dengan sumber daya yang relatif terbatas.
-
Selain itu, riset tentang 'Multimodal LLMs' dan 'MoE-LLaVA' menunjukkan perkembangan dalam cara mengintegrasikan dan memproses berbagai bentuk data selain teks (misalnya gambar, suara, dan sebagainya), yang memperlihatkan potensi sistem kecerdasan buatan untuk memahami dan memanfaatkan informasi dunia nyata secara lebih kaya. Sebagai teknik untuk meningkatkan interpretabilitas dan keandalan model, 'Corrective RAG' dan 'Redefining Retrieval in RAG' dapat dipandang sebagai upaya untuk memperbaiki proses penalaran model dan akurasi hasilnya, sementara 'Hallucination in LVLMs' dan 'Rephrasing the Web' mewakili riset untuk meningkatkan kualitas konten yang dihasilkan model. Semua tren ini dinilai sebagai sinyal yang menandakan hadirnya sistem kecerdasan buatan yang semakin cerdas dan canggih di masa depan.
OLMo: Mempercepat Sains Model Bahasa / OLMo: Accelerating the Science of Language Models
Pengenalan makalah
- Memperkenalkan open language model (OLMo), model 7b parameter yang mencakup kode pelatihan terbuka, data terbuka, bobot model lengkap, kode evaluasi, dan kode fine-tuning, serta menunjukkan performa yang kuat pada banyak tugas generatif; tersedia juga versi yang lebih kecil, yaitu olmo 1b.
Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.
Abstrak makalah (Abstract)
- Language models (LMs) telah menjadi hal yang umum baik dalam riset NLP maupun dalam penawaran produk komersial. Seiring meningkatnya pentingansi komersial model bahasa, model-model paling kuat justru menjadi tertutup, dibatasi di balik antarmuka proprietari, sementara detail penting tentang data pelatihan, arsitektur, dan pengembangannya tidak diungkapkan. Mengingat pentingnya detail-detail ini dalam meneliti model tersebut secara ilmiah, termasuk bias dan potensi risikonya, kami percaya bahwa komunitas riset perlu memiliki akses ke LM yang kuat dan benar-benar terbuka. Untuk tujuan ini, laporan teknis ini menjelaskan secara rinci rilis pertama OLMo, sebuah Open Language Model mutakhir yang benar-benar terbuka beserta kerangka kerjanya untuk membangun dan meneliti sains pemodelan bahasa. Berbeda dengan sebagian besar upaya sebelumnya yang hanya merilis bobot model dan kode inferensi, kami merilis OLMo beserta seluruh kerangka kerjanya, termasuk data pelatihan serta kode pelatihan dan evaluasi. Kami berharap rilis ini dapat memberdayakan dan memperkuat komunitas riset terbuka serta menginspirasi gelombang inovasi baru.
Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
Tautan makalah
https://arxiv.org/abs/2402.00838
Baca lebih lanjut
https://x.com/omarsar0/status/1753080417530318872
MM-LLM: Perkembangan Terkini Large Language Model Multimodal / MM-LLMs: Recent Advances in MultiModal Large Language Models
Pengenalan makalah
- Ini adalah makalah survei komprehensif yang menguraikan formulasi desain untuk arsitektur model dan pipeline pelatihan seputar large language model multimodal.
A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.
Abstrak makalah (Abstract)
- Selama satu tahun terakhir, MultiModal Large Language Models (MM-LLM) telah mengalami kemajuan yang signifikan, termasuk memperkuat LLM siap pakai agar mendukung input atau output MM melalui strategi pelatihan yang hemat biaya. Hasilnya, model-model ini tidak hanya mempertahankan kemampuan penalaran dan pengambilan keputusan bawaan LLM, tetapi juga mampu mendukung beragam tugas MM. Makalah ini menyajikan survei komprehensif untuk mendorong penelitian lanjutan tentang MM-LLM. Secara khusus, penulis pertama-tama menjelaskan formulasi desain umum untuk arsitektur model dan pipeline pelatihan. Selanjutnya, diperkenalkan secara singkat 26 MM-LLM yang sudah ada, masing-masing dengan formulasi spesifiknya sendiri. Selain itu, makalah ini meninjau kinerja MM-LLM pada benchmark utama dan merangkum resep pelatihan penting untuk meningkatkan efektivitas MM-LLM. Terakhir, penulis mengeksplorasi arah yang menjanjikan bagi MM-LLM sekaligus mengelola situs web pelacakan real-time untuk perkembangan terbaru di bidang ini. Survei ini diharapkan dapat berkontribusi pada kemajuan berkelanjutan di ranah MM-LLM.
> In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
Tautan makalah
https://arxiv.org/abs/2401.13601
Baca lebih lanjut
https://x.com/omarsar0/status/1751705689964089616
CRAG: Generasi Augmentasi Retrieval Korektif / Corrective Retrieval Augmented Generation
Pengantar makalah
- Untuk meningkatkan ketahanan proses generasi dalam sistem RAG, makalah ini mengusulkan Corrective Retrieval Augmented Generation (CRAG). Gagasan intinya adalah menerapkan komponen koreksi mandiri pada retriever dan meningkatkan pemanfaatan dokumen yang diambil untuk generasi berbasis augmentasi. Retrieval evaluator membantu menilai kualitas keseluruhan dokumen yang diambil berdasarkan query yang diberikan, dan penggunaan web search serta operasi pemanfaatan pengetahuan yang dioptimalkan dapat meningkatkan koreksi mandiri otomatis serta efisiensi pemanfaatan dokumen yang diambil.
> Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.
Abstrak makalah (Abstract)
- Large language model (LLM) tak terelakkan akan menunjukkan halusinasi karena akurasi teks yang dihasilkan tidak dapat dijamin hanya dengan pengetahuan parametrik yang dikandungnya. Retrieval-augmented generation (RAG) adalah cara praktis untuk melengkapi LLM, tetapi sangat bergantung pada relevansi dokumen yang diambil, sehingga memunculkan kekhawatiran tentang bagaimana model akan berperilaku jika proses retrieval salah. Untuk itu, kami mengusulkan Corrective Retrieval Augmented Generation (CRAG) guna meningkatkan ketahanan generasi. Secara khusus, evaluator retrieval yang ringan dirancang untuk menilai kualitas keseluruhan dokumen yang diambil untuk sebuah kueri, lalu mengembalikan tingkat kepercayaan yang dapat memicu berbagai tindakan retrieval pengetahuan. Karena retrieval dari korpus yang statis dan terbatas hanya dapat mengembalikan dokumen yang kurang optimal, pencarian web skala besar digunakan sebagai ekstensi untuk memperkaya hasil retrieval. Selain itu, algoritma decompose-then-recompose dirancang untuk dokumen yang diambil agar dapat secara selektif berfokus pada informasi kunci dan menyaring informasi yang tidak relevan. CRAG bersifat plug-and-play dan dapat dipadukan secara mulus dengan berbagai pendekatan berbasis RAG. Hasil eksperimen pada empat dataset yang mencakup tugas generasi bentuk pendek dan panjang menunjukkan bahwa CRAG dapat secara signifikan meningkatkan kinerja pendekatan berbasis RAG.
> Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.
Tautan makalah
https://arxiv.org/abs/2401.15884
Bacaan lebih lanjut
https://x.com/omarsar0/status/1752173216942944556
Large Language Models untuk Penalaran Matematis: Kemajuan dan Tantangan / Large Language Models for Mathematical Reasoning: Progresses and Challenges
Pengenalan makalah
- Memperkenalkan gambaran umum perkembangan riset dalam machine learning untuk penalaran matematis, serta membahas kemajuan, kemampuan, keterbatasan, dan aplikasinya untuk menginspirasi riset berkelanjutan di bidang ini.
> Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.
Abstrak makalah(Abstract)
- Penalaran matematis berperan sebagai landasan untuk menilai kemampuan kognitif mendasar dari kecerdasan manusia. Belakangan ini, terjadi lonjakan mencolok dalam pengembangan Large Language Models (LLM) yang ditujukan untuk penyelesaian otomatis masalah matematika. Namun, lanskap jenis masalah matematika sangat luas dan beragam, dengan teknik berorientasi LLM dievaluasi di berbagai dataset dan lingkungan. Keragaman ini membuat sulit untuk mengidentifikasi kemajuan dan hambatan yang sebenarnya dalam bidang yang sedang berkembang pesat ini. Survei ini berupaya membahas empat dimensi penting: i) eksplorasi komprehensif terhadap berbagai masalah matematika dan dataset terkait yang telah diteliti; ii) kajian atas spektrum teknik berorientasi LLM yang telah diusulkan untuk pemecahan masalah matematika; iii) gambaran umum faktor dan perhatian yang memengaruhi LLM dalam menyelesaikan matematika; dan iv) penjelasan tentang tantangan yang masih bertahan dalam domain ini. Sejauh pengetahuan kami, survei ini merupakan salah satu telaah luas pertama mengenai lanskap LLM dalam ranah matematika, yang memberikan perspektif holistik tentang kondisi saat ini, pencapaian, dan tantangan masa depan di bidang yang berkembang cepat ini.
> Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.
Tautan makalah
https://arxiv.org/abs/2402.00157
Bacaan lebih lanjut
https://x.com/omarsar0/status/1753424518171738194
Survei Komprehensif tentang Algoritme Kompresi untuk Model Bahasa / A Comprehensive Survey of Compression Algorithms for Language Models
Pengantar makalah
- Membahas algoritme kompresi seperti pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, dan perancangan arsitektur yang efisien.
> Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.
Abstrak makalah (Abstract)
- Bagaimana kita dapat mengompresi model bahasa tanpa mengorbankan akurasi? Jumlah algoritme kompresi untuk model bahasa berkembang pesat agar kita bisa menikmati kemajuan luar biasa dari model bahasa terbaru tanpa efek samping akibat ukurannya yang sangat besar, seperti meningkatnya emisi karbon dan mahalnya biaya pemeliharaan. Meskipun banyak algoritme kompresi telah menunjukkan kemajuan yang luar biasa dalam mengompresi model bahasa, ironisnya menjadi sulit untuk menangkap tren baru dan mengidentifikasi konsep dasar yang melandasinya karena jumlah algoritme yang terlalu banyak. Dalam makalah ini, penulis mensurvei dan merangkum beragam algoritme kompresi termasuk pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, dan perancangan arsitektur yang efisien. Penulis tidak hanya merangkum tren umum dari beragam algoritme kompresi, tetapi juga memilih algoritme yang representatif dan memberikan analisis mendalam terhadapnya. Penulis membahas nilai dari setiap kategori algoritme kompresi, serta sifat-sifat yang diinginkan dari algoritme kompresi berbiaya rendah yang memiliki dampak signifikan seiring munculnya large language models. Terakhir, penulis memperkenalkan topik penelitian masa depan yang menjanjikan berdasarkan hasil survei mereka.
> How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.
Tautan makalah
https://arxiv.org/abs/2401.15347
Baca lebih lanjut
https://x.com/omarsar0/status/1752746770377974072
MoE-LLaVA: Mixture of Experts untuk model vision-language skala besar / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
Pengantar makalah
- Menggunakan tuning mixture of experts untuk model vision-language skala besar, yang membangun model sparse dengan pengurangan parameter yang besar pada biaya komputasi yang tetap; pendekatan ini juga membantu mengatasi penurunan performa yang terkait dengan pembelajaran multimodal dan sparsity model.
> Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.
Abstrak makalah (Abstract)
- Untuk Large Vision-Language Models (LVLM), memperbesar skala model dapat secara efektif meningkatkan performa. Namun, memperbesar parameter model secara signifikan meningkatkan biaya pelatihan dan inferensi, karena semua parameter model diaktifkan untuk setiap token dalam perhitungan. Dalam penelitian ini, penulis mengusulkan strategi pelatihan baru untuk LVLM yang disebut MoE-tuning, yang dapat membangun model sparse dengan jumlah parameter yang sangat besar tetapi biaya komputasi yang tetap, serta secara efektif mengatasi penurunan performa yang umumnya terkait dengan pembelajaran multimodal dan sparsitas model. Selain itu, diperkenalkan kerangka MoE-LLaVA, arsitektur LVLM sparse berbasis MoE. Kerangka ini secara unik hanya mengaktifkan top-k expert melalui router saat deployment, sementara expert lainnya tetap tidak aktif. Melalui eksperimen ekstensif, Unity mengonfirmasi kemampuan unggul MoE-LLaVA dalam pemahaman visual serta potensinya untuk mengurangi halusinasi pada output model. Yang menarik, hanya dengan 3 miliar parameter yang diaktifkan secara sparse, MoE-LLaVA menunjukkan performa yang sebanding dengan LLaVA-1.5-7B pada berbagai dataset pemahaman visual, dan bahkan melampaui LLaVA-1.5-13B pada benchmark halusinasi objek. Melalui MoE-LLaVA, Unity bertujuan menetapkan baseline untuk LVLM sparse dan memberikan insight berharga bagi riset mendatang dalam mengembangkan sistem pembelajaran multimodal yang lebih efisien dan efektif. Kodenya dirilis di \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
> For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
Tautan makalah
https://arxiv.org/abs/2401.15947
Baca lebih lanjut
https://github.com/PKU-YuanGroup/MoE-LLaVA
https://x.com/LinBin46984/status/1753403875531375003
Rephrasing the Web: Resep untuk Pemodelan Bahasa yang Efisien dalam Komputasi dan Data / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
Pengantar makalah
- Dengan menggunakan model instruction-tuned siap pakai yang diberi prompt untuk memparafrasekan dokumen web ke dalam gaya dan format tertentu seperti “seperti Wikipedia” atau “format tanya-jawab”, lalu melakukan pra-pelatihan bersama pada parafrasa nyata dan sintetis, pendekatan ini dapat mempercepat pra-pelatihan hingga sekitar 3x, memperbaiki perplexity, dan meningkatkan akurasi zero-shot question answering pada banyak tugas.
> Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.
Abstrak makalah (Abstract)
- Model bahasa besar umumnya dilatih berdasarkan hasil scrape web dalam jumlah sangat besar yang tidak terstruktur, penuh noise, dan memiliki susunan kalimat yang buruk. Menurut scaling law saat ini, belajar dari data semacam ini memerlukan compute dan data yang sama-sama melimpah, dan kebutuhan tersebut meningkat seiring ukuran model yang dilatih. Hal ini tidak layak dilakukan karena besarnya biaya compute dan lamanya waktu yang terkait dengan pre-training, serta semakin langkanya data berkualitas tinggi di web. Studi ini mengusulkan Web Rephrase Augmented Pre-training ($\textbf{WRAP}$), yang menggunakan model instruction-tuned siap pakai untuk diarahkan memparafrasekan dokumen di web ke gaya tertentu seperti "seperti Wikipedia" atau dalam "format tanya-jawab", sehingga LLM dapat di-pre-train secara bersama-sama pada parafrasa nyata dan sintetis. Pertama, ditunjukkan bahwa penggunaan WRAP pada dataset C4 yang secara alami penuh noise mempercepat pre-training hingga $\sim3x$. Dengan anggaran compute pre-training yang sama, metode ini meningkatkan perplexity lebih dari 10% rata-rata pada berbagai subset dari Pile, dan meningkatkan akurasi jawaban zero-shot pada 13 tugas lebih dari 2%. Kedua, penelitian ini mengkaji dampak gaya parafrasa terhadap performa model, serta memberi wawasan tentang bagaimana komposisi data pelatihan dapat memengaruhi performa LLM dalam pengaturan OOD. Peningkatan yang diperoleh dikaitkan dengan fakta bahwa data sintetis yang telah diparafrasekan memiliki utilitas lebih tinggi dibanding hanya data nyata karena (i) mencakup keragaman gaya yang sangat mencerminkan gaya evaluasi downstream, dan (ii) memiliki 'kualitas' yang lebih tinggi daripada data hasil scrape web.
> Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.
Tautan makalah
https://arxiv.org/abs/2401.16380
Baca lebih lanjut
https://x.com/pratyushmaini/status/1752337225097076809
Kekuatan Noise: Mendefinisikan Ulang Retrieval untuk Sistem RAG / The Power of Noise: Redefining Retrieval for RAG Systems
Pengantar makalah
- Studi yang berfokus pada komponen yang diperlukan untuk meningkatkan komponen retrieval pada sistem RAG ini menegaskan bahwa posisi informasi yang relevan harus ditempatkan dekat dengan kueri; jika tidak, model akan kesulitan memberi perhatian pada informasi tersebut. Menariknya, dokumen yang relevan tidak selalu menghasilkan peningkatan performa pada sistem RAG. Yang lebih tak terduga, dokumen yang tidak relevan dan penuh noise pun dapat membantu meningkatkan akurasi jika ditempatkan dengan benar.
> a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.
Abstrak makalah (Abstract)
- Sistem Retrieval-Augmented Generation (RAG) merupakan kemajuan signifikan dibandingkan Large Language Models (LLM) tradisional. Sistem RAG meningkatkan kemampuan generasinya dengan menggabungkan data eksternal yang diambil melalui tahap Information Retrieval (IR), sehingga mengatasi keterbatasan LLM standar yang dibatasi oleh pengetahuan pra-pelatihan dan jendela konteks yang terbatas. Sebagian besar penelitian di bidang ini terutama berfokus pada aspek generatif LLM dalam sistem RAG. Studi ini menutup celah tersebut dengan menganalisis secara menyeluruh dan kritis pengaruh komponen IR terhadap sistem RAG. Makalah ini menganalisis karakteristik apa yang harus dimiliki retriever untuk pembentukan prompt RAG yang efektif, dengan berfokus pada jenis dokumen yang perlu diambil. Berbagai elemen dievaluasi, seperti relevansi dokumen terhadap prompt, posisinya, dan jumlah dokumen yang disertakan dalam konteks. Temuan kami mengungkapkan, di antara wawasan lainnya, bahwa memasukkan dokumen yang tidak relevan secara tak terduga dapat meningkatkan performa dengan akurasi lebih dari 30%, bertentangan dengan asumsi awal kami bahwa kualitas akan menurun. Hasil ini menegaskan perlunya pengembangan strategi khusus untuk mengintegrasikan retrieval dengan model generasi bahasa, sehingga meletakkan dasar bagi penelitian di bidang ini pada masa mendatang.
> Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.
Tautan makalah
https://arxiv.org/abs/2401.14887
Baca lebih lanjut
https://x.com/omarsar0/status/1751803310267314509
Makalah survei tentang halusinasi pada model vision-language skala besar / A Survey on Hallucination in Large Vision-Language Models
Pengenalan makalah
- Membahas masalah halusinasi pada Large Vision-Language Model (LVLM) dan teknik untuk mengurangi halusinasi, memperkenalkan metode evaluasi dan benchmark halusinasi LVLM, serta memberikan tip dan analisis yang berguna mengenai penyebab halusinasi LVLM dan kemungkinan cara untuk menguranginya.
> Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.
Abstrak makalah (Abstract)
- Perkembangan terbaru Large Vision-Language Models (LVLM) semakin menarik perhatian di lanskap AI karena potensi implementasi praktisnya. Namun, "halusinasi", atau lebih spesifik lagi ketidakselarasan antara konten visual faktual dan generasi teks yang bersesuaian, menimbulkan tantangan besar dalam pemanfaatan LVLM. Dalam survei komprehensif ini, kami membedah halusinasi terkait LVLM untuk membangun gambaran umum dan memfasilitasi upaya mitigasi di masa depan. Tinjauan kami dimulai dengan memperjelas konsep halusinasi dalam LVLM, menyajikan berbagai gejala halusinasi, dan menyoroti tantangan unik yang melekat pada halusinasi LVLM. Selanjutnya, kami menguraikan benchmark dan metodologi yang dirancang khusus untuk mengevaluasi halusinasi yang khas pada LVLM. Selain itu, kami mendalami investigasi penyebab mendasar dari halusinasi ini, mencakup wawasan dari data pelatihan dan komponen model. Kami juga meninjau secara kritis metode-metode yang sudah ada untuk mengurangi halusinasi. Pertanyaan terbuka dan arah penelitian masa depan terkait halusinasi dalam LVLM dibahas sebagai penutup survei ini.
> Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.
Tautan makalah
https://arxiv.org/abs/2402.00253
Baca lebih lanjut
https://x.com/omarsar0/status/1753449211931079101
SliceGPT: Menghapus Baris dan Kolom untuk Mengompresi Large Language Model / SliceGPT: Compress Large Language Models by Deleting Rows and Columns
Pengenalan makalah
- Teknik kompresi LLM baru yang mengusulkan skema sparsifikasi pasca-pelatihan yang mengganti setiap matriks bobot dengan matriks dense yang lebih kecil; membantu mengurangi dimensi embedding jaringan dan dapat menghapus hingga 20% parameter model pada model Llama2-70b dan Phi-2 sambil mempertahankan sebagian besar performa zero-shot dari model dense.
> A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.
Abstrak makalah (Abstract)
- Large language model telah menjadi fondasi pemrosesan bahasa alami, tetapi penggunaannya menimbulkan biaya yang besar dari sisi komputasi dan sumber daya memori. Sparsifikasi menawarkan solusi untuk mengurangi kendala sumber daya ini, dan riset terbaru menunjukkan bahwa model yang sudah dilatih dapat disparsifikasi setelah pelatihan. Teknik sparsifikasi yang ada menghadapi tantangan karena memerlukan struktur data tambahan dan hanya menawarkan peningkatan kecepatan yang terbatas pada perangkat keras saat ini. Dalam makalah ini, penulis memperkenalkan SliceGPT, skema sparsifikasi pasca-pelatihan baru yang mengganti setiap matriks bobot dengan matriks yang lebih kecil (dense), sehingga mengurangi dimensi embedding jaringan. Melalui eksperimen yang luas, penulis menunjukkan bahwa SliceGPT dapat menghapus hingga 25% parameter model (termasuk embedding) pada model LLAMA2-70B, OPT 66B, dan Phi-2 sambil mempertahankan masing-masing 99%, 99%, dan 90% performa tugas zero-shot dari model dense. Model yang telah di-slice dapat berjalan di lebih sedikit GPU dan berjalan lebih cepat tanpa optimasi kode tambahan: pada GPU konsumen 24GB, total komputasi untuk inferensi LLAMA2-70B berkurang menjadi 64% dari model dense; pada GPU A100 40GB, turun menjadi 66%. Penulis juga menawarkan wawasan baru berupa invariansi komputasi dalam jaringan transformer, yang memungkinkan SliceGPT, dan diharapkan dapat menginspirasi serta membuka jalan baru untuk mengurangi kebutuhan memori dan komputasi pada model pralatih. Kode tersedia di: https://github.com/microsoft/TransformerCompression
> Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression
Tautan makalah
https://arxiv.org/abs/2401.15024v1
Baca selengkapnya
https://github.com/microsoft/TransformerCompression
https://x.com/_akhaliq/status/1751796334531592496
Artikel asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e
⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh Komunitas Pengguna PyTorch Korea ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email! (Default-nya Weekly, tetapi bisa diubah ke Daily.)
Belum ada komentar.