[2024/06/17 ~ 06/23] Paper ML utama minggu ini (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Kami telah mencoba menerjemahkan secara otomatis tulisan tentang paper ML yang dirilis setiap minggu oleh DAIR.AI.
-
Jika melihat paper-paper pilihan minggu ini, kita bisa mengidentifikasi dua tren utama secara umum. Pertama, sebagian besar paper berfokus pada topik yang terkait dengan pemrosesan bahasa alami (NLP). Di antaranya, metode untuk meningkatkan efisiensi model bahasa (LM) yang menangani konteks panjang, serta sistem pencarian informasi dan tanya jawab (QA), muncul sebagai perhatian utama. Misalnya, paper seperti ‘Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?’ mengeksplorasi potensi model bahasa dalam memahami konteks panjang, sementara ‘PlanRAG’ dan ‘From RAG to Rich Parameters’ mengusulkan pendekatan baru untuk meningkatkan sistem pencarian informasi dan tanya jawab.
-
Tren penting lainnya adalah upaya untuk mengurangi memorization (fenomena hafalan) pada model bahasa atau meningkatkan kinerja melalui proses self-refine. ‘Mitigating Memorization in LLMs’ dan ‘Monte Carlos Tree Self-Refine’ patut diperhatikan dari sudut pandang ini. Mengurangi fenomena hafalan penting agar model bahasa tidak sekadar meniru data pelatihan, melainkan dapat mempelajari pengetahuan yang lebih tergeneralisasi dan menghasilkan respons yang kreatif. Ini merupakan salah satu kunci untuk memaksimalkan kepraktisan dan kegunaan model bahasa.
-
Tren-tren ini kemungkinan didorong oleh berbagai faktor. Pertama, pentingnya pemrosesan bahasa alami di bidang kecerdasan buatan terus meningkat, dan kemajuan teknis untuk mewujudkannya berlangsung sangat cepat. Kedua, seiring jumlah informasi yang semakin besar, kebutuhan akan teknologi yang dapat memprosesnya secara efektif dan menyediakan informasi yang berguna bagi pengguna juga meningkat. Terakhir, model bahasa terbaru semakin kompleks dan semakin kuat, tetapi pendekatan baru untuk menyelesaikan berbagai masalah yang dihadapi model tersebut juga terus dibutuhkan. Untuk memenuhi kebutuhan ini, para peneliti terus mencari ide dan metodologi baru yang melampaui framework yang ada.
Claude 3.5 Sonnet / Claude 3.5 Sonnet
Pengenalan paper
Model baru yang mencapai performa state-of-the-art pada beberapa benchmark umum seperti MMLU dan HumanEval ini menunjukkan kinerja yang lebih unggul daripada Claude 3 Opus dan GPT-4o pada sejumlah benchmark, kecuali pada tugas pemecahan soal cerita matematika, serta juga memperlihatkan performa kuat pada tugas vision yang mendukung beberapa fitur baru seperti transkripsi image-to-text dan pembuatan artifacts.
A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.
Tautan paper
https://www.anthropic.com/news/claude-3-5-sonnet
Baca lebih lanjut
https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665
https://x.com/AnthropicAI/status/1803790676988920098
DeepSeek-Coder-V2
Pengenalan paper
Bersaing dengan model closed-source pada tugas generasi kode dan matematika, mencapai 90.2% pada HumanEval dan 75.7% pada MATH, dan menurut laporan hasil ini lebih tinggi daripada performa GPT-4-Turbo-0409; mencakup model berparameter 16B dan 236B dengan panjang konteks 128K.
Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.
Abstrak paper (Abstract)
Kami memperkenalkan DeepSeek-Coder-V2, model bahasa kode open-source berbasis Mixture-of-Experts (MoE) yang mencapai performa sebanding dengan GPT4-Turbo pada tugas-tugas spesifik kode. Secara khusus, DeepSeek-Coder-V2 dilatih lebih lanjut dari checkpoint menengah DeepSeek-V2 dengan tambahan 6 triliun token. Melalui pre-training lanjutan ini, DeepSeek-Coder-V2 secara signifikan meningkatkan kemampuan coding dan penalaran matematis DeepSeek-V2, sambil mempertahankan performa yang sebanding pada tugas bahasa umum. Dibandingkan dengan DeepSeek-Coder-33B, DeepSeek-Coder-V2 menunjukkan kemajuan besar dalam berbagai aspek tugas terkait kode, serta dalam kemampuan penalaran dan kemampuan umum. Selain itu, DeepSeek-Coder-V2 memperluas dukungan bahasa pemrograman dari 86 menjadi 338, sekaligus memperpanjang panjang konteks dari 16K menjadi 128K. Dalam evaluasi benchmark standar, DeepSeek-Coder-V2 mencapai performa yang lebih unggul dibandingkan model closed-source seperti GPT4-Turbo, Claude 3 Opus, dan Gemini 1.5 Pro pada benchmark coding dan matematika.
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.
Tautan paper
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
Baca lebih lanjut
https://github.com/deepseek-ai/DeepSeek-Coder-V2
https://x.com/omarsar0/status/1803078095219417475
TextGrad: 'Diferensiasi' otomatis melalui teks / TextGrad: Automatic "Differentiation" via Text
Pengenalan paper
Kerangka kerja baru untuk diferensiasi otomatis melalui backpropagation atas umpan balik tekstual yang diberikan oleh LLM, meningkatkan komponen individual dan membantu bahasa alami mengoptimalkan graf komputasi, bekerja dengan menyediakan fungsi objektif tanpa menyesuaikan prompt atau komponen, serta mengklaim mencapai skor terbaik di LeetCodeHard dan performa SoTA di GPQA saat digabungkan dengan GPT4o.
A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.
Abstrak makalah(Abstract)
AI sedang mengalami pergeseran paradigma, dengan terobosan yang dicapai oleh sistem yang mengorkestrasi beberapa large language model (LLM) dan komponen kompleks lainnya. Karena itu, mengembangkan metode optimasi yang berprinsip dan otomatis untuk sistem AI majemuk menjadi salah satu tantangan baru yang paling penting. Jaringan saraf juga menghadapi tantangan serupa pada masa-masa awalnya, tetapi backpropagation dan diferensiasi otomatis mengubah bidang ini dengan menjadikan optimasi bersifat turn-key. Terinspirasi dari hal ini, kami memperkenalkan TextGrad, sebuah kerangka kerja kuat yang melakukan 'diferensiasi' otomatis melalui teks. TextGrad melakukan backpropagation atas umpan balik tekstual yang diberikan oleh LLM untuk meningkatkan komponen individual dari sistem AI majemuk. Dalam kerangka kerja kami, LLM memberikan saran bahasa alami yang kaya, umum, dan natural untuk mengoptimalkan variabel dalam graf komputasi, mulai dari potongan kode hingga struktur molekul. TextGrad mengikuti sintaks dan abstraksi PyTorch serta fleksibel dan mudah digunakan. Ia dapat langsung digunakan untuk berbagai tugas, di mana pengguna hanya perlu menyediakan fungsi objektif tanpa menyesuaikan komponen atau prompt dalam kerangka kerja. Kami menunjukkan efektivitas dan generalitas TextGrad di berbagai aplikasi, mulai dari tanya jawab dan optimasi molekul hingga perencanaan terapi radiasi. Tanpa memodifikasi kerangka kerja, TextGrad meningkatkan akurasi zero-shot GPT-4o pada Google-Proof Question Answering dari $51%$ menjadi $55%$, menghasilkan peningkatan performa relatif sebesar $20%$ dalam optimasi solusi masalah coding LeetCode-Hard, memperbaiki prompt untuk penalaran, merancang molekul kecil baru mirip obat dengan ikatan in silico yang diinginkan, dan merancang rencana perawatan onkologi radiasi dengan spesifisitas tinggi. TextGrad meletakkan dasar untuk mempercepat pengembangan sistem AI generasi berikutnya.
AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.
Tautan makalah
https://arxiv.org/abs/2406.07496v1
Baca selengkapnya
https://x.com/james_y_zou/status/1800917174124740667
Apakah model bahasa berkonteks panjang dapat menggantikan retrieval, RAG, SQL, dan lainnya? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
Pengenalan makalah
Melakukan analisis performa mendalam terhadap LLM berkonteks panjang pada retrieval dan penalaran dalam konteks, pertama-tama menyajikan benchmark dengan tugas dunia nyata yang membutuhkan konteks 1 juta token, melaporkan bahwa LLM berkonteks panjang dapat menyaingi sistem retrieval dan RAG mutakhir tanpa pelatihan eksplisit pada tugas-tugas tersebut, mengusulkan bahwa penalaran komposisional (yang dibutuhkan dalam tugas mirip SQL) masih menantang bagi LLM ini, serta menekankan perlunya riset berkelanjutan pada strategi prompting tingkat lanjut karena mereka mencatat peningkatan performa yang signifikan saat menerapkannya pada masalah konteks panjang.
Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.
Abstrak makalah
Model bahasa konteks panjang (LCLM) memiliki potensi untuk merevolusi pendekatan terhadap tugas-tugas yang sebelumnya bergantung pada alat eksternal seperti sistem pencarian atau basis data. Dengan memanfaatkan kemampuan LCLM untuk secara native menyerap dan memproses seluruh korpus informasi, ada banyak keuntungan yang bisa diperoleh. Ini meningkatkan kemudahan penggunaan karena menghilangkan kebutuhan akan keahlian khusus terhadap alat, menyediakan pemodelan end-to-end yang kuat yang meminimalkan error berantai dalam pipeline yang kompleks, serta memungkinkan penerapan teknik prompting yang canggih di seluruh sistem. Untuk mengevaluasi pergeseran paradigma ini, diperkenalkan LOFT, sebuah benchmark tugas dunia nyata yang membutuhkan konteks hingga jutaan token dan dirancang untuk menilai performa LCLM dalam retrieval dan penalaran dalam konteks. Hasil penelitian menunjukkan bahwa LCLM memiliki kemampuan yang mengejutkan untuk menyaingi sistem retrieval dan RAG mutakhir, meskipun tidak pernah dilatih secara eksplisit untuk tugas-tugas ini. Namun, LCLM masih menghadapi kesulitan di area seperti penalaran komposisional yang dibutuhkan dalam tugas mirip SQL. Secara khusus, strategi prompting sangat memengaruhi performa, sehingga menegaskan perlunya riset lanjutan seiring panjang konteks yang terus bertambah. Secara keseluruhan, LOFT menyediakan medan uji yang ketat untuk LCLM, sekaligus menunjukkan potensinya untuk menggantikan paradigma yang ada dan menangani tugas-tugas baru seiring kemampuan model yang terus berkembang.
Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.
Tautan paper
https://arxiv.org/abs/2406.13121
Baca lebih lanjut
https://github.com/google-deepmind/loft
https://x.com/omarsar0/status/1804184820806766875
PlanRAG: Retrieval-Augmented Generation dengan pendekatan rencanakan-lalu-cari untuk model bahasa besar generatif sebagai pengambil keputusan / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
Pengantar paper
Meningkatkan pengambilan keputusan dengan teknik RAG baru yang disebut iterative plan-then-RAG (PlanRAG), yang terdiri dari dua tahap: 1) LM menghasilkan rencana untuk pengambilan keputusan dengan meninjau skema data dan pertanyaan, dan 2) retriever menghasilkan kueri untuk analisis data. Pada tahap terakhir, sistem memeriksa apakah diperlukan rencana baru untuk analisis lanjutan lalu mengulangi langkah sebelumnya atau membuat keputusan berdasarkan data. PlanRAG ditemukan lebih efektif dibandingkan iterative RAG pada tugas Decision QA yang diusulkan.
Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.
Abstrak paper
Makalah ini meneliti pemanfaatan LLM sebagai solusi untuk pengambilan keputusan yang memerlukan analisis data kompleks. Decision QA didefinisikan sebagai tugas untuk menjawab keputusan terbaik, $d_{best}$, bagi pertanyaan pengambilan keputusan $Q$, aturan bisnis $R$, dan basis data $D$. Karena belum ada benchmark yang dapat mengevaluasi Decision QA, mereka mengusulkan benchmark Decision QA bernama DQA. Benchmark ini memiliki dua skenario, Locating dan Building, yang dibangun dari dua video game (Europa Universalis IV dan Victoria 3) yang memiliki tujuan hampir sama dengan Decision QA. Untuk menangani Decision QA secara efektif, mereka juga mengusulkan teknik RAG baru yang disebut iterative plan-then-retrieval augmented generation (PlanRAG). LM berbasis PlanRAG mereka menghasilkan rencana untuk pengambilan keputusan pada langkah pertama, lalu retriever menghasilkan kueri untuk analisis data pada langkah kedua. Metode yang diusulkan mengungguli metode iterative RAG state-of-the-art masing-masing sebesar 15.8% pada skenario Locating dan 7.4% pada skenario Building. Kode dan benchmark tersedia di https://github.com/myeon9h/PlanRAG.
In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.
Tautan makalah
https://arxiv.org/abs/2406.12430
Baca lebih lanjut
https://github.com/myeon9h/PlanRAG
https://x.com/omarsar0/status/1803262374574448757
Jangan menghafal seperti ikan mas! Mengurangi memorisasi pada LLM generatif / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
Pengenalan makalah
Goldfish loss memodifikasi objective prediksi token berikutnya untuk mengurangi generasi literal dari data pelatihan yang dihafal, menggunakan teknik sederhana yang mengecualikan subset pseudo-acak dari token pelatihan saat training, dan menunjukkan bahwa goldfish loss tahan terhadap memorisasi serta tetap menjaga kegunaan model, meski mungkin memerlukan training lebih lama agar dapat belajar lebih efektif dari data pelatihan.
Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.
Abstrak makalah (Abstract)
Model bahasa skala besar dapat menghafal dan mengulang data pelatihannya, sehingga menimbulkan risiko privasi dan hak cipta. Untuk mengurangi memorisasi, mereka memperkenalkan modifikasi halus pada objective pelatihan token berikutnya yang mereka sebut goldfish loss. Selama training, subset token yang diambil secara acak dikecualikan dari perhitungan loss. Token yang dihilangkan ini tidak dihafal oleh model, sehingga dapat mencegah reproduksi literal dari rangkaian token lengkap dari set pelatihan. Mereka menjalankan eksperimen ekstensif dengan melatih model Llama-2 berskala miliaran parameter, baik yang sudah dipra-latih maupun yang dilatih dari awal, dan menunjukkan penurunan signifikan pada memorisasi yang dapat diekstrak dengan dampak yang kecil atau nyaris tidak ada pada benchmark downstream.
Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.
Tautan makalah
https://arxiv.org/abs/2406.10209
Baca lebih lanjut
https://github.com/ahans30/goldfish-loss
https://x.com/omarsar0/status/1802729440163647754
Mengakses solusi Olimpiade Matematika setingkat GPT-4 melalui self-refine Monte Carlo Tree dengan LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
Pengenalan makalah
Dilaporkan berhasil mencapai solusi Olimpiade Matematika setingkat GPT-4 dengan menggunakan pendekatan yang mengintegrasikan LLM dan Monte Carlo Tree Search; pendekatan ini berfokus pada peningkatan kinerja penalaran matematis sistem melalui kemampuan seperti eksplorasi sistematis, self-refinement, dan self-evaluation.
Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.
Abstrak makalah (Abstract)
Makalah putih ini memperkenalkan algoritma MCT Self-Refine (MCTSr), sebuah integrasi inovatif antara Large Language Models (LLM) dan Monte Carlo Tree Search (MCTS), yang dirancang untuk meningkatkan kinerja pada tugas penalaran matematis yang kompleks. Secara khusus, MCTSr mengatasi masalah akurasi dan keandalan LLM dalam penalaran strategis dan matematis dengan memanfaatkan eksplorasi sistematis serta mekanisme self-refine heuristik untuk memperbaiki kerangka pengambilan keputusan di dalam LLM. Algoritma ini membangun pohon pencarian Monte Carlo melalui proses berulang berupa Selection, self-refine, self-evaluation, dan Backpropagation, serta menggunakan rumus Upper Confidence Bound (UCB) yang ditingkatkan untuk mengoptimalkan keseimbangan eksplorasi-eksploitasi. Melalui eksperimen yang luas, efektivitas MCTSr dalam memecahkan soal matematika tingkat olimpiade telah dibuktikan, dengan peningkatan signifikan pada tingkat keberhasilan di berbagai dataset seperti GSM8K, GSM Hard, MATH, serta benchmark tingkat olimpiade seperti Math Odyssey, AIME, dan OlympiadBench. Studi ini memajukan penerapan LLM pada tugas penalaran kompleks dan meletakkan dasar bagi integrasi AI di masa depan, sekaligus meningkatkan akurasi dan keandalan pengambilan keputusan dalam aplikasi berbasis LLM.
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.
Tautan makalah
https://arxiv.org/abs/2406.07394v2
Baca lebih lanjut
https://x.com/rohanpaul_ai/status/1801259208341373013
Dari RAG ke parameter yang kaya: Menyelidiki bagaimana model bahasa memanfaatkan pengetahuan eksternal dibandingkan informasi parametrik untuk kueri faktual / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
Pengantar makalah
Hasil investigasi yang lebih mendalam tentang bagaimana LLM memanfaatkan pengetahuan eksternal dibandingkan informasi parametrik untuk kueri faktual menemukan bahwa, dalam pipeline RAG, LLM cenderung mengambil “jalan pintas” dan memiliki bias kuat untuk hanya menggunakan informasi konteks guna menjawab pertanyaan, sambil sangat minim mengandalkan memori parametriknya.
Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.
Abstrak makalah (Abstract)
Retrieval Augmented Generation (RAG) memperkaya kemampuan model bahasa untuk bernalar menggunakan konteks eksternal guna memperkuat respons terhadap prompt pengguna tertentu. Pendekatan ini semakin populer berkat penerapannya secara praktis dalam berbagai penggunaan model bahasa seperti pencarian, tanya jawab, dan chatbot. Namun, karakteristik pasti tentang bagaimana pendekatan ini bekerja masih belum dipahami dengan jelas. Dalam makalah ini, kami menelaah pipeline RAG secara mekanistis untuk menyoroti bahwa model bahasa mengambil jalan pintas dan memiliki bias kuat untuk hanya memanfaatkan informasi konteks dalam menjawab pertanyaan, dengan ketergantungan yang sangat minim pada memori parametriknya. Kami menyelidiki perilaku mekanistis ini pada model bahasa melalui: (i) Causal Mediation Analysis untuk menunjukkan bahwa memori parametrik hanya dimanfaatkan secara minimal saat menjawab pertanyaan dan (ii) Attention Contributions dan Knockouts untuk menunjukkan bahwa residual stream token terakhir tidak diperkaya oleh token subjek dalam pertanyaan, melainkan diperkaya oleh token informatif lain dalam konteks. Kami menemukan bahwa perilaku jalan pintas yang menonjol ini berlaku pada keluarga model LLaMa maupun Phi.
Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.
Tautan makalah
https://arxiv.org/abs/2406.12824
Baca lebih lanjut
https://x.com/omarsar0/status/1803254134289895555
Open-Sora
Pengantar makalah
Model pembangkitan video open-source yang dapat menghasilkan video 720p berdurasi 16 detik, model berparameter 1,1 miliar yang dilatih dengan lebih dari 30 juta data dan kini mendukung image-to-video, serta menghadirkan model difusi yang ditingkatkan dan jaringan kompresi video untuk kompresi spasial dan temporal, sehingga meningkatkan keterkendalian generasi dan menurunkan biaya pelatihan.
An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.
Tautan paper
[IMG] Open-Sora 1.2 Report|1028x812
Baca lebih lanjut
https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794
https://x.com/omarsar0/status/1803176105010171957
Pencarian Pohon untuk Agen Model Bahasa / Tree Search for Language Model Agents
Pengantar paper
Mengusulkan algoritma pencarian pohon saat inferensi yang memungkinkan agen LM melakukan eksplorasi dan penalaran multi-langkah, mengujinya di lingkungan web interaktif dan menerapkannya pada GPT-4o untuk secara signifikan meningkatkan performa, serta menunjukkan bahwa performa meningkat seiring bertambahnya komputasi saat pengujian.
Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.
Abstrak paper (Abstract)
Agen otonom yang ditenagai oleh language model (LM) telah menunjukkan potensi dalam kemampuannya menjalankan tugas pengambilan keputusan seperti otomatisasi web. Namun, masih ada tantangan mendasar: LM, yang terutama dioptimalkan untuk pemahaman dan generasi bahasa alami, kesulitan dalam penalaran multi-langkah, perencanaan, dan memanfaatkan umpan balik lingkungan ketika mencoba menyelesaikan tugas komputer yang realistis. Untuk mengatasi hal ini, kami mengusulkan algoritma pencarian saat inferensi bagi agen LM agar secara eksplisit dapat melakukan eksplorasi dan perencanaan multi-langkah di lingkungan web interaktif. Pendekatan kami merupakan bentuk best-first tree search yang beroperasi di dalam ruang lingkungan nyata, dan bersifat komplementer dengan sebagian besar agen state-of-the-art yang ada. Ini adalah algoritma tree search pertama untuk agen LM yang menunjukkan efektivitas pada tugas web realistis. Pada benchmark VisualWebArena yang menantang, penerapan algoritma pencarian kami di atas agen GPT-4o menghasilkan peningkatan relatif tingkat keberhasilan sebesar 39,7% dibandingkan baseline yang sama tanpa pencarian, sekaligus mencatat tingkat keberhasilan state-of-the-art sebesar 26,4%. Di WebArena, pencarian juga menghasilkan peningkatan relatif 28,0% dibanding agen baseline, dengan tingkat keberhasilan kompetitif sebesar 19,2%. Eksperimen kami menyoroti efektivitas pencarian untuk agen web, dan menunjukkan bahwa performa meningkat seiring bertambahnya komputasi saat pengujian. Kami melakukan analisis menyeluruh atas hasil kami untuk menyoroti peningkatan dari pencarian, keterbatasan, dan arah yang menjanjikan untuk pekerjaan selanjutnya.
Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.
Tautan paper
https://jykoh.com/search-agents/paper.pdf
Baca lebih lanjut
https://jykoh.com/search-agents
https://x.com/kohjingyu/status/1803604487216701653
Artikel asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c0f
Tulisan ini dirangkum menggunakan model GPT, sehingga mungkin ada bagian yang kurang tepat, jadi mohon lihat juga artikel asli di bagian bawah! Jika saat membaca Anda menemukan isi yang terasa janggal atau keliru, mohon beri tahu lewat komentar. 🤗
⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email💌! (Default-nya Weekly, tetapi bisa juga diubah ke Daily.)
Belum ada komentar.