[2023/11/20 ~ 11/26] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)

Ikhtisar

Kami telah mencoba menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
Makalah yang dipilih minggu ini terutama menunjukkan kecenderungan terkait 'Large Language Models(LLMs)', 'Reasoning and Attention in AI System', serta 'Artificial Intelligence in Medical Domain'.
Secara khusus, topik 'Reasoning and Attention in AI System' tampak sangat menonjol. Ini mencerminkan upaya agar kecerdasan buatan melampaui sekadar pengenalan pola, menuju kemampuan penalaran dan pemecahan masalah yang mirip manusia.
Riset mengenai pemanfaatan kecerdasan buatan di bidang medis juga patut diperhatikan. 'LLMs as Collaborators for Medical Reasoning' adalah contoh penting di bidang ini, yang mengeksplorasi potensi penerapan LLM (model bahasa besar) dalam menangani data medis.
Singkatnya, makalah yang dipilih minggu ini menunjukkan banyak riset yang berfokus pada pengembangan kemampuan penalaran kompleks dan mekanisme pemusatan perhatian yang menyerupai manusia, serta penerapan kecerdasan buatan di bidang medis; ini dapat ditafsirkan sebagai indikator penting arah perkembangan teknologi AI.

System 2 Attention (sesuatu yang mungkin juga Anda butuhkan) / System 2 Attention (is something you might need too)

Pengenalan makalah

Dengan memanfaatkan kemampuan penalaran dan mengikuti instruksi dari LLM, metode ini menentukan apa yang perlu diperhatikan, lalu meregenerasi konteks input agar hanya mencakup bagian yang relevan sebelum memberi perhatian pada konteks yang telah diregenerasi untuk menghasilkan respons akhir model; metode ini meningkatkan faktualitas dan menunjukkan kinerja yang lebih baik daripada LLM berbasis attention standar pada tugas seperti QA dan soal cerita matematika.

Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

Abstrak makalah

Soft attention pada Large Language Models (LLM) berbasis Transformer rentan mengintegrasikan informasi yang tidak relevan dari konteks ke dalam representasi laten, yang berdampak buruk pada generasi token berikutnya. Untuk membantu mengatasi masalah ini, kami memperkenalkan System 2 Attention (S2A), yang memanfaatkan kemampuan LLM untuk bernalar dalam bahasa alami dan mengikuti instruksi guna menentukan apa yang perlu diperhatikan. S2A meregenerasi konteks input agar hanya mencakup bagian yang relevan, sebelum menerapkan attention pada konteks yang telah diregenerasi untuk memperoleh respons akhir. Dalam eksperimen, S2A menunjukkan kinerja yang lebih baik daripada LLM berbasis attention standar pada tiga tugas yang mengandung opini atau informasi tidak relevan, yaitu QA, soal cerita matematika, dan generasi longform, di mana S2A meningkatkan faktualitas dan objektivitas, serta mengurangi sycophancy.

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

Tautan makalah

https://arxiv.org/abs/2311.11829

Baca lebih lanjut

https://x.com/jaseweston/status/1726784511357157618

Memajukan arsitektur Transformer pada Large Language Models berkonteks panjang: survei komprehensif / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Pengenalan makalah

Gambaran umum metodologi untuk meningkatkan modul arsitektur transformer yang mengoptimalkan kemampuan konteks panjang di seluruh tahap, dari pre-training hingga inference.

An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

Abstrak makalah

Large Language Model (LLM) berbasis Transformer yang dipicu oleh ChatGPT telah membuka jalan revolusioner menuju Artificial General Intelligence (AGI) dan diterapkan di berbagai bidang seperti basis pengetahuan, antarmuka manusia, dan agen dinamis. Namun, banyak LLM saat ini yang dibatasi oleh sumber daya umumnya terutama dipra-latih pada teks pendek, sehingga memiliki keterbatasan berupa efisiensi yang lebih rendah untuk prompt dengan konteks panjang yang umum ditemui di lingkungan nyata. Makalah ini menyajikan survei komprehensif yang berfokus pada perkembangan arsitektur model LLM berbasis Transformer untuk mengoptimalkan kemampuan konteks panjang di seluruh tahapan, dari pra-pelatihan hingga inferensi. Pertama, makalah ini mengidentifikasi dan menganalisis masalah yang muncul saat menangani input dan output berkonteks panjang pada model berbasis Transformer saat ini. Selanjutnya, makalah ini terutama menawarkan taksonomi menyeluruh untuk menelusuri lanskap peningkatan Transformer pada sisi arsitektur guna menyelesaikan masalah-masalah tersebut. Setelah itu, makalah ini memperkenalkan toolkit optimasi yang menonjol seperti library, sistem, dan compiler yang meningkatkan efisiensi dan efektivitas LLM di berbagai tahap, bersama survei atas elemen evaluasi penting yang umum digunakan untuk LLM berkonteks panjang, termasuk dataset, metrik, dan model baseline. Terakhir, makalah ini membahas tantangan utama di bidang ini serta arah potensial untuk riset mendatang. Selain itu, telah dibangun repositori yang mengkurasi literatur terkait dan diperbarui secara real-time (https://github.com/Strivin0311/long-llms-learning).

Dengan ledakan yang dipicu oleh ChatGPT, Large Language Model (LLM) berbasis Transformer telah membuka jalan revolusioner menuju Artificial General Intelligence (AGI) dan diterapkan di berbagai area sebagai basis pengetahuan, antarmuka manusia, dan agen dinamis. Namun, ada keterbatasan yang dominan: banyak LLM saat ini, yang dibatasi oleh sumber daya, terutama dipra-latih pada teks yang lebih pendek, sehingga kurang efektif untuk prompt dengan konteks lebih panjang yang umum dijumpai di lingkungan dunia nyata. Dalam makalah ini, kami menyajikan survei komprehensif yang berfokus pada kemajuan arsitektur model dalam LLM berbasis Transformer untuk mengoptimalkan kemampuan konteks panjang di seluruh tahapan dari pra-pelatihan hingga inferensi. Pertama, kami menguraikan dan menganalisis permasalahan penanganan input dan output berkonteks panjang pada model berbasis Transformer saat ini. Kemudian, kami terutama menawarkan taksonomi holistik untuk menavigasi lanskap peningkatan Transformer pada arsitektur guna menyelesaikan masalah-masalah ini. Setelah itu, kami menyajikan kajian atas kebutuhan evaluasi yang banyak digunakan dan disesuaikan untuk LLM berkonteks panjang, termasuk dataset, metrik, dan model baseline, serta beberapa toolkit optimasi yang luar biasa seperti library, sistem, dan compiler untuk meningkatkan efisiensi dan efektivitas LLM di berbagai tahap. Terakhir, kami juga membahas tantangan dominan dan jalur potensial untuk riset masa depan di domain ini. Selain itu, kami telah membangun repositori tempat kami mengkurasi literatur terkait dengan pembaruan real-time di https://github.com/Strivin0311/long-llms-learning.

Tautan makalah

https://arxiv.org/abs/2311.12351

Baca lebih lanjut

https://x.com/omarsar0/status/1727358484360945750

PaSS: Speculative Sampling Paralel / PaSS: Parallel Speculative Sampling

Pengantar makalah

Sebuah pendekatan untuk mengurangi waktu inferensi LLM berdasarkan varian speculative sampling dan parallel decoding; mencapai peningkatan kecepatan yang signifikan (hingga 30%) dengan hanya melatih parameter tambahan sebesar $O(d_{emb})$.

Pendekatan untuk mengurangi waktu inferensi LLM berdasarkan varian speculative sampling dan parallel decoding; mencapai peningkatan kecepatan yang signifikan (hingga 30%) hanya dengan mempelajari parameter tambahan sekecil $O(d_{emb})$.

Abstrak makalah

Memperbesar ukuran model bahasa hingga puluhan miliar parameter telah menghasilkan performa yang mengesankan pada berbagai macam tugas. Saat generasi, model-model ini digunakan secara auto-regresif, sehingga memerlukan satu forward pass untuk setiap token yang dihasilkan, dan karena itu harus membaca seluruh kumpulan parameter dari memori. Akses memori ini menjadi hambatan utama dalam generasi dan semakin memburuk seiring bertambahnya ukuran model. Selain itu, menjalankan forward pass untuk beberapa token secara paralel sering kali memakan waktu yang hampir sama dengan forward pass untuk satu token saja. Dua pengamatan ini mendorong pengembangan speculative sampling, di mana model kedua yang lebih kecil digunakan untuk menyusun draf beberapa token, lalu divalidasi atau ditolak menggunakan satu forward pass dari model besar. Sayangnya, metode ini memerlukan dua model yang berbagi tokenizer yang sama sehingga membatasi adopsinya. Sebagai alternatif, kami mengusulkan penggunaan parallel decoding sebagai cara untuk menyusun draf beberapa token dari satu model tunggal tanpa biaya komputasi tambahan maupun kebutuhan akan model kedua. Pendekatan kami hanya memerlukan satu token input tambahan yang menandai kata-kata yang akan dihasilkan secara bersamaan. Kami menunjukkan performa yang menjanjikan (hingga peningkatan kecepatan $30%$) sambil hanya memerlukan parameter tambahan sesedikit $O(d_{emb})$.

Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

Tautan makalah

https://arxiv.org/abs/2311.13581

Baca lebih lanjut

https://x.com/omarsar0/status/1728066181796418009

Mirasol3B: Model Autoregresif Multimodal untuk Modalitas yang Selaras Waktu dan Kontekstual / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Pengantar makalah

Sebuah model multimodal untuk pembelajaran yang mencakup audio, video, dan teks, yang memisahkan pemodelan multimodal menjadi model-model autoregresif terpisah yang terfokus; input diproses sesuai dengan modalitasnya; pendekatan ini dapat menangani video yang lebih panjang dibandingkan model lain dan mengungguli pendekatan state-of-the-art pada benchmark video QA, long video QA, dan audio-video-text.

A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

Abstrak makalah

Salah satu tantangan utama dalam pembelajaran multimodal adalah perlunya menggabungkan modalitas yang heterogen (misalnya video, audio, teks). Sebagai contoh, video dan audio diperoleh pada laju yang jauh lebih tinggi daripada teks dan secara temporal kurang lebih selaras. Keduanya sering kali tidak tersinkron dengan teks, yang hadir sebagai konteks global, misalnya judul atau deskripsi. Selain itu, input video dan audio memiliki volume yang jauh lebih besar, dan terus bertambah seiring panjang video meningkat, yang secara alami membutuhkan komputasi lebih banyak yang didedikasikan untuk modalitas ini serta membuat pemodelan dependensi jarak jauh menjadi lebih sulit. Di sini, pemodelan multimodal dipisahkan dengan membaginya ke dalam model autoregresif terpisah yang terfokus, yang memproses input sesuai karakteristik tiap modalitas. Kami mengusulkan model multimodal bernama Mirasol3B, yang terdiri dari komponen autoregresif untuk modalitas yang tersinkron secara waktu (audio dan video), serta komponen autoregresif untuk modalitas konteks yang tidak harus selaras secara temporal tetapi tetap bersifat sekuensial. Untuk menangani sekuens panjang dari input video-audio, kami mengusulkan untuk membagi lebih lanjut sekuens video dan audio menjadi snippet berurutan dan memproses representasinya secara autoregresif. Untuk itu, kami mengusulkan mekanisme Combiner, yang memodelkan informasi audio-video secara bersama dalam suatu rentang waktu. Combiner belajar mengekstrak fitur audio dan video dari sinyal spasio-temporal mentah, lalu mempelajari cara menggabungkan fitur-fitur ini untuk menghasilkan representasi per snippet yang ringkas namun ekspresif. Pendekatan kami mencapai kinerja state-of-the-art pada benchmark multimodal yang telah mapan, mengungguli model yang jauh lebih besar. Pendekatan ini secara efektif mengatasi tingginya kebutuhan komputasi dari input media dengan mempelajari representasi yang ringkas, mengendalikan panjang sekuens representasi fitur audio-video, dan memodelkan dependensinya dalam waktu.

Tautan makalah

https://arxiv.org/abs/2311.05698

Baca lebih lanjut

https://x.com/GoogleAI/status/1724553024088191211

Orca 2: Mengajarkan Cara Bernalar kepada Model Bahasa Kecil / Orca 2: Teaching Small Language Models How to Reason

Pengantar makalah

Mengusulkan pendekatan untuk mengajarkan penalaran kepada model bahasa yang lebih kecil. Secara spesifik, model ini dianggap menggunakan teknik penalaran seperti pemrosesan langkah demi langkah, recall-then-generate, recall-reason-generate, extract-generate, dan direct-answer; melampaui model berukuran serupa dan mencapai tingkat performa yang setara atau lebih baik daripada model yang 5-10x lebih besar, sebagaimana dinilai pada tugas-tugas kompleks yang menguji kemampuan penalaran tingkat lanjut dalam pengaturan zero-shot.

Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

Abstrak makalah

Orca 1 belajar dari sinyal yang kaya, seperti jejak penjelasan, sehingga mampu mengungguli model instruction-tuned konvensional pada benchmark seperti BigBench Hard dan AGIEval. Di Orca 2, penelitian dilanjutkan untuk mengeksplorasi bagaimana sinyal pelatihan yang ditingkatkan dapat meningkatkan kemampuan penalaran LM berukuran kecil. Riset pelatihan LM kecil sering kali mengandalkan imitation learning untuk meniru keluaran model yang lebih mumpuni. Namun, mereka berpendapat bahwa penekanan berlebihan pada imitasi dapat membatasi potensi model kecil. Tujuannya adalah mengajarkan LM kecil untuk menggunakan strategi solusi yang berbeda untuk berbagai tugas, yang bisa jadi berbeda dari yang digunakan model besar. Misalnya, model besar mungkin dapat memberikan jawaban langsung untuk tugas yang kompleks, tetapi model kecil mungkin tidak memiliki kapasitas yang sama. Dalam Orca 2, model diajarkan berbagai teknik penalaran (langkah demi langkah, recall lalu generate, recall-reason-generate, jawaban langsung, dan sebagainya). Yang lebih penting, model dibantu untuk mempelajari cara menentukan strategi solusi yang paling efektif untuk setiap tugas. Orca 2 dievaluasi menggunakan kumpulan komprehensif berisi 15 benchmark yang beragam (setara dengan sekitar 100 tugas dan lebih dari 36.000 prompt unik). Orca 2 secara signifikan melampaui model dengan ukuran serupa dan mencapai tingkat performa yang setara atau lebih baik daripada model yang 5-10x lebih besar, berdasarkan evaluasi pada tugas kompleks yang menguji kemampuan penalaran tingkat lanjut dalam pengaturan zero-shot. Untuk mendukung riset tentang pengembangan, evaluasi, dan alignment LM yang lebih kecil, bobot Orca 2 tersedia secara publik di aka.ms/orca-lm

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

Tautan makalah

https://arxiv.org/abs/2311.11045

Baca selengkapnya

https://x.com/omarsar0/status/1726990087399915995

GPQA: Benchmark Tanya Jawab Google-Proof Tingkat Pascasarjana / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Pengantar makalah

Mengusulkan benchmark QA tingkat pascasarjana yang tahan terhadap pencarian Google, terdiri dari 448 soal pilihan ganda yang ditulis oleh para ahli domain di bidang biologi, fisika, dan kimia. Baseline berbasis GPT-4 terkuat mencapai akurasi 39%, dan benchmark ini menyediakan eksperimen oversight yang skalabel untuk membantu memperoleh informasi yang andal dan jujur dari sistem AI modern yang melampaui kemampuan manusia.

Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

Abstrak makalah

Kami memperkenalkan GPQA, sebuah dataset menantang yang terdiri dari 448 pertanyaan pilihan ganda tingkat tinggi yang disusun oleh para ahli di bidang biologi, fisika, dan kimia. Pertanyaan-pertanyaan ini dipastikan berkualitas tinggi dan sangat sulit: para ahli yang telah atau sedang menempuh PhD di bidang terkait mencapai akurasi 65% (74% jika kesalahan yang jelas dan baru disadari para ahli saat meninjau ulang dikecualikan), sementara validator non-ahli yang sangat terampil hanya mencapai akurasi 34%, meskipun rata-rata menghabiskan lebih dari 30 menit dengan akses web tanpa batas (artinya, pertanyaannya telah terbukti "Google-proof"). Pertanyaan-pertanyaan ini juga sulit bagi sistem AI mutakhir, dengan baseline terkuat berbasis GPT-4 kami hanya mencapai akurasi 39%. Jika kita ingin menggunakan sistem AI masa depan untuk membantu menjawab pertanyaan yang sangat sulit, misalnya saat mengembangkan pengetahuan ilmiah baru, kita perlu mengembangkan metode oversight yang scalable agar manusia dapat mengawasi keluarannya, yang bisa jadi sulit bahkan jika pengawasnya sendiri terampil dan berpengetahuan. Tingkat kesulitan GPQA, baik bagi non-ahli terampil maupun sistem AI frontier, memungkinkan eksperimen scalable oversight yang realistis, yang kami harapkan dapat membantu merancang cara agar para ahli manusia dapat secara andal memperoleh informasi yang benar dari sistem AI yang melampaui kemampuan manusia.

We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

Tautan makalah

https://arxiv.org/abs/2311.12022

Baca lebih lanjut

https://x.com/idavidrein/status/1727033002234909060

Menyalakan Kecerdasan Bahasa: Panduan Hitchhiker dari Penalaran Chain-of-Thought (CoT) ke Agen Bahasa / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Pengenalan makalah

Ringkasan tentang penalaran CoT (Chain-of-Thought), mekanisme dasar yang mendasari teknik CoT (Chain-of-Thought), serta penerapannya pada framework agen bahasa.

Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

Abstrak makalah

Model bahasa besar (LLM) telah secara dramatis meningkatkan bidang kecerdasan bahasa, sebagaimana dibuktikan oleh performa empirisnya yang sangat kuat pada beragam tugas penalaran kompleks. Selain itu, pembuktian teoretis juga telah menyoroti kemampuan penalaran emergen mereka, memberikan demonstrasi yang meyakinkan atas kemampuan kognitif tingkat lanjut dalam konteks kebahasaan. Faktor penting di balik efektivitas luar biasa LLM dalam menangani tugas penalaran kompleks adalah pemanfaatan teknik penalaran chain-of-thought (CoT), yang mengharuskan model merumuskan langkah-langkah perantara untuk mencapai jawaban. Pendekatan penalaran CoT tidak hanya terbukti mampu meningkatkan performa penalaran, tetapi juga meningkatkan interpretabilitas, kontrolabilitas, dan fleksibilitas. Berdasarkan keunggulan tersebut, berbagai upaya riset terbaru telah memperluas metodologi penalaran CoT untuk mendorong pengembangan agen bahasa otonom yang mampu mengikuti instruksi bahasa dan menjalankan tindakan dengan baik di berbagai lingkungan. Makalah survei ini menyusun pembahasan menyeluruh yang menembus dimensi-dimensi riset penting, mencakup: (i) mekanisme dasar teknik CoT, dengan fokus pada penjelasan kondisi dan justifikasi di balik efektivitasnya; (ii) pergeseran paradigma dalam CoT; dan (iii) perkembangan pesat agen bahasa yang diperkuat oleh pendekatan CoT. Arah riset ke depan mencakup eksplorasi terkait generalisasi, efisiensi, kustomisasi, penskalaan, dan keamanan. Makalah ini ditujukan untuk pembaca yang luas, mulai dari pemula yang ingin memperoleh pemahaman komprehensif tentang penalaran CoT dan agen bahasa, hingga peneliti berpengalaman yang tertarik pada mekanisme fundamental dan ingin mengikuti diskusi mutakhir mengenai topik-topik ini. Repositori untuk makalah terkait tersedia di https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Tautan makalah

https://arxiv.org/abs/2311.11797

Baca lebih lanjut

https://x.com/omarsar0/status/1726803725220487277

GAIA: benchmark untuk asisten AI umum / GAIA: a benchmark for General AI Assistants

Pengantar makalah

Menurut benchmark untuk asisten AI umum yang terdiri dari pertanyaan dunia nyata dan membutuhkan serangkaian kemampuan dasar seperti penalaran, pemrosesan multimodal, penelusuran web, serta kemahiran umum dalam penggunaan alat, responden manusia meraih skor 92%, sedangkan GPT-4 yang dilengkapi plugin memperoleh 15%.

A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

Abstrak makalah

Memperkenalkan GAIA, sebuah benchmark untuk General AI Assistants yang, jika berhasil dipecahkan, akan menjadi tonggak penting dalam riset AI. GAIA mengajukan pertanyaan dunia nyata yang memerlukan serangkaian kemampuan dasar seperti penalaran, penanganan multimodal, penelusuran web, dan secara umum kemahiran menggunakan alat. Pertanyaan-pertanyaan GAIA secara konseptual sederhana bagi manusia, tetapi menantang bagi sebagian besar AI canggih. Responden manusia mencatat tingkat jawaban benar 92%, sedangkan GPT-4 yang dilengkapi plugin mencapai 15%. Kesenjangan performa yang mencolok ini bertolak belakang dengan tren terbaru ketika LLM melampaui manusia pada tugas yang membutuhkan keahlian profesional seperti hukum atau kimia. Filosofi GAIA berangkat dari tren benchmark AI saat ini yang menargetkan tugas yang semakin sulit bagi manusia. Kami berasumsi bahwa kemunculan Artificial General Intelligence (AGI) bergantung pada kemampuan sistem untuk menunjukkan ketangguhan yang serupa dengan manusia rata-rata dalam menjawab pertanyaan semacam ini. Dengan menggunakan metodologi GAIA, kami menyusun 466 pertanyaan beserta jawabannya. Kami merilis pertanyaannya, dan jawaban untuk 300 di antaranya dipublikasikan melalui leaderboard yang tersedia di https://huggingface.co/gaia-benchmark.

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

Tautan makalah

https://arxiv.org/abs/2311.12983

Baca selengkapnya

https://x.com/ThomasScialom/status/1727683993045201339

MedAgents: Large Language Models sebagai Kolaborator untuk Penalaran Medis Zero-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Pengenalan makalah

Mengusulkan kerangka kerja kolaboratif multi-putaran untuk domain medis yang memanfaatkan agen berbasis LLM dengan role-playing untuk meningkatkan kemahiran dan kemampuan penalaran LLM.

Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

Abstrak makalah

Large Language Models (LLM), meskipun telah menunjukkan kemajuan luar biasa di berbagai domain umum, masih menghadapi hambatan besar di bidang kedokteran dan layanan kesehatan. Bidang ini memiliki tantangan unik seperti terminologi khusus domain dan penalaran atas pengetahuan yang terspesialisasi. Untuk mengatasi masalah yang membandel ini, Unity mengusulkan kerangka kerja Multi-disciplinary Collaboration (MC) baru untuk domain medis. Kerangka ini memanfaatkan agen berbasis LLM dengan role-playing yang berpartisipasi dalam diskusi kolaboratif multi-putaran, sehingga meningkatkan kemahiran dan kemampuan penalaran LLM. Kerangka ini tidak memerlukan pelatihan dan dapat diinterpretasikan, serta mencakup lima langkah penting: mengumpulkan pakar domain, mengajukan analisis individu, merangkum analisis tersebut menjadi laporan, mengulangi diskusi hingga tercapai konsensus, dan pada akhirnya mengambil keputusan. Karya ini secara khusus berfokus pada skenario zero-shot, dan hasil pada sembilan dataset (MedQA, MedMCQA, PubMedQA, serta enam sub-tugas dari MMLU) menunjukkan bahwa kerangka MC yang kami usulkan unggul dalam menggali dan memanfaatkan keahlian medis dalam LLM, sekaligus memperluas kemampuan penalarannya. Berdasarkan hasil ini, kami juga melakukan evaluasi manusia untuk mengidentifikasi dan mengategorikan kesalahan umum dalam metode kami, serta studi ablasi yang bertujuan memahami dampak berbagai faktor terhadap performa keseluruhan. Detail kode dapat ditemukan di \url{https://github.com/gersteinlab/MedAgents}.

Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

Tautan makalah

https://arxiv.org/abs/2311.10537

Baca selengkapnya

https://x.com/omarsar0/status/1726627951582511135

Unta di Iklim yang Berubah: Meningkatkan Adaptasi LM dengan Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Pengantar makalah

Menyajikan rangkaian model Tülu yang ditingkatkan untuk memajukan pemahaman dan praktik terbaik dalam menyesuaikan model bahasa yang telah dipra-latih ke tugas downstream dan preferensi pengguna; rangkaian Tülu 2 mencapai performa state-of-the-art di antara model terbuka dan menyamai atau melampaui performa GPT-3.5-Turbo-0301 pada beberapa benchmark.

Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

Abstrak makalah

Sejak perilisan Tülu [Wang et al., 2023b], sumber daya terbuka untuk instruction tuning telah berkembang pesat, mulai dari model dasar yang lebih baik hingga teknik fine-tuning baru. Kami menguji dan menggabungkan sejumlah kemajuan ini ke dalam Tülu, menghasilkan Tülu 2, sebuah rangkaian model Tülu yang ditingkatkan untuk memajukan pemahaman dan praktik terbaik dalam menyesuaikan model bahasa yang telah dipra-latih ke tugas downstream dan preferensi pengguna. Secara konkret, kami merilis: (1) Tülu-V2-mix, kumpulan dataset instruksi berkualitas tinggi yang ditingkatkan; (2) Tülu 2, model LLAMA-2 yang di-fine-tune pada campuran V2; (3) Tülu 2+DPO, model Tülu 2 yang dilatih dengan direct preference optimization (DPO), termasuk model yang dilatih dengan DPO terbesar hingga saat ini (Tülu 2+DPO 70B); (4) CODE Tülu 2, model CODE LLAMA yang di-fine-tune pada campuran V2 kami dan mengungguli CODE LLAMA serta varian instruction-tuned-nya, CODE LLAMA-Instruct. Evaluasi kami dari berbagai perspektif menunjukkan bahwa rangkaian Tülu 2 mencapai performa state-of-the-art di antara model terbuka dan menyamai atau melampaui performa GPT-3.5-turbo-0301 pada beberapa benchmark. Kami merilis semua checkpoint, data, serta kode pelatihan dan evaluasi untuk memfasilitasi upaya terbuka di masa depan dalam adaptasi large language model.

Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

[2023/11/20 ~ 11/26] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)

Ikhtisar

System 2 Attention (sesuatu yang mungkin juga Anda butuhkan) / System 2 Attention (is something you might need too)

Pengenalan makalah

Abstrak makalah

Tautan makalah

Baca lebih lanjut

Memajukan arsitektur Transformer pada Large Language Models berkonteks panjang: survei komprehensif / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Pengenalan makalah

Abstrak makalah

Tautan makalah

Baca lebih lanjut

PaSS: Speculative Sampling Paralel / PaSS: Parallel Speculative Sampling

Pengantar makalah

Abstrak makalah

Tautan makalah

Baca lebih lanjut

Mirasol3B: Model Autoregresif Multimodal untuk Modalitas yang Selaras Waktu dan Kontekstual / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Pengantar makalah

Abstrak makalah

Tautan makalah

Baca lebih lanjut

Orca 2: Mengajarkan Cara Bernalar kepada Model Bahasa Kecil / Orca 2: Teaching Small Language Models How to Reason

Pengantar makalah

Abstrak makalah

Tautan makalah

Baca selengkapnya

GPQA: Benchmark Tanya Jawab Google-Proof Tingkat Pascasarjana / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Pengantar makalah

Abstrak makalah

Tautan makalah

Baca lebih lanjut

Menyalakan Kecerdasan Bahasa: Panduan Hitchhiker dari Penalaran Chain-of-Thought (CoT) ke Agen Bahasa / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Pengenalan makalah

Abstrak makalah

Tautan makalah

Baca lebih lanjut

GAIA: benchmark untuk asisten AI umum / GAIA: a benchmark for General AI Assistants

Pengantar makalah

Abstrak makalah

Tautan makalah

Baca selengkapnya

MedAgents: Large Language Models sebagai Kolaborator untuk Penalaran Medis Zero-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Pengenalan makalah

Abstrak makalah

Tautan makalah

Baca selengkapnya

Unta di Iklim yang Berubah: Meningkatkan Adaptasi LM dengan Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Pengantar makalah

Abstrak makalah

Tautan makalah

Baca selengkapnya

Artikel asli

Bacaan terkait

Belum ada komentar.