5 poin oleh ninebow 2024-09-23 | 3 komentar | Bagikan ke WhatsApp
  • Kami mencoba menerjemahkan secara otomatis tulisan tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.

  • Jika melihat makalah yang dipilih minggu ini, kita dapat menangkap beberapa kecenderungan yang menonjol. Pertama, penelitian tentang model bahasa besar (LLM) mengambil porsi yang besar. Berbagai makalah seperti 'Training LLMs to Self-Correct via RL', 'Qwen2.5 Coder', dan 'A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs' membahas peningkatan kinerja serta penerapan LLM. Ini mencerminkan bahwa LLM saat ini merupakan salah satu topik inti dalam riset AI.

  • Kedua, ada banyak penelitian yang berkaitan dengan proses berpikir kecerdasan buatan. Makalah seperti 'Diagram of Thought (DoT)', 'Iteration of Thought', dan 'To CoT or not to CoT?' mengeksplorasi secara mendalam cara berpikir atau proses penalaran AI. Melalui hal ini, terlihat upaya untuk meningkatkan akurasi dan efisiensi sistem AI.

  • Ada beberapa alasan yang dapat menjelaskan munculnya kecenderungan ini. Pertama, model bahasa besar mendapat perhatian besar di industri dan akademia karena memiliki beragam kemungkinan aplikasi dan performa tinggi. Secara khusus, berbagai teknik untuk kemampuan koreksi diri model maupun peningkatan performa sedang diteliti secara aktif. Selain itu, penelitian tentang proses berpikir AI berkaitan dengan tujuan akhir untuk mengembangkan AI yang memiliki kemampuan berpikir mirip manusia. Hal ini dianggap sebagai elemen penting dalam mengotomatisasi tugas yang lebih kompleks dan cerdas.

  • Singkatnya, tren utama makalah minggu ini dapat diringkas sebagai peningkatan performa model bahasa besar serta penelitian tentang proses berpikir AI. Ini merupakan contoh yang dengan jelas menunjukkan ke arah mana riset AI saat ini berkembang.


Moshi

Pengenalan makalah

Memperkenalkan model fondasi berbasis speech-text dan framework dialog suara full-duplex, beberapa komponen sistem, Helium yang merupakan text LLM 7B parameter, Mimi yang merupakan kode audio neural semantik-akustik dengan performa mutakhir pada kualitas audio, serta arsitektur multi-stream hierarkis yang dapat menghasilkan percakapan arbitrer secara speech-to-speech.
> Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.

Abstrak makalah (Abstract)

Kami memperkenalkan Moshi, sebuah model fondasi speech-text dan framework dialog suara full-duplex. Sistem dialog suara saat ini bergantung pada pipeline komponen-komponen independen, yaitu voice activity detection, speech recognition, dialog tekstual, dan text-to-speech. Framework semacam itu tidak dapat meniru pengalaman percakapan nyata. Pertama, kompleksitasnya menimbulkan latensi beberapa detik antarinteraksi. Kedua, karena teks menjadi modalitas perantara untuk dialog, informasi non-linguistik yang memodifikasi makna—seperti emosi atau suara non-ucapan—hilang dalam interaksi. Terakhir, sistem semacam itu bergantung pada segmentasi berdasarkan giliran pembicara, yang tidak mempertimbangkan ucapan yang tumpang tindih, interupsi, dan seruan. Moshi menyelesaikan semua masalah independen ini sekaligus dengan memosisikan dialog suara sebagai generasi speech-to-speech. Dimulai dari backbone text language model, Moshi menghasilkan ucapan sebagai token dari residual quantizer pada neural audio codec, sambil memodelkan secara terpisah ucapannya sendiri dan ucapan pengguna ke dalam stream paralel. Ini memungkinkan penghapusan giliran pembicara yang eksplisit, serta pemodelan dinamika percakapan yang arbitrer. Selain itu, kami memperluas generasi token semantik-ke-akustik hierarkis dari pekerjaan sebelumnya untuk terlebih dahulu memprediksi token teks yang selaras waktu sebagai prefiks bagi token audio. Metode “Inner Monologue” ini tidak hanya secara signifikan meningkatkan kualitas linguistik dari ucapan yang dihasilkan, tetapi juga menunjukkan bagaimana metode ini dapat menyediakan speech recognition streaming dan text-to-speech. Model yang dihasilkan ini adalah spoken large language model full-duplex real-time pertama, dengan latensi teoretis 160ms dan 200ms dalam praktik, serta tersedia di github.com/kyutai-labs/moshi.
> We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.

Tautan makalah

https://kyutai.org/Moshi.pdf

Baca lebih lanjut

https://github.com/kyutai-labs/moshi

https://x.com/kyutai_labs/status/1836427396959932492


Melatih model bahasa agar mengoreksi dirinya sendiri melalui reinforcement learning / Training Language Models to Self-Correct via Reinforcement Learning

Pengenalan makalah

Mengembangkan pembelajaran penguatan online multi-turn untuk meningkatkan kemampuan LLM melakukan koreksi mandiri; sepenuhnya berbasis data yang dihasilkan sendiri; SFT terbukti tidak efektif untuk mempelajari koreksi mandiri dan mengalami ketidakcocokan distribusi antara data pelatihan dan respons model; mengusulkan pendekatan dua tahap yang pertama-tama mengoptimalkan perilaku koreksi lalu menggunakan bonus reward untuk memperkuat koreksi mandiri selama pelatihan; saat diterapkan pada model Gemini 1.0 Pro dan 1.5 Flash, pendekatan ini mencapai kinerja koreksi mandiri mutakhir dengan meningkatkan koreksi mandiri model dasar masing-masing sebesar 15.6% dan 9.1% pada benchmark MATH dan HumanEval.
> Mengembangkan pembelajaran penguatan online multi-turn untuk meningkatkan kemampuan LLM melakukan koreksi mandiri; sepenuhnya berbasis data yang dihasilkan sendiri; SFT terbukti tidak efektif untuk mempelajari koreksi mandiri dan mengalami ketidakcocokan distribusi antara data pelatihan dan respons model; mengusulkan pendekatan dua tahap yang pertama-tama mengoptimalkan perilaku koreksi lalu menggunakan bonus reward untuk memperkuat koreksi mandiri selama pelatihan; saat diterapkan pada model Gemini 1.0 Pro dan 1.5 Flash, pendekatan ini mencapai kinerja koreksi mandiri mutakhir dengan meningkatkan koreksi mandiri model dasar masing-masing sebesar 15.6% dan 9.1% pada benchmark MATH dan HumanEval.

Abstrak makalah (Abstract)

Koreksi mandiri adalah kemampuan yang sangat diinginkan dari large language model (LLM), tetapi secara konsisten terbukti sebagian besar tidak efektif pada LLM modern. Pendekatan yang ada untuk melatih koreksi mandiri memerlukan beberapa model atau bergantung pada model yang lebih mumpuni maupun bentuk supervisi lainnya. Untuk itu, Unity mengembangkan SCoRe, pendekatan reinforcement learning (RL) online multi-turn yang secara signifikan meningkatkan kemampuan koreksi mandiri LLM dengan menggunakan data yang sepenuhnya dihasilkan sendiri. Untuk membangun SCoRe, pertama-tama mereka menunjukkan bahwa varian supervised fine-tuning (SFT) pada jejak koreksi yang dihasilkan model secara offline tidak cukup untuk menanamkan perilaku koreksi mandiri. Secara khusus, mereka mengamati bahwa pelatihan melalui SFT either mengalami ketidakcocokan distribusi antara data pelatihan dan respons model itu sendiri, atau secara implisit hanya lebih menyukai mode perilaku koreksi tertentu yang sering kali tidak efektif saat waktu inferensi. SCoRe mengatasi tantangan ini dengan melatih di bawah distribusi jejak koreksi yang dihasilkan sendiri oleh model dan menggunakan regularisasi yang tepat untuk mengarahkan proses pembelajaran agar mempelajari strategi koreksi mandiri yang efektif saat inferensi, alih-alih sekadar menyesuaikan respons dengan reward tinggi untuk prompt tertentu. Regularisasi ini menetapkan pelaksanaan fase pertama RL pada model dasar untuk menghasilkan inisialisasi kebijakan yang lebih tidak rentan terhadap collapse, lalu menggunakan bonus reward untuk memperkuat koreksi mandiri selama pelatihan. Saat diterapkan pada model Gemini 1.0 Pro dan 1.5 Flash, SCoRe terbukti mencapai kinerja koreksi mandiri mutakhir, dengan meningkatkan koreksi mandiri model dasar masing-masing sebesar 15.6% dan 9.1% pada benchmark MATH dan HumanEval.
> Koreksi mandiri adalah kemampuan yang sangat diinginkan dari large language model (LLM), tetapi secara konsisten terbukti sebagian besar tidak efektif pada LLM modern. Pendekatan yang ada untuk melatih koreksi mandiri memerlukan beberapa model atau bergantung pada model yang lebih mumpuni maupun bentuk supervisi lainnya. Untuk itu, kami mengembangkan SCoRe, pendekatan reinforcement learning (RL) online multi-turn yang secara signifikan meningkatkan kemampuan koreksi mandiri LLM dengan menggunakan data yang sepenuhnya dihasilkan sendiri. Untuk membangun SCoRe, pertama-tama kami menunjukkan bahwa varian supervised fine-tuning (SFT) pada jejak koreksi yang dihasilkan model secara offline tidak cukup untuk menanamkan perilaku koreksi mandiri. Secara khusus, kami mengamati bahwa pelatihan melalui SFT either mengalami ketidakcocokan distribusi antara data pelatihan dan respons model itu sendiri, atau secara implisit hanya lebih menyukai mode perilaku koreksi tertentu yang sering kali tidak efektif saat waktu inferensi. SCoRe mengatasi tantangan ini dengan melatih di bawah distribusi jejak koreksi yang dihasilkan sendiri oleh model dan menggunakan regularisasi yang tepat untuk mengarahkan proses pembelajaran agar mempelajari strategi koreksi mandiri yang efektif saat inferensi, alih-alih sekadar menyesuaikan respons dengan reward tinggi untuk prompt tertentu. Regularisasi ini menetapkan pelaksanaan fase pertama RL pada model dasar untuk menghasilkan inisialisasi kebijakan yang lebih tidak rentan terhadap collapse, lalu menggunakan bonus reward untuk memperkuat koreksi mandiri selama pelatihan. Saat diterapkan pada model Gemini 1.0 Pro dan 1.5 Flash, kami menemukan bahwa SCoRe mencapai kinerja koreksi mandiri mutakhir, dengan meningkatkan koreksi mandiri model dasar masing-masing sebesar 15.6% dan 9.1% pada benchmark MATH dan HumanEval.

Tautan makalah

https://arxiv.org/abs/2409.12917

Baca lebih lanjut

https://x.com/omarsar0/status/1837228446839361984


Dokumen teknis Qwen2.5-Coder / Qwen2.5-Coder Technical Report

Pengantar makalah

Serangkaian model yang mencakup 1.5B dan 7B parameter; dibangun di atas arsitektur Qwen2.5 yang terus dipra-latih pada 5.5 triliun token; mencapai kinerja mutakhir di lebih dari 10 benchmark; mencakup kemampuan kuat dalam pembuatan kode, pelengkapan, penalaran, dan perbaikan.
> Serangkaian model yang mencakup 1.5B dan 7B parameter; dibangun di atas arsitektur Qwen2.5 yang terus dipra-latih pada 5.5 triliun token; mencapai kinerja mutakhir di lebih dari 10 benchmark; mencakup kemampuan kuat dalam pembuatan kode, pelengkapan, penalaran, dan perbaikan.

Abstrak makalah (Abstract)

Laporan ini memperkenalkan seri Qwen2.5-Coder, peningkatan besar dari versi sebelumnya, CodeQwen1.5. Seri ini mencakup dua model: Qwen2.5-Coder-1.5B dan Qwen2.5-Coder-7B. Sebagai model khusus kode, Qwen2.5-Coder dibangun di atas arsitektur Qwen2.5 dan melanjutkan prapelatihan pada korpus sangat besar yang terdiri dari lebih dari 5,5 triliun token. Melalui pembersihan data yang teliti, pembuatan data sintetis yang dapat diskalakan, dan pencampuran data yang seimbang, Qwen2.5-Coder menunjukkan kemampuan generasi kode yang mengesankan sambil tetap mempertahankan fleksibilitas umum. Model ini telah dievaluasi pada berbagai tugas terkait kode, mencapai performa state-of-the-art (SOTA) di lebih dari 10 benchmark, termasuk generasi kode, pelengkapan, penalaran, dan perbaikan, serta secara konsisten mengungguli model yang lebih besar pada ukuran model yang sama. Unity meyakini bahwa peluncuran seri Qwen2.5-Coder tidak hanya akan mendorong batas riset dalam code intelligence, tetapi juga, melalui lisensi yang permisif, mendorong adopsi yang lebih luas oleh para pengembang dalam aplikasi dunia nyata.
> In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.

Tautan makalah

https://arxiv.org/abs/2409.12186

Baca lebih lanjut

https://x.com/huybery/status/1837170643563073960


Diagram of Thought (DoT) / On the Diagram of Thought

Pengantar makalah

Dengan ketelitian matematis untuk meningkatkan kemampuan penalaran LLM, DAT memodelkan penalaran iteratif dalam LLM sebagai konstruksi graf asiklik berarah, dan mengintegrasikan proposisi, kritik, penyempurnaan, serta verifikasi ke dalam struktur DAG terpadu sehingga dapat menangkap penalaran logis yang kompleks melampaui pendekatan linear atau berbasis pohon.
> Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.

Abstrak makalah (Abstract)

Kami memperkenalkan Diagram of Thought (DoT), sebuah kerangka kerja yang memodelkan penalaran iteratif dalam large language model (LLM) sebagai konstruksi graf asiklik berarah (DAG) di dalam satu model. Berbeda dari pendekatan tradisional yang merepresentasikan penalaran sebagai rantai linear atau pohon, DoT menyusun proposisi, kritik, penyempurnaan, dan verifikasi ke dalam struktur DAG yang koheren, sehingga model dapat menjelajahi jalur penalaran yang kompleks sambil mempertahankan konsistensi logis. Setiap node dalam diagram sesuai dengan proposisi yang telah diajukan, dikritik, disempurnakan, atau diverifikasi, sehingga LLM dapat secara iteratif meningkatkan penalarannya melalui umpan balik bahasa alami. Dengan memanfaatkan prediksi token berikutnya auto-regresif dengan token spesifik peran, DoT memfasilitasi transisi yang mulus antara mengajukan ide dan mengevaluasinya secara kritis, memberikan umpan balik yang lebih kaya daripada sinyal biner. Selain itu, kami memformalkan kerangka DoT menggunakan Topos Theory, menyediakan landasan matematis yang menjamin konsistensi logis dan soundness dalam proses penalaran. Pendekatan ini meningkatkan proses pelatihan dan inferensi di dalam satu LLM, sehingga menghilangkan kebutuhan akan banyak model atau mekanisme kontrol eksternal. DoT menawarkan kerangka konseptual untuk merancang model generasi berikutnya yang terspesialisasi dalam penalaran, dengan menekankan efisiensi pelatihan, kemampuan penalaran yang tangguh, dan landasan teoretis. Kodenya tersedia di https://github.com/diagram-of-thought/diagram-of-thought.
> We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.

Tautan makalah

https://arxiv.org/abs/2409.10038

Bacaan lanjutan

https://github.com/diagram-of-thought/diagram-of-thought

https://x.com/omarsar0/status/1835882277563179512


Agen Rekayasa Perangkat Lunak: Survei, Lanskap, dan Visi / Agents in Software Engineering: Survey, Landscape, and Vision

Pengantar makalah

Memberikan gambaran menyeluruh tentang framework agen berbasis LLM dalam rekayasa perangkat lunak.
> Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.

Abstrak makalah (Abstract)

Dalam beberapa tahun terakhir, Large Language Models (LLM) telah mencapai keberhasilan yang luar biasa dan digunakan secara luas dalam berbagai tugas downstream, terutama tugas di bidang software engineering (SE). Kami menemukan bahwa banyak studi yang menggabungkan LLM dengan SE telah menggunakan konsep agen, baik secara eksplisit maupun implisit. Namun, masih kurang survei mendalam yang merapikan konteks perkembangan karya-karya yang ada, menganalisis bagaimana karya-karya tersebut menggabungkan teknologi agen berbasis LLM untuk mengoptimalkan berbagai tugas, dan memperjelas framework agen berbasis LLM dalam SE. Dalam makalah ini, kami melakukan survei pertama terhadap studi yang menggabungkan agen berbasis LLM dengan SE dan menyajikan framework agen berbasis LLM dalam SE yang mencakup tiga modul kunci: persepsi, memori, dan tindakan. Kami juga merangkum tantangan saat ini dalam menggabungkan kedua bidang tersebut dan mengusulkan peluang di masa depan sebagai respons terhadap tantangan yang ada. Repositori GitHub untuk makalah terkait tersedia di https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.
> In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.

Tautan makalah

https://arxiv.org/abs/2409.09030

Bacaan lanjutan

https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE

https://x.com/omarsar0/status/1835705359723319702


Perlukah CoT atau tidak? Rantai pemikiran terutama membantu pada matematika dan penalaran simbolik / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Pengantar makalah

Melalui meta-analisis terhadap lebih dari 100 makalah dan berbagai evaluasi untuk menyelidiki jenis tugas apa yang paling diuntungkan oleh prompting chain-of-thought (CoT), penelitian ini menemukan bahwa CoT memberikan keuntungan kinerja yang kuat terutama pada tugas yang berkaitan dengan matematika dan logika. Mereka juga menemukan bahwa sebagian besar keuntungan CoT berasal dari peningkatan eksekusi simbolik, tetapi symbolic solver menunjukkan performa yang lebih baik.
> Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.

Abstrak makalah (Abstract)

Chain-of-thought (CoT) melalui prompting adalah metode de facto untuk memunculkan kemampuan penalaran dari large language model (LLM). Namun, untuk jenis tugas apa tambahan "berpikir" ini benar-benar membantu? Untuk menganalisisnya, kami melakukan meta-analisis kuantitatif yang mencakup lebih dari 100 makalah yang menggunakan CoT dan menjalankan evaluasi kami sendiri pada 20 dataset di 14 model. Hasilnya menunjukkan bahwa CoT terutama memberikan keuntungan kinerja yang kuat pada tugas yang melibatkan matematika atau logika, dengan peningkatan yang jauh lebih kecil pada jenis tugas lainnya. Pada MMLU, menghasilkan jawaban secara langsung tanpa CoT menghasilkan akurasi yang hampir identik dengan CoT kecuali jika pertanyaan atau respons model mengandung tanda sama dengan, yang menunjukkan operasi simbolik dan penalaran. Berdasarkan temuan ini, kami menganalisis perilaku CoT pada masalah-masalah tersebut dengan memisahkan perencanaan dan eksekusi serta membandingkannya dengan LLM yang diperkuat alat. Sebagian besar peningkatan CoT berasal dari perbaikan eksekusi simbolik, tetapi performanya masih kalah dibandingkan penggunaan symbolic solver. Hasil penelitian menunjukkan bahwa CoT dapat diterapkan secara selektif, mempertahankan performa sekaligus menghemat biaya inferensi. Selain itu, temuan ini menunjukkan perlunya bergerak melampaui CoT berbasis prompt menuju paradigma baru yang lebih baik dalam memanfaatkan komputasi perantara di seluruh spektrum aplikasi LLM.
> Chain-of-thought (CoT) melalui prompting adalah metode de facto untuk memunculkan kemampuan penalaran dari large language model (LLM). Namun, untuk jenis tugas apa tambahan "berpikir" ini benar-benar membantu? Untuk menganalisisnya, kami melakukan meta-analisis kuantitatif yang mencakup lebih dari 100 makalah yang menggunakan CoT dan menjalankan evaluasi kami sendiri pada 20 dataset di 14 model. Hasilnya menunjukkan bahwa CoT terutama memberikan keuntungan kinerja yang kuat pada tugas yang melibatkan matematika atau logika, dengan peningkatan yang jauh lebih kecil pada jenis tugas lainnya. Pada MMLU, menghasilkan jawaban secara langsung tanpa CoT menghasilkan akurasi yang hampir identik dengan CoT kecuali jika pertanyaan atau respons model mengandung tanda sama dengan, yang menunjukkan operasi simbolik dan penalaran. Berdasarkan temuan ini, kami menganalisis perilaku CoT pada masalah-masalah tersebut dengan memisahkan perencanaan dan eksekusi serta membandingkannya dengan LLM yang diperkuat alat. Sebagian besar peningkatan CoT berasal dari perbaikan eksekusi simbolik, tetapi performanya masih kalah dibandingkan penggunaan symbolic solver. Hasil penelitian menunjukkan bahwa CoT dapat diterapkan secara selektif, mempertahankan performa sekaligus menghemat biaya inferensi. Selain itu, temuan ini menunjukkan perlunya bergerak melampaui CoT berbasis prompt menuju paradigma baru yang lebih baik dalam memanfaatkan komputasi perantara di seluruh spektrum aplikasi LLM.

Tautan makalah

https://arxiv.org/abs/2409.12183

Baca lebih lanjut

https://x.com/omarsar0/status/1836599280477299013


Evaluasi Komprehensif atas Large Language Model Instruction-Tuned yang Dikuantisasi: Analisis Eksperimental hingga 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Pengantar makalah

Hasil evaluasi performa instruction-tuned LLM di berbagai metode kuantisasi pada model dengan rentang 7B hingga 405B menunjukkan bahwa 1) mengkuantisasi LLM yang lebih besar ke ukuran yang mirip dengan LLM FP16 yang lebih kecil umumnya memberikan performa lebih baik di sebagian besar benchmark, 2) performa sangat bervariasi tergantung metode kuantisasi, ukuran model, dan bit-width, dengan metode weight-only sering menghasilkan hasil yang lebih baik pada model yang lebih besar, dan 3) tingkat kesulitan tugas tidak berdampak signifikan pada penurunan akurasi akibat kuantisasi.
> Mengevaluasi performa instruction-tuned LLM di berbagai metode kuantisasi pada model dengan rentang 7B hingga 405B; temuan utamanya adalah 1) mengkuantisasi LLM yang lebih besar ke ukuran yang mirip dengan LLM FP16 yang lebih kecil umumnya memberikan performa lebih baik di sebagian besar benchmark, 2) performa sangat bervariasi tergantung metode kuantisasi, ukuran model, dan bit-width, dengan metode weight-only sering menghasilkan hasil yang lebih baik pada model yang lebih besar, dan 3) tingkat kesulitan tugas tidak berdampak signifikan pada penurunan akurasi akibat kuantisasi.

Abstrak makalah (Abstract)

Penelitian sebelumnya mengevaluasi LLM terkuantisasi menggunakan metrik yang terbatas seperti perplexity atau beberapa tugas pengetahuan dasar serta dataset lama. Selain itu, model berskala besar terbaru seperti Llama 3.1 hingga 405B belum ditelaah secara menyeluruh. Makalah ini mengevaluasi kinerja LLM yang telah di-tuning instruksi di berbagai metode kuantisasi (GPTQ, AWQ, SmoothQuant, FP8) pada model mulai dari 7B hingga 405B. Dengan menggunakan 13 benchmark, kinerja dinilai pada enam jenis tugas: tanya jawab commonsense, pengetahuan dan pemahaman bahasa, mengikuti instruksi, deteksi halusinasi, matematika, dan dialog. Temuan utama penelitian ini mengungkapkan bahwa (1) mengkuantisasi LLM yang lebih besar ke ukuran yang mirip dengan LLM FP16 yang lebih kecil umumnya memberikan kinerja lebih baik di sebagian besar benchmark, kecuali pada deteksi halusinasi dan mengikuti instruksi; (2) kinerja sangat bervariasi bergantung pada metode kuantisasi, ukuran model, dan bit-width, dengan metode weight-only sering memberikan hasil yang lebih baik pada model yang lebih besar; (3) tingkat kesulitan tugas tidak banyak memengaruhi penurunan akurasi akibat kuantisasi; dan (4) metode evaluasi MT-Bench memiliki daya pembeda yang terbatas di antara LLM berperforma tinggi terbaru.
> Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Tautan makalah

https://arxiv.org/abs/2409.11055

Baca selengkapnya

https://x.com/omarsar0/status/1836479309390995790


Iterasi Pemikiran: Memanfaatkan Dialog Internal untuk Penalaran Model Bahasa Besar Otonom / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

Perkenalan makalah

Untuk meningkatkan respons dan kemampuan penalaran LLM dengan jalur penalaran adaptif, kerangka Iteration of Thought (IoT) diusulkan dengan memanfaatkan agen dialog internal yang berperan sebagai pemandu untuk menyesuaikan jalur penalaran secara dinamis, sehingga memungkinkan eksplorasi lintas-jalur yang adaptif dan meningkatkan akurasi respons. Ini berbeda dari CoT dan ToT (keduanya proses yang kaku) karena pembuatan prompt-nya merupakan proses dinamis yang memungkinkannya beradaptasi.
> Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.

Abstrak makalah (Abstract)

Keterlibatan manusia yang berulang adalah cara yang umum dan efektif untuk memanfaatkan kemampuan pemrosesan bahasa tingkat lanjut dari large language model (LLM). Dengan menggunakan prompt percakapan yang terstruktur dengan baik, pengguna manusia dapat secara efektif memengaruhi LLM agar menghasilkan respons yang lebih matang dan akurat. Terinspirasi oleh wawasan ini, kami mengusulkan kerangka Iteration of Thought (IoT) untuk meningkatkan respons LLM dengan menghasilkan prompt yang memicu "pemikiran" terkait kueri masukan dan iterasi saat ini dari respons LLM. Berbeda dengan pendekatan statis atau semi-statis seperti Chain of Thought (CoT) atau Tree of Thoughts (ToT), IoT menyesuaikan jalur penalarannya secara dinamis berdasarkan konteks yang terus berkembang, tanpa menghasilkan pemikiran eksploratif alternatif yang pada akhirnya dibuang. Tiga komponen kerangka IoT adalah (1) Inner Dialogue Agent (IDA) yang bertanggung jawab menghasilkan prompt instruktif dan spesifik konteks, (2) LLM Agent (LLMA) yang memproses prompt ini untuk menyempurnakan responsnya, dan (3) loop prompting iteratif yang mengimplementasikan percakapan antara dua komponen sebelumnya. Kami memperkenalkan dua varian dari kerangka ini: Autonomous Iteration of Thought (AIoT), di mana LLM memutuskan kapan harus menghentikan iterasi, dan Guided Iteration of Thought (GIoT), yang selalu memaksakan jumlah iterasi tetap. Kami menyelidiki kinerja IoT pada berbagai data set, mencakup tugas penalaran kompleks dari data set GPQA, pemecahan masalah eksploratif pada Game of 24, penyelesaian teka-teki pada Mini Crosswords, dan tanya jawab multi-hop dari data set HotpotQA. Hasil penelitian menunjukkan bahwa IoT merupakan paradigma yang layak untuk penyempurnaan respons otonom pada LLM, dengan peningkatan signifikan dibandingkan CoT, sehingga memungkinkan sistem penalaran yang lebih adaptif dan efisien sambil meminimalkan intervensi manusia.
> Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.

Tautan makalah

https://arxiv.org/abs/2409.12618

Baca lebih lanjut

https://x.com/omarsar0/status/1836977595847692671


Memori Schrödinger: Large Language Models / Schrodinger's Memory: Large Language Models

Pengantar makalah

Menjelaskan mekanisme memori LLM menggunakan Universal Approximation Theorem. Selain itu, makalah ini mengusulkan pendekatan baru untuk mengevaluasi kinerja LLM dengan membandingkan kapasitas memori berbagai model; arsitektur Transformer berfungsi sebagai model UAT dynamic fitting, dengan kemampuan kuat untuk menyesuaikan input secara adaptif; hal ini memungkinkan LLM mengingat kembali seluruh konten hanya berdasarkan informasi input yang minimal.
> Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.

Abstrak makalah (Abstract)

Memori adalah fondasi dari semua aktivitas manusia, dan tanpa memori, hampir mustahil untuk melakukan tugas apa pun dalam kehidupan sehari-hari. Seiring perkembangan large language model (LLM), kemampuan bahasanya semakin sebanding dengan manusia. Namun, apakah LLM juga memiliki memori? Berdasarkan performa saat ini, LLM memang tampak menunjukkan adanya memori. Lalu, apa mekanisme dasar di balik memori ini? Penelitian sebelumnya masih kurang mengeksplorasi secara mendalam kemampuan memori LLM dan teori yang mendasarinya. Makalah ini menggunakan Universal Approximation Theorem (UAT) untuk menjelaskan mekanisme memori dalam LLM. Selain itu, penulis melakukan eksperimen untuk memverifikasi kemampuan memori berbagai LLM, dan mengusulkan metode baru untuk menilai kemampuannya berdasarkan kapasitas memori tersebut. Kami berpendapat bahwa memori LLM bekerja seperti memori Schr"odinger, artinya hanya dapat diamati saat memori tertentu ditanyakan. Kita hanya bisa menentukan apakah model menyimpan suatu memori berdasarkan output-nya sebagai respons terhadap kueri; jika tidak, statusnya tetap tidak pasti. Terakhir, konsep ini diperluas dengan membandingkan kemampuan memori otak manusia dan LLM, sambil menyoroti persamaan dan perbedaan dalam mekanisme operasionalnya.
> Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.

Tautan makalah

https://arxiv.org/abs/2409.10482

Baca selengkapnya

https://x.com/omarsar0/status/1835882330323554321


Men-jailbreak Large Language Models dengan Matematika Simbolik / Jailbreaking Large Language Models with Symbolic Mathematics

Pengantar makalah

Menggunakan GPT-4o untuk menghasilkan prompt yang dienkode secara matematis dan berfungsi sebagai teknik jailbreak yang efektif; menunjukkan rata-rata tingkat keberhasilan serangan sebesar 73.6% pada 13 model mutakhir, yang menegaskan bahwa mekanisme pelatihan keamanan yang ada tidak mampu digeneralisasi ke input yang dienkode secara matematis.
> Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.

Abstrak makalah(Abstract)

Kemajuan terbaru dalam keamanan AI telah mendorong peningkatan upaya untuk melatih dan melakukan red-teaming pada large language models (LLM) guna mengurangi pembuatan konten yang tidak aman. Namun, mekanisme keamanan ini mungkin belum komprehensif, sehingga masih ada potensi kerentanan yang belum terungkap. Makalah ini memperkenalkan MathPrompt, teknik jailbreak baru yang mengeksploitasi kemampuan matematika simbolik tingkat lanjut pada LLM untuk melewati mekanisme keamanannya. Dengan mengodekan prompt bahasa alami yang berbahaya menjadi persoalan matematika, penelitian ini menunjukkan kerentanan kritis dalam langkah-langkah keamanan AI saat ini. Hasil eksperimen pada 13 LLM mutakhir menunjukkan rata-rata tingkat keberhasilan serangan sebesar 73.6%, yang menyoroti ketidakmampuan mekanisme pelatihan keamanan yang ada untuk digeneralisasi ke input yang dienkode secara matematis. Analisis vektor embedding menunjukkan adanya pergeseran semantik yang besar antara prompt asli dan prompt yang telah dienkode, yang membantu menjelaskan keberhasilan serangan ini. Karya ini menekankan pentingnya pendekatan holistik terhadap keamanan AI, serta menyerukan perluasan upaya red-teaming untuk mengembangkan perlindungan yang tangguh terhadap semua jenis input potensial dan risiko terkaitnya.
> Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.

Tautan makalah

https://arxiv.org/abs/2409.11445

Baca selengkapnya

https://x.com/omarsar0/status/1836603922405806501


Sumber asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277


Tulisan ini dirangkum dengan model GPT, sehingga mungkin ada bagian yang keliru; mohon juga merujuk ke artikel asli di bagian bawah! Jika saat membaca Anda menemukan isi yang terasa janggal atau salah, mohon beri tahu kami lewat komentar. 🤗

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat bagi Anda? Jika bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email💌! (Default-nya mingguan, tetapi bisa diubah menjadi harian.)

3 komentar

 
savvykang 2024-09-23

Judulnya tertulis Juni, tetapi postingan yang ditautkan adalah September. Apakah ini terjadi karena autocomplete?

 
ninebow 2024-09-23

Wah, benar juga;;; terima kasih sudah memberi tahu saya. T_T
Judulnya seharusnya '[2024/09/16 ~ 09/22] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)', tetapi saya melakukan kesalahan saat menggunakan template. Jika xguru kebetulan melihat ini, mohon bantu ubah. 🙇‍♂️

 
ninebow 2024-09-23

Terima kasih!!