5 poin oleh ninebow 2025-01-21 | Belum ada komentar. | Bagikan ke WhatsApp
  • Kami telah mencoba menerjemahkan secara otomatis tulisan tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.

  • Kecenderungan paling menonjol dari makalah yang dipilih minggu ini adalah aktifnya riset tentang large language model (LLM) dan AI multimodal. Misalnya, makalah seperti "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG", dan "VideoRAG" membahas topik yang terkait dengan LLM dan pembelajaran multimodal. Selain itu, makalah seperti "Imagine while Reasoning in Space" dan "OmniThink" juga mengeksplorasi pendekatan multimodal yang mencoba menyelesaikan masalah kompleks dengan memanfaatkan berbagai bentuk data.

  • Kecenderungan ini menunjukkan bahwa di komunitas riset AI saat ini, pentingnya model bahasa terus meningkat, begitu pula upaya untuk mencapai pemahaman yang lebih komprehensif dengan menggabungkan beragam jenis data. LLM memimpin state-of-the-art dalam natural language processing (NLP), dan tampaknya semakin luas pemahaman bahwa untuk memajukan teknologi ini lebih jauh, diperlukan pendekatan terpadu yang memanfaatkan data multimodal. Secara khusus, AI multimodal memainkan peran penting dalam menyelesaikan masalah yang lebih kompleks dengan menggabungkan pemahaman melalui gambar dan pemahaman melalui bahasa alami.

  • Kesimpulannya, makalah-makalah minggu ini menunjukkan bahwa pusat riset AI sedang terfokus pada large language model dan pembelajaran multimodal. Ini mengisyaratkan bahwa AI tidak lagi berhenti pada pemrosesan teks semata, tetapi bergerak ke arah yang memungkinkan penyelesaian masalah yang lebih cerdas dan kompleks melalui penggabungan dengan informasi visual. Karena itu, riset semacam ini diperkirakan akan memberikan dampak besar pada perkembangan teknologi AI ke depan.


$\text{Transformer}^2$: LLM adaptif mandiri / $\text{Transformer}^2$: Self-adaptive LLMs

Pengenalan makalah

Memperkenalkan $\text{Transformer}^2$, kerangka kerja adaptasi mandiri baru yang menyesuaikan LLM secara real-time untuk tugas yang belum pernah dilihat sebelumnya dengan menyesuaikan secara selektif komponen singular dari matriks bobotnya. Kerangka ini dibangun dalam dua tahap utama: 1) sistem dispatch yang menganalisis dan mengidentifikasi sifat tugas yang masuk, dan 2) tahap yang menggabungkan vektor "expert" yang dilatih melalui reinforcement learning untuk menghasilkan perilaku spesifik tugas. Pendekatan ini diklaim lebih efisien daripada LoRA dengan jumlah parameter yang lebih sedikit, dan dapat bekerja di berbagai arsitektur LLM.

Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.

Abstrak makalah (Abstract)

Large language model (LLM) adaptif mandiri bertujuan untuk mengatasi tantangan yang ditimbulkan oleh metode fine-tuning tradisional, yang sering kali intensif secara komputasi dan bersifat statis dalam menangani beragam tugas. Di sini kami memperkenalkan $\text{Transformer}^2$, kerangka kerja adaptasi mandiri baru yang menyesuaikan LLM untuk tugas yang belum pernah dilihat sebelumnya secara real-time dengan hanya menyesuaikan secara selektif komponen singular dari matriks bobotnya. Selama inferensi, $\text{Transformer}^2$ menggunakan mekanisme dua lintasan. Pertama, sistem dispatch mengidentifikasi properti tugas, lalu vektor 'expert' spesifik tugas yang dilatih menggunakan reinforcement learning dicampurkan secara dinamis untuk memperoleh perilaku yang ditargetkan bagi prompt yang masuk. Metode ini mengungguli pendekatan umum seperti LoRA, dengan parameter yang lebih sedikit dan efisiensi yang lebih tinggi. $\text{Transformer}^2$ menunjukkan fleksibilitas di berbagai arsitektur dan modalitas LLM, termasuk tugas vision-language. $\text{Transformer}^2$ menandai lompatan besar ke depan dengan menawarkan solusi yang skalabel dan efisien untuk meningkatkan kemampuan adaptasi dan performa spesifik tugas LLM, sehingga membuka jalan bagi sistem AI yang benar-benar dinamis dan mampu mengorganisasi diri.

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

Tautan makalah

https://arxiv.org/abs/2501.06252

Bacaan lanjutan

https://discuss.pytorch.kr/t/…

https://x.com/hardmaru/status/1879331049383334187


MiniMax-01: model fondasi yang diskalakan dengan kecepatan kilat / MiniMax-01: Scaling Foundation Models with Lightning Attention

Pengenalan makalah

Memperkenalkan seri model baru yang mengintegrasikan Mixture-of-Experts, termasuk model dengan 32 expert dan 456 miliar parameter, dengan 45,9 miliar parameter diaktifkan untuk setiap token, serta mengklaim performa yang setara dengan model mutakhir seperti GPT-4o dan Claude-3.5-Sonnet. Model ini menawarkan context window 20–32 kali lebih panjang dan dapat menangani hingga 4 juta token, sambil mengintegrasikan linear attention dan pemanfaatan hardware yang dioptimalkan untuk meningkatkan efisiensi dan skalabilitas LLM. Tersedia juga model visi bernama MiniMax-VL-01 yang dibangun melalui pelatihan lanjutan dengan 51,2 miliar token vision-language.

Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.

Abstrak makalah

Kami memperkenalkan seri MiniMax-01, termasuk MiniMax-Text-01 dan MiniMax-VL-01, yang sebanding dengan model kelas atas sekaligus menawarkan kemampuan unggul dalam memproses konteks yang lebih panjang. Intinya terletak pada lightning attention dan penskalaannya yang efisien. Untuk memaksimalkan kapasitas komputasi, kami mengintegrasikannya dengan Mixture of Experts (MoE), menciptakan model dengan 32 expert dan total 456 miliar parameter, di mana 45,9 miliar diaktifkan untuk setiap token. Kami mengembangkan strategi paralel yang dioptimalkan dan teknik overlap komputasi-komunikasi yang sangat efisien untuk MoE dan lightning attention. Pendekatan ini memungkinkan kami melakukan pelatihan dan inferensi yang efisien pada model dengan ratusan miliar parameter di seluruh konteks yang membentang hingga jutaan token. Context window MiniMax-Text-01 dapat mencapai hingga 1 juta token selama pelatihan dan diekstrapolasikan hingga 4 juta token saat inferensi dengan biaya yang terjangkau. Model vision-language kami, MiniMax-VL-01, dibangun melalui pelatihan lanjutan dengan 51,2 miliar token vision-language. Eksperimen pada benchmark standar maupun internal menunjukkan bahwa model kami menyamai performa model mutakhir seperti GPT-4o dan Claude-3.5-Sonnet sambil menawarkan context window 20–32 kali lebih panjang. MiniMax-01 dirilis secara publik di https://github.com/MiniMax-AI.

We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

Tautan makalah

https://arxiv.org/abs/2501.08313

Baca lebih lanjut

https://github.com/MiniMax-AI

https://x.com/omarsar0/status/1879572512075587872


VideoRAG: Retrieval-Augmented Generation melalui korpus video / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Pengenalan makalah

Sebuah framework yang meningkatkan RAG dengan memanfaatkan konten video sebagai sumber pengetahuan eksternal; berbeda dari pendekatan RAG yang ada yang terutama berfokus pada teks atau gambar, VideoRAG secara dinamis mengambil video yang relevan berdasarkan kueri dan memasukkan elemen visual maupun tekstualnya ke dalam proses generasi; framework ini menggunakan Large Video Language Models (LVLM) untuk memproses konten video secara langsung, sehingga dapat menangkap dinamika temporal, detail spasial, dan petunjuk multimodal dengan lebih efektif yang sering kali gagal disampaikan oleh modalitas statis; untuk video yang tidak memiliki deskripsi tekstual, mereka mengusulkan penggunaan automatic speech recognition untuk menghasilkan transkrip, sehingga modalitas visual dan tekstual sama-sama dapat dimanfaatkan.

A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.

Abstrak makalah

Retrieval-Augmented Generation (RAG) adalah strategi yang kuat untuk mengatasi masalah keluaran yang tidak sesuai fakta pada foundation model dengan mengambil pengetahuan eksternal yang relevan dengan kueri dan mengintegrasikannya ke dalam proses generasi. Namun, pendekatan RAG yang ada terutama berfokus pada informasi tekstual, dan beberapa pendekatan yang lebih maju yang baru-baru ini mulai mempertimbangkan gambar sering kali mengabaikan video, sumber pengetahuan multimodal yang kaya yang dapat merepresentasikan peristiwa, proses, dan detail kontekstual dengan lebih efektif daripada modalitas lain mana pun. Beberapa riset terbaru memang mengeksplorasi cara mengintegrasikan video ke dalam proses pembuatan respons, tetapi mereka tidak mengambil video berdasarkan kueri dan malah menggunakan video terkait kueri yang telah ditentukan sebelumnya, atau mengubahnya menjadi deskripsi teks tanpa memanfaatkan kekayaan multimodal video tersebut. Untuk mengatasi masalah ini, kami memperkenalkan VideoRAG, sebuah framework baru yang tidak hanya secara dinamis mengambil video yang relevan berdasarkan keterkaitannya dengan kueri, tetapi juga memanfaatkan baik informasi visual maupun tekstual dari video saat menghasilkan keluaran. Selain itu, untuk mengoperasionalkannya, kami mengimplementasikan metode yang berpusat pada kemajuan terbaru dalam Large Video Language Models (LVLM), yang memungkinkan pemrosesan langsung terhadap konten video untuk merepresentasikannya bagi keperluan retrieval dan mengintegrasikan video yang diambil bersama kueri secara mulus. Secara eksperimental, kami memvalidasi efektivitas VideoRAG dan menunjukkan bahwa metode ini lebih unggul dibandingkan baseline yang relevan.

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Tautan makalah

https://arxiv.org/abs/2501.05874

Baca lebih lanjut

https://x.com/omarsar0/status/1878827350315659421


Titan: Belajar Menghafal Saat Waktu Uji / Titans: Learning to Memorize at Test Time

Pengantar makalah

Memperkenalkan modul memori jangka panjang neural untuk mengingat konteks historis dan membantu attention memperhatikan konteks saat ini sambil memanfaatkan informasi masa lalu yang panjang; modul memori neural bertindak sebagai memori jangka panjang yang lebih persisten dibandingkan hanya menggunakan attention saja (yang dianggap lebih bersifat jangka pendek); Titan, yang berbasis pada memori neural, menunjukkan hasil yang baik pada pemodelan bahasa, penalaran common-sense, genomika, dan tugas deret waktu.

Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.

Abstrak makalah (Abstract)

Selama lebih dari satu dekade, telah ada upaya riset yang luas tentang cara memanfaatkan model rekuren dan attention secara efektif. Model rekuren bertujuan untuk memampatkan data ke dalam memori berukuran tetap (yang disebut hidden state), sementara attention memungkinkan model memperhatikan seluruh jendela konteks dengan menangkap ketergantungan langsung dari semua token. Namun, pemodelan ketergantungan yang lebih akurat ini datang dengan biaya kuadratik, sehingga membatasi model pada konteks dengan panjang tetap. Kami memperkenalkan modul memori jangka panjang neural baru yang belajar mengingat konteks historis dan membantu attention memperhatikan konteks saat ini sambil memanfaatkan informasi dari masa lalu yang jauh. Kami menunjukkan bahwa memori neural ini memiliki keunggulan berupa pelatihan yang cepat dan dapat diparalelkan, sambil tetap mempertahankan inferensi yang cepat. Dari perspektif memori, kami berpendapat bahwa attention, karena konteksnya terbatas tetapi pemodelan ketergantungannya akurat, berfungsi sebagai memori jangka pendek, sedangkan memori neural, karena kemampuannya menghafal data, bertindak sebagai memori jangka panjang yang lebih persisten. Berdasarkan dua modul ini, kami memperkenalkan keluarga arsitektur baru yang disebut Titans, dan menyajikan tiga varian untuk menunjukkan bagaimana memori dapat diintegrasikan secara efektif ke dalam arsitektur ini. Hasil eksperimen kami pada language modeling, penalaran akal sehat, genomik, dan tugas deret waktu menunjukkan bahwa Titans lebih efektif daripada Transformer dan model rekuren linear modern terbaru. Selain itu, model ini dapat diskalakan secara efektif ke ukuran jendela konteks lebih dari 2M dengan akurasi yang lebih tinggi pada tugas needle-in-haystack dibandingkan baseline.

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

Tautan makalah

https://arxiv.org/abs/2501.00663

Baca lebih lanjut

https://x.com/omarsar0/status/1879896681010921742


Dasar-Dasar Model Bahasa Skala Besar / Foundations of Large Language Models

Pengantar makalah

Survei baru tentang dasar-dasar LLM yang mencakup area seperti pra-pelatihan, prompt, dan metode alignment.

New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.

Abstrak makalah

Buku ini membahas model bahasa skala besar. Seperti yang ditunjukkan oleh judulnya, buku ini terutama berfokus pada konsep-konsep dasar alih-alih mencakup secara komprehensif semua teknologi paling mutakhir. Buku ini disusun menjadi empat bab utama, yang masing-masing mengeksplorasi satu area kunci: pra-pelatihan, model generatif, teknik prompting, dan metode alignment. Buku ini ditujukan bagi mahasiswa, profesional, dan praktisi di bidang pemrosesan bahasa alami serta bidang terkait, dan dapat menjadi referensi bagi siapa pun yang tertarik pada model bahasa skala besar.

This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.

Tautan makalah

https://arxiv.org/abs/2501.09223

Baca lebih lanjut

https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895

https://x.com/omarsar0/status/1880284477445767586


OmniThink: Memperluas Batas Pengetahuan dalam Penulisan Mesin melalui Pemikiran / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Pengantar makalah

Kerangka kerja baru yang meniru proses ekspansi dan refleksi iteratif yang mirip manusia; dirancang untuk mensimulasikan perilaku kognitif para pembelajar saat mereka memperdalam pengetahuan; dibandingkan dengan RAG dan role-playing, OmniThink dapat memperluas batas pengetahuan melalui refleksi dan eksplorasi berkelanjutan; hal ini menjadikannya ideal untuk kasus penggunaan yang memerlukan generasi long-form.

A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.

Abstrak makalah

Penulisan mesin dengan model bahasa besar sering bergantung pada retrieval-augmented generation. Namun, pendekatan seperti ini tetap terbatas dalam batas ruang lingkup model yang telah ditentukan sebelumnya, sehingga membatasi pembuatan konten yang kaya informasi. Secara khusus, informasi yang diambil secara vanilla cenderung kurang mendalam, kurang berguna, dan penuh redundansi, yang berdampak negatif pada kualitas artikel yang dihasilkan, sehingga menghasilkan keluaran yang dangkal, repetitif, dan tidak orisinal. Untuk mengatasi masalah ini, diusulkan OmniThink, sebuah framework penulisan mesin yang meniru proses ekspansi dan refleksi iteratif ala manusia. Ide inti di balik OmniThink adalah mensimulasikan perilaku kognitif para pembelajar saat mereka secara bertahap memperdalam pengetahuan mereka tentang suatu topik. Hasil eksperimen menunjukkan bahwa OmniThink meningkatkan kepadatan pengetahuan dari artikel yang dihasilkan tanpa mengorbankan metrik seperti koherensi dan kedalaman. Evaluasi manusia dan umpan balik para ahli semakin menyoroti potensi OmniThink untuk mengatasi tantangan dunia nyata dalam pembuatan artikel bentuk panjang.

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

Tautan makalah

https://arxiv.org/abs/2501.09751

Baca lebih lanjut

https://x.com/omarsar0/status/1880275861401923619


Meningkatkan Retrieval-Augmented Generation: Studi Praktik Terbaik / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Pengenalan makalah

Meninjau secara sistematis faktor dan metode yang meningkatkan sistem RAG seperti strategi retrieval, ekspansi kueri, contrastive in-context learning, desain prompt, dan chunking.

Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.

Abstrak makalah (Abstract)

Sistem Retrieval-Augmented Generation (RAG) belakangan ini menunjukkan kemajuan yang luar biasa dengan mengintegrasikan mekanisme retrieval ke dalam model bahasa, sehingga meningkatkan kemampuannya untuk menghasilkan respons yang lebih akurat dan relevan secara kontekstual. Namun, pengaruh dari berbagai komponen dan konfigurasi di dalam sistem RAG masih belum banyak dieksplorasi. Pemahaman yang komprehensif terhadap elemen-elemen ini sangat penting untuk menyesuaikan sistem RAG dengan tugas retrieval yang kompleks dan memastikan kinerja optimal di berbagai aplikasi. Dalam makalah ini, kami mengembangkan beberapa desain sistem RAG tingkat lanjut yang menggabungkan ekspansi kueri, berbagai strategi retrieval baru, dan Contrastive In-Context Learning RAG yang baru. Studi kami secara sistematis menyelidiki faktor-faktor utama, termasuk ukuran model bahasa, desain prompt, ukuran chunk dokumen, ukuran basis pengetahuan, retrieval stride, teknik ekspansi kueri, basis pengetahuan Contrastive In-Context Learning, basis pengetahuan multibahasa, dan Focus Mode yang mengambil konteks relevan pada tingkat kalimat. Melalui eksperimen yang ekstensif, kami memberikan analisis terperinci tentang bagaimana faktor-faktor ini memengaruhi kualitas respons. Temuan kami menawarkan insight yang dapat ditindaklanjuti untuk mengembangkan sistem RAG, menyeimbangkan kekayaan konteks dan efisiensi retrieval-generation, sehingga membuka jalan bagi framework RAG yang lebih adaptif dan berkinerja tinggi dalam beragam skenario dunia nyata. Kode dan detail implementasi kami tersedia untuk publik.

Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.

Tautan makalah

https://arxiv.org/abs/2501.07391

Baca lebih lanjut

https://x.com/omarsar0/status/1879178916021318029


AutoCBT: Kerangka kerja multi-agen otonom untuk terapi perilaku kognitif dalam konseling psikologis / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Pengantar makalah

Mengusulkan AutoCBT, kerangka kerja multi-agen untuk terapi perilaku kognitif. Studi ini mengusulkan kerangka kerja multi-agen umum yang menghasilkan respons berkualitas tinggi untuk skenario konseling psikologis satu giliran, meningkatkan kemampuan otonom tiap agen dengan menggunakan kombinasi dynamic routing, memori, dan mekanisme supervisi; hasil eksperimen menunjukkan bahwa AutoCBT dapat menyediakan layanan konseling psikologis otomatis berkualitas tinggi; AutoCBT meningkatkan kualitas dialog dibandingkan kerangka konseling lain yang murni berbasis prompt.

Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.

Abstrak makalah (Abstract)

Konseling psikologis tatap muka tradisional sebagian besar masih menjadi pasar niche yang dipilih oleh individu dengan masalah psikologis, sementara konseling otomatis online menawarkan solusi potensial bagi mereka yang ragu mencari bantuan karena rasa malu. Cognitive Behavioral Therapy (CBT) adalah pendekatan yang esensial dan banyak digunakan dalam konseling psikologis. Munculnya large language model (LLM) dan teknologi agen memungkinkan diagnosis dan terapi CBT otomatis. Namun, sistem CBT berbasis LLM saat ini menggunakan agen dengan struktur tetap sehingga kemampuan optimasi mandirinya terbatas, atau memberikan saran yang kosong dan tidak membantu akibat pola respons yang redundan. Dalam penelitian ini, kami memanfaatkan model konsultasi satu putaran ala Quora dan model konsultasi satu putaran YiXinLi untuk membangun kerangka agen umum yang menghasilkan respons berkualitas tinggi untuk skenario konsultasi psikologis satu giliran. Kami menggunakan dataset dwibahasa untuk mengevaluasi kualitas konsultasi respons tunggal yang dihasilkan oleh tiap kerangka. Selanjutnya, kami mengintegrasikan mekanisme dynamic routing dan supervisi yang terinspirasi dari konseling psikologis nyata untuk membangun kerangka multi-konselor otonom berorientasi CBT, sekaligus menunjukkan keterterapan umumnya. Hasil eksperimen menunjukkan bahwa AutoCBT dapat menyediakan layanan konseling psikologis otomatis dengan kualitas yang lebih tinggi.

Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.

Tautan makalah

https://arxiv.org/abs/2501.09426

Baca selengkapnya

https://x.com/omarsar0/status/1880283025595867631


Bayangkan sambil bernalar dalam ruang: visualisasi pemikiran multimodal / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Pengantar makalah

Memperkenalkan MVoT (Multimodal Visualization-of-Thought), kerangka penalaran baru yang memungkinkan model AI "berpikir" baik dalam teks maupun gambar, serta meningkatkan prompt Chain-of-Thought tradisional dengan memungkinkan model menghasilkan representasi visual dari langkah-langkah penalarannya bersama penjelasan teks; kerangka ini diimplementasikan pada Chameleon-7B, model bahasa multimodal, dan memperkenalkan "token discrepancy loss" untuk meningkatkan kualitas visualisasi yang dihasilkan; terutama pada skenario kompleks, performanya jauh melampaui pendekatan tradisional, dengan MVoT mencapai akurasi di atas 90% pada tugas maze dan instalasi printer.

Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.

Abstrak makalah (Abstract)

Prompt Chain-of-Thought (CoT) telah terbukti sangat efektif untuk meningkatkan penalaran kompleks pada Large Language Models (LLM) dan Multimodal Large Language Models (MLLM). Namun, pendekatan ini kesulitan pada tugas penalaran spasial yang kompleks. Meski demikian, kognisi manusia tidak terbatas pada bahasa saja, melainkan meluas sehingga memungkinkan kemampuan berpikir yang luar biasa baik dalam kata maupun gambar. Terinspirasi oleh mekanisme ini, kami mengusulkan paradigma penalaran baru, Multimodal Visualization-of-Thought (MVoT). Paradigma ini memungkinkan pemikiran visual dalam MLLM dengan menghasilkan visualisasi gambar dari jejak penalarannya. Untuk memastikan visualisasi berkualitas tinggi, kami memperkenalkan token discrepancy loss ke dalam MLLM autoregresif. Inovasi ini secara signifikan meningkatkan koherensi visual dan fidelity. Kami memvalidasi pendekatan ini melalui beberapa tugas penalaran spasial dinamis. Hasil eksperimen menunjukkan bahwa MVoT menampilkan performa yang kompetitif di berbagai tugas. Selain itu, MVoT menunjukkan peningkatan yang kuat dan andal bahkan dalam skenario paling menantang saat CoT gagal. Pada akhirnya, MVoT membuka kemungkinan baru untuk tugas penalaran kompleks, di mana pemikiran visual dapat secara efektif melengkapi penalaran verbal.

Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.

Tautan makalah

https://arxiv.org/abs/2501.07542

Baca lebih lanjut

https://x.com/omarsar0/status/1879181711982129420


ChemAgent: Pustaka yang Memperbarui Diri di Large Language Models Meningkatkan Penalaran Kimia / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Pengantar makalah

Kami memperkenalkan kerangka kerja baru yang dirancang untuk meningkatkan performa LLM dalam penalaran kimia melalui pustaka dinamis yang memperbarui dirinya sendiri. Pustaka ini dikembangkan dengan memecah tugas kimia menjadi sub-tugas dan mengompilasikannya ke dalam koleksi terstruktur yang dapat dirujuk untuk kueri di masa mendatang; ketika sistem diberi masalah baru, sistem mencoba kembali dan menyempurnakan informasi relevan dari pustaka untuk memungkinkan dekomposisi tugas yang lebih efektif; pustaka diperbarui secara dinamis dengan sub-tugas dan solusi baru saat keduanya ditemukan dan divalidasi; eksperimen pada SciBench menunjukkan bahwa ChemAgent mencapai peningkatan performa hingga 46% (GPT-4), jauh melampaui metode yang ada.

Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.

Abstrak makalah (Abstract)

Penalaran kimia umumnya melibatkan proses kompleks bertahap banyak yang menuntut perhitungan presisi, di mana bahkan kesalahan kecil pun dapat menyebabkan kegagalan berantai. Selain itu, model bahasa besar (LLM) mengalami kesulitan saat menangani tugas penalaran kimia dalam memproses rumus khusus domain, mengeksekusi langkah penalaran secara akurat, dan mengintegrasikan kode secara efektif. Untuk mengatasi tantangan ini, Unity memperkenalkan ChemAgent, sebuah framework baru yang dirancang untuk meningkatkan kinerja LLM melalui pustaka dinamis yang memperbarui dirinya sendiri. Pustaka ini dikembangkan dengan memecah tugas kimia menjadi sub-tugas dan mengompilasi sub-tugas tersebut ke dalam koleksi terstruktur yang dapat dirujuk untuk kueri di masa mendatang. Lalu, ketika masalah baru diberikan, ChemAgent mengambil dan menyempurnakan informasi yang relevan dari pustaka tersebut, yang mereka sebut sebagai memori, sehingga memudahkan dekomposisi tugas yang efektif dan pembuatan solusi. Metode ini merancang tiga jenis memori dan komponen penalaran yang diperkuat pustaka, sehingga memungkinkan LLM meningkat seiring waktu melalui pengalaman. Hasil eksperimen pada empat dataset penalaran kimia dari SciBench menunjukkan bahwa ChemAgent mencapai peningkatan kinerja hingga 46% (GPT-4), jauh melampaui metode yang ada. Temuan ini menunjukkan potensi besar untuk aplikasi di masa depan, termasuk tugas seperti penemuan obat dan ilmu material. Detail lebih lanjut dapat dilihat di https://github.com/gersteinlab/chemagent

Chemical reasoning usually involves complex, multi-step processes that demand precise calculations, where even minor errors can lead to cascading failures. Furthermore, large language models (LLMs) encounter difficulties handling domain-specific formulas, executing reasoning steps accurately, and integrating code effectively when tackling chemical reasoning tasks. To address these challenges, we present ChemAgent, a novel framework designed to improve the performance of LLMs through a dynamic, self-updating library. This library is developed by decomposing chemical tasks into sub-tasks and compiling these sub-tasks into a structured collection that can be referenced for future queries. Then, when presented with a new problem, ChemAgent retrieves and refines pertinent information from the library, which we call memory, facilitating effective task decomposition and the generation of solutions. Our method designs three types of memory and a library-enhanced reasoning component, enabling LLMs to improve over time through experience. Experimental results on four chemical reasoning datasets from SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods. Our findings suggest substantial potential for future applications, including tasks such as drug discovery and materials science. Our code can be found at https://github.com/gersteinlab/chemagent

Tautan makalah

https://arxiv.org/abs/2501.06590

Baca lebih lanjut

https://github.com/gersteinlab/chemagent

https://x.com/omarsar0/status/1879188983705747754


Artikel asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb


  • Tulisan ini dirangkum menggunakan model GPT, sehingga mungkin ada bagian yang kurang tepat, jadi mohon lihat juga artikel asli di bagian bawah! Jika saat membaca Anda menemukan isi yang terasa janggal atau keliru, mohon beri tahu kami lewat komentar.* 🤗

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email💌! Default-nya Weekly, tetapi bisa diubah ke Daily.

Belum ada komentar.

Belum ada komentar.