17] Paper ML Utama Pilihan Minggu Ini (Top ML Papers of the Week)

(discuss.pytorch.kr)

4 poin oleh ninebow 2024-03-19 | 6 komentar | Bagikan ke WhatsApp

[2024/03/11 ~ 03/17] Paper ML Utama Pilihan Minggu Ini (Top ML Papers of the Week)

Kami telah mencoba menerjemahkan secara otomatis tulisan mingguan tentang paper ML yang dipublikasikan oleh DAIR.AI.
Minggu ini, paper tentang large language models (LLM) muncul sebagai tren utama. Kecenderungan ini terlihat dari banyak paper yang berfokus pada LLM untuk menyelesaikan atau memahami berbagai masalah. Misalnya, paper seperti "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs", dan "LLMs Predict Neuroscience Results" membahas penggunaan large language models atau isu yang terkait dengan kinerjanya. Selain itu, paper seperti "Stealing Part of a Production Language Model" menunjukkan bahwa language model juga diteliti dari sisi keamanan.
Kecenderungan ini tampaknya mencerminkan perubahan revolusioner dan pengaruh besar yang dibawa oleh large language models dalam komunitas riset AI selama beberapa tahun terakhir. Large language models tidak hanya memantapkan posisinya dalam natural language processing (NLP), tetapi juga sebagai foundation model yang efektif di berbagai domain. Dengan demikian, LLM menunjukkan performa tinggi dalam beragam tugas pemahaman dan generasi bahasa, serta dieksplorasi secara luas dalam riset terapan. Selain itu, paper seperti "Multimodal LLM Pre-training" menunjukkan tren riset terbaru di mana LLM digabungkan dengan bentuk data lain seperti gambar dan suara untuk memperkuat kemampuan pembelajaran multimodal.
Berdasarkan analisis ini, dapat diperkirakan bahwa riset tentang LLM akan terus meningkatkan pemahaman bahasa alami, meluas ke berbagai bidang aplikasi baru, dan memainkan peran penting dalam perkembangan teknologi AI. Bukan hanya peningkatan performa LLM, tetapi juga berbagai isu yang mencakup riset terapan, keamanan, dan persoalan etika tampaknya akan terus dieksplorasi.

SIMA / SIMA

Pengenalan paper

Agen AI generalis untuk lingkungan virtual 3D yang mengikuti instruksi bahasa alami di berbagai lingkungan virtual 3D dan video game; SIMA dievaluasi pada 600 keterampilan dasar, mencakup navigasi, interaksi objek, dan penggunaan menu. Bahasa tampaknya menjadi faktor yang sangat besar dalam performa.

A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

Abstrak paper (Abstract)

Membangun sistem embodied AI yang dapat mengikuti instruksi bahasa arbitrer di lingkungan 3D apa pun adalah tantangan utama dalam menciptakan AI umum. Untuk mencapai tujuan ini, sistem perlu mempelajari cara mengaitkan bahasa dengan persepsi dan tindakan embodied agar dapat menyelesaikan tugas-tugas kompleks. Proyek Scalable, Instructable, Multiworld Agent (SIMA) menangani masalah ini dengan melatih agen untuk mengikuti instruksi bentuk bebas di beragam lingkungan virtual 3D, termasuk lingkungan riset yang dikurasi serta video game komersial yang terbuka. Tujuan mereka adalah mengembangkan agen yang dapat diberi instruksi dan mampu melakukan apa pun yang dapat dilakukan manusia di lingkungan 3D simulasi mana pun. Pendekatan mereka berfokus pada generalitas yang digerakkan oleh bahasa dengan asumsi seminimal mungkin. Agen mereka berinteraksi dengan lingkungan secara real-time menggunakan antarmuka generik yang mirip manusia: masukannya adalah observasi gambar dan instruksi bahasa, sedangkan keluarannya adalah aksi keyboard dan mouse. Pendekatan umum ini memang menantang, tetapi memungkinkan agen mengaitkan bahasa di banyak lingkungan yang kompleks secara visual dan kaya secara semantik, sekaligus memudahkan menjalankan agen di lingkungan baru. Dalam paper ini, mereka menjelaskan motivasi dan tujuan, kemajuan awal yang telah dicapai, serta hasil awal yang menjanjikan pada beberapa lingkungan riset yang beragam dan berbagai video game komersial.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Tautan paper

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

Baca selengkapnya

https://discuss.pytorch.kr/t/gn-google-sima-3d-ai/3764

https://x.com/GoogleDeepMind/status/1767918515585994818

RAT: Pemikiran yang Ditambah Pencarian Memunculkan Penalaran Sadar-Konteks dalam Generasi Jangka Panjang / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Pengenalan paper

Menunjukkan bahwa merevisi chain-of-thought secara iteratif dengan pencarian informasi dapat secara signifikan meningkatkan penalaran dan generasi LLM pada tugas generasi jangka panjang. Gagasan utamanya adalah setiap langkah pemikiran direvisi dengan informasi yang diambil dan relevan terhadap kueri tugas, serta langkah pemikiran saat ini dan sebelumnya. Retrieval-augmented thoughts (RAT) dapat diterapkan pada berbagai model seperti GPT-4 dan CodeLLaMA-7b untuk meningkatkan tugas generasi jangka panjang (misalnya penulisan kreatif dan perencanaan tugas embodied); RAT adalah pendekatan prompting zero-shot dan memberikan peningkatan signifikan dibanding baseline termasuk zero-shot CoT prompting, vanilla RAG, dan baseline lainnya.

Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

Abstrak paper

Kami mengeksplorasi bagaimana merevisi chain-of-thought secara iteratif dengan bantuan pencarian informasi dapat secara signifikan meningkatkan kemampuan penalaran dan generasi model bahasa besar pada tugas generasi jangka panjang, sekaligus sangat mengurangi halusinasi. Secara khusus, metode yang diusulkan -- retrieval-augmented thoughts (RAT) -- merevisi setiap langkah pemikiran satu per satu menggunakan informasi yang diambil dan relevan terhadap kueri tugas, serta langkah pemikiran saat ini dan sebelumnya, setelah zero-shot CoT awal dihasilkan. Penerapan RAT pada GPT-3.5, GPT-4, dan CodeLLaMA-7b secara substansial meningkatkan performa mereka pada berbagai tugas generasi jangka panjang; rata-rata skor evaluasi meningkat secara relatif sebesar 13.63% pada generasi kode, 16.96% pada penalaran matematis, 19.2% pada penulisan kreatif, dan 42.78% pada perencanaan tugas embodied. Halaman demo dapat dilihat di https://craftjarvis.github.io/RAT

We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

Tautan paper

https://arxiv.org/abs/2403.05313

Baca lebih lanjut

https://x.com/omarsar0/status/1767251740443746435

Quiet-STaR: Model bahasa dapat belajar berpikir sendiri sebelum berbicara / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Pengenalan paper

Memperkenalkan generalisasi dari STaR yang disebut Quiet-STaR untuk memungkinkan model bahasa (LM) belajar bernalar dengan cara yang lebih umum dan skalabel. Quiet-STaR memungkinkan LM menghasilkan rasional pada setiap token untuk menjelaskan teks di masa depan; paper ini mengusulkan algoritme sampling paralel per token yang membantu meningkatkan prediksi LM dengan secara efisien menghasilkan pemikiran internal; pembuatan rasional ditingkatkan menggunakan REINFORCE.

Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

Abstrak paper

Saat menulis atau berbicara, manusia terkadang berhenti sejenak untuk berpikir. Meskipun karya yang berfokus pada penalaran sering menggambarkan penalaran sebagai metode untuk menjawab pertanyaan atau menyelesaikan tugas agen, penalaran sebenarnya tersirat dalam hampir semua teks tertulis. Misalnya, ini berlaku pada langkah-langkah yang tidak dinyatakan di antara baris-baris sebuah pembuktian atau pada theory of mind yang mendasari sebuah percakapan. Dalam Self-Taught Reasoner (STaR, Zelikman dkk. 2022), cara berpikir yang berguna dipelajari dengan menyimpulkan rasional dari beberapa contoh dalam tanya-jawab dan belajar dari contoh yang menghasilkan jawaban benar. Idealnya, model bahasa seharusnya dapat mempelajari cara menyimpulkan alasan yang tidak dinyatakan dari teks sebarang, tetapi ini merupakan pengaturan yang sangat terbatas. Kami memperkenalkan Quiet-STaR, versi generalisasi dari STaR, di mana LM belajar menghasilkan rasional pada setiap token untuk menjelaskan teks di masa depan sehingga meningkatkan prediksinya. Kami mengatasi tantangan utama, termasuk 1) biaya komputasi untuk menghasilkan kelanjutan, 2) fakta bahwa LM pada awalnya tidak tahu cara menghasilkan atau menggunakan pemikiran internal, dan 3) kebutuhan untuk memprediksi melampaui token berikutnya secara individual. Untuk mengatasi hal ini, kami mengusulkan algoritme sampling paralel per token yang menggunakan token terlatih untuk menandai awal dan akhir sebuah pemikiran, serta teknik teacher forcing yang diperluas. Yang menggembirakan, rasional yang dihasilkan sangat membantu dalam memodelkan token-token yang sulit diprediksi dan meningkatkan kemampuan LM untuk langsung menjawab pertanyaan sulit. Secara khusus, setelah pretraining lanjutan sebuah LM pada korpus teks internet dengan Quiet-STaR, kami menemukan peningkatan zero-shot pada GSM8K (5.9% $\rightarrow$ 10.9%) dan CommonsenseQA (36.3% $\rightarrow$ 47.2%), serta mengamati peningkatan perplexity pada token-token sulit dalam teks alami. Yang terpenting, peningkatan ini tidak memerlukan fine-tuning pada tugas-tugas tersebut. Quiet-STaR menandai satu langkah menuju LM yang dapat belajar bernalar dengan cara yang lebih umum dan skalabel.

When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.

Tautan makalah

https://arxiv.org/abs/2403.09629

Baca lebih lanjut

https://x.com/omarsar0/status/1768681638009975088

Konflik Pengetahuan untuk LLM: Survei / Knowledge Conflicts for LLMs: A Survey

Pengantar makalah

Makalah survei ini mengklasifikasikan masalah konflik pengetahuan yang umum terjadi saat bekerja dengan LLM ke dalam konflik konteks-memori, antarkonteks, dan intramemori, serta memberikan wawasan tentang penyebab dan kemungkinan metode untuk meredakan masalah konflik pengetahuan ini.

An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.

Abstrak makalah (Abstract)

Survei ini memberikan analisis mendalam tentang konflik pengetahuan pada large language model (LLM), menyoroti tantangan kompleks yang dihadapi saat menggabungkan pengetahuan kontekstual dan pengetahuan parametrik. Fokusnya adalah pada tiga kategori konflik pengetahuan lintas-attention: konflik context-memory, inter-context, dan intra-memory. Konflik-konflik ini dapat berdampak besar pada keandalan dan performa LLM, terutama dalam aplikasi dunia nyata yang penuh noise dan misinformasi. Dengan mengategorikan konflik ini, menelusuri penyebabnya, mengamati perilaku LLM dalam situasi konflik tersebut, dan meninjau solusi yang tersedia, survei ini bertujuan menyoroti strategi untuk meningkatkan robustness LLM, sehingga dapat menjadi sumber daya berharga untuk memajukan riset di bidang yang terus berkembang ini.

This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

Tautan paper

https://arxiv.org/abs/2403.08319

Baca lebih lanjut

https://x.com/omarsar0/status/1768288774532858003

Mencuri Sebagian dari Model Bahasa Produksi / Stealing Part of a Production Language Model

Perkenalan paper

Memperkenalkan serangan pencurian model pertama yang mengekstrak informasi dari model bahasa produksi seperti ChatGPT atau PaLM-2, serta menunjukkan bahwa pemulihan embedding projection layer dari model berbasis transformer dimungkinkan melalui akses API biasa, dengan contoh ekstraksi seluruh projection matrix dari model openai ada dan babbage dengan biaya kurang dari 20 dolar.

Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

Abstrak paper (Abstract)

Memperkenalkan serangan pencurian model pertama yang mengekstrak informasi presisi dan nontrivial dari model bahasa produksi black-box seperti ChatGPT milik OpenAI atau PaLM-2 milik Google. Secara khusus, serangan ini memulihkan embedding projection layer (hingga simetri) dari model transformer dengan akses API biasa. Dengan biaya kurang dari 20 dolar AS, serangan ini dapat mengekstrak seluruh projection matrix dari model bahasa Ada dan Babbage milik OpenAI. Melalui hal ini, untuk pertama kalinya dikonfirmasi bahwa model black-box tersebut masing-masing memiliki hidden dimension 1024 dan 2048. Penelitian ini juga memulihkan ukuran hidden dimension yang tepat dari model gpt-3.5-turbo, dan memperkirakan bahwa pemulihan seluruh projection matrix akan membutuhkan biaya kueri kurang dari 2.000 dolar. Terakhir, paper ini menyajikan kemungkinan pertahanan dan mitigasi, serta membahas implikasi dari kemungkinan pekerjaan lanjutan yang dapat memperluas serangan ini.

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

Tautan paper

https://arxiv.org/abs/2403.06634

Baca lebih lanjut

https://x.com/omarsar0/status/1767641831079067694

Branch-Train-MiX: Mencampurkan LLM ahli menjadi LLM Mixture-of-Experts / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Perkenalan paper

Mengusulkan pencampuran expert LLM ke dalam pembelajaran mixture-of-experts sebagai pendekatan yang lebih efisien secara komputasi untuk melatih LLM. Pendekatan ini terbukti lebih efisien dibandingkan melatih LLM generalis yang lebih besar atau beberapa LLM spesialis terpisah. Pendekatan ini, BTX, mula-mula melatih secara paralel beberapa salinan seed LLM yang dispesialisasikan untuk domain berbeda (yakni expert LLM), lalu menggabungkannya menjadi satu LLM menggunakan lapisan MoE feed-forward, kemudian melakukan fine-tuning pada keseluruhan model terpadu.

Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

Abstrak paper (Abstract)

Kami meneliti metode yang efisien untuk melatih Large Language Model (LLM) agar memiliki kapabilitas di berbagai domain khusus seperti coding, penalaran matematika, dan pengetahuan dunia. Metode ini, yang diberi nama BTX (Branch-Train-MiX), dimulai dari model seed yang dicabangkan untuk melatih para expert dengan throughput tinggi dan biaya komunikasi yang lebih rendah. Setelah masing-masing expert dilatih secara asinkron, BTX menggabungkan parameter feedforward mereka sebagai expert dalam lapisan Mixture-of-Expert (MoE), merata-ratakan parameter yang tersisa, lalu menjalani tahap fine-tuning MoE untuk mempelajari routing pada level token. BTX menggeneralisasi dua kasus khusus, yaitu metode Branch-Train-Merge yang tidak memiliki tahap fine-tuning MoE untuk mempelajari routing, dan sparse upcycling yang menghilangkan tahap pelatihan expert secara asinkron. Dibandingkan pendekatan lain, BTX mencapai tradeoff akurasi-efisiensi terbaik.

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

Tautan makalah

https://arxiv.org/abs/2403.07816

Baca lebih lanjut

https://x.com/jaseweston/status/1767727740952682667

Large language model melampaui pakar manusia dalam memprediksi hasil neurosains / Large language models surpass human experts in predicting neuroscience results

Pengantar makalah

Mengusulkan benchmark BrainBench untuk mengevaluasi kemampuan machine learning dalam memprediksi hasil neurosains, menemukan bahwa machine learning melampaui pakar dalam memprediksi hasil eksperimen, serta menunjukkan bahwa machine learning yang disesuaikan dengan literatur neurosains memberikan kinerja yang lebih baik.

Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

Abstrak makalah (Abstract)

Penemuan ilmiah sering kali bergantung pada sintesis penelitian selama puluhan tahun, sebuah tugas yang berpotensi melampaui kapasitas pemrosesan informasi manusia. Large language model (LLM) menawarkan solusi. LLM yang dilatih pada literatur ilmiah yang sangat luas berpotensi mengintegrasikan temuan yang penuh noise namun saling terkait untuk memprediksi hasil baru dengan lebih baik daripada pakar manusia. Untuk mengevaluasi kemungkinan ini, kami membuat BrainBench, benchmark berorientasi masa depan untuk memprediksi hasil neurosains. Kami menemukan bahwa LLM melampaui pakar dalam memprediksi hasil eksperimen. BrainGPT, LLM yang kami tuning berdasarkan literatur neurosains, menunjukkan kinerja yang lebih baik lagi. Seperti pakar manusia, ketika LLM yakin terhadap prediksinya, prediksi tersebut juga lebih mungkin benar, yang menandakan masa depan di mana manusia dan LLM bekerja sama untuk menghasilkan penemuan. Pendekatan kami tidak spesifik untuk neurosains dan dapat ditransfer ke upaya lain yang sangat intensif pengetahuan.

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

Tautan makalah

https://arxiv.org/abs/2403.03230

Baca lebih lanjut

https://x.com/ProfData/status/1765689739682754824

C4AI Command-R

Pengantar makalah

command-r, model berparameter 35b dengan panjang konteks 128k yang dioptimalkan untuk use case seperti penalaran, peringkasan, dan tanya jawab, memiliki kemampuan generasi multibahasa yang dievaluasi dalam 10 bahasa serta kemampuan penggunaan tool dan RAG yang berkinerja tinggi; model ini telah dirilis untuk tujuan riset.

A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

Tautan makalah

https://huggingface.co/CohereForAI/c4ai-command-r-v01

Baca lebih lanjut

https://x.com/CohereForAI/status/1767275927505977455

Apakah cosine similarity dari embedding benar-benar tentang kemiripan? / Is Cosine-Similarity of Embeddings Really About Similarity?

Pengantar makalah

Meneliti embedding yang diturunkan dari model linear terregularisasi dan menurunkan secara analitis bagaimana kemiripan kosinus dapat menghasilkan kemiripan yang arbitrer dan tidak bermakna; juga menemukan bahwa untuk beberapa model linear, kemiripan bahkan tidak unik dan pada model lain dikendalikan oleh regularisasi; penulis mengingatkan agar tidak menggunakan kemiripan kosinus secara membabi buta dan menyajikan pertimbangan serta alternatif.

Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

Abstrak makalah (Abstract)

Kemiripan kosinus adalah kosinus sudut antara dua vektor, atau secara ekuivalen hasil kali titik antara normalisasi keduanya. Kemiripan kosinus banyak digunakan untuk mengukur kemiripan semantik antara objek berdimensi tinggi dengan menerapkannya pada embedding fitur berdimensi rendah yang dipelajari. Dalam praktiknya, ini bisa bekerja lebih baik, tetapi kadang juga lebih buruk dibandingkan hasil kali titik yang tidak dinormalisasi antara vektor-vektor yang di-embedding. Untuk mendapatkan wawasan atas pengamatan empiris ini, kami mempelajari embedding yang diturunkan dari model linear terregularisasi, di mana solusi bentuk tertutup memudahkan wawasan analitis. Kami menurunkan secara analitis bagaimana kemiripan kosinus dapat menghasilkan `kemiripan' yang arbitrer dan karena itu tidak bermakna. Untuk beberapa model linear, kemiripan tersebut bahkan tidak unik, sementara untuk model lain, kemiripan itu secara implisit dikendalikan oleh regularisasi. Kami membahas implikasinya melampaui model linear: kombinasi berbagai regularisasi digunakan saat melatih model deep learning; hal ini menimbulkan efek implisit dan tak disengaja saat mengambil kemiripan kosinus dari embedding yang dihasilkan, sehingga hasil menjadi tidak transparan dan mungkin arbitrer. Berdasarkan wawasan ini, kami memperingatkan agar tidak menggunakan kemiripan kosinus secara membabi buta dan menguraikan alternatifnya.

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

Tautan makalah

https://arxiv.org/abs/2403.05440

Baca lebih lanjut

https://x.com/_reachsumit/status/1767045820384477575

MM1: Metode, Analisis, & Insight dari Pra-pelatihan LLM Multimodal / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Pengenalan makalah

Memberikan gambaran komprehensif tentang metode, analisis, dan insight terkait pra-pelatihan LLM multimodal; meneliti berbagai komponen arsitektur dan menemukan bahwa mencampur data image-caption, image-text yang diselingi, dan data teks saja secara cermat adalah kunci untuk mencapai kinerja state-of-the-art; juga mengusulkan keluarga model multimodal hingga 30b parameter yang mencapai SOTA pada metrik pra-pelatihan dan memiliki sifat seperti pembelajaran in-context yang ditingkatkan, penalaran multi-gambar, serta memungkinkan prompting chain-of-thought few-shot.

Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

Abstrak makalah (Abstract)

Dalam karya ini, dijelaskan cara membangun Multimodal Large Language Models (MLLM) yang berkinerja tinggi. Secara khusus, penelitian ini mengkaji pentingnya berbagai komponen arsitektur dan pilihan data. Melalui ablasi yang cermat dan komprehensif terhadap image encoder, vision language connector, dan berbagai pilihan data pra-pelatihan, ditemukan beberapa pelajaran desain penting. Sebagai contoh, ditunjukkan bahwa untuk pra-pelatihan multimodal skala besar, penggunaan campuran yang cermat antara data image-caption, interleaved image-text, dan text-only sangat penting untuk mencapai hasil few-shot state-of-the-art (SOTA) di berbagai benchmark, dibandingkan hasil pra-pelatihan lain yang telah dipublikasikan. Selain itu, ditunjukkan bahwa image encoder bersama resolusi gambar dan jumlah token gambar memberikan dampak yang signifikan, sementara desain vision-language connector relatif tidak terlalu penting. Dengan menskalakan resep yang disajikan, dibangun MM1, keluarga model multimodal hingga 30B parameter, yang terdiri dari model dense dan varian mixture-of-experts (MoE), yang mencapai SOTA pada metrik pra-pelatihan dan meraih performa kompetitif setelah supervised fine-tuning pada berbagai benchmark multimodal yang telah mapan. Berkat pra-pelatihan skala besar, MM1 memiliki karakteristik menarik seperti in-context learning yang lebih baik dan penalaran multi-image, sehingga memungkinkan few-shot chain-of-thought prompting.

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Tulisan ini dirangkum menggunakan model GPT, sehingga mungkin terdapat kekeliruan, jadi silakan juga merujuk ke artikel asli di bagian bawah! Jika saat membaca Anda menemukan bagian yang terasa janggal atau keliru, mohon beri tahu melalui komentar.

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh Komunitas Pengguna PyTorch Korea ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email! Default-nya Weekly, tetapi bisa diubah ke Daily.

6 komentar

prelude9903 2024-03-19

Tolong beri tahu alat terjemahan otomatis apa yang Anda gunakan.

ninebow 2024-03-19

Ya, saya menggunakan DeepL haha.
Baru-baru ini saya coba karena bahasa Korea juga sudah bisa membuat glosarium terjemahan, tetapi ada masalah orz...

libner 2024-03-19

Sepertinya pada pengenalan makalah di bagian RAT, rat dan rag masing-masing diterjemahkan menjadi tikus dan lap. Mungkin modelnya membaca huruf kecil itu apa adanya.

ninebow 2024-03-20

Saya sudah merevisinya seperti berikut. Terima kasih! :D

Menunjukkan bahwa revisi berulang terhadap chain-of-thought (CoT) melalui penelusuran informasi dapat secara signifikan meningkatkan penalaran dan generasi LLM pada tugas generasi berdurasi panjang. Ide intinya adalah setiap langkah pemikiran direvisi dengan informasi yang diambil dari pencarian yang relevan dengan kueri tugas, serta langkah pemikiran saat ini dan sebelumnya. Retrieval-Augmented Thoughts (RAT) dapat diterapkan pada model lain seperti GPT-4 dan CodeLlama-7b untuk tugas generasi berdurasi panjang (misalnya penulisan kreatif dan perencanaan tugas yang dirinci); RAT adalah pendekatan prompt zero-shot dan secara signifikan melampaui baseline termasuk zero-shot chain prompt, RAG dasar, dan baseline lainnya.

ninebow 2024-03-19

Oh, benar juga ya; saya akan memperbaiki teks aslinya hehe
Terima kasih!

ninebow 2024-03-19

Ups, judulnya... mohon diubah menjadi 'Makalah ML Utama Minggu Ini';;

[2024/03/11 ~ 03/17] Paper ML Utama Pilihan Minggu Ini (Top ML Papers of the Week)