[2023/11/13 ~ 11/19] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Ikhtisar
-
Kami telah mencoba menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
-
Minggu ini, penelitian yang berfokus pada peningkatan dan perluasan LLM (Large Language Models), yaitu model bahasa besar, menjadi arus utama. Secara khusus, terdapat makalah tentang pengoperasian LLM yang hemat biaya, pemanfaatannya untuk penemuan ilmiah, serta model bahasa untuk menghasilkan kode yang praktis. Selain itu, tampaknya penelitian untuk meningkatkan faktualitas model-model tersebut juga menjadi tren.
-
Model bahasa, khususnya LLM, tengah mendapat sorotan besar di bidang pemrosesan bahasa alami (NLP). Ini kemungkinan karena model-model tersebut kini mampu menangani tugas kebahasaan yang lebih kompleks dan beragam layaknya manusia. Model-model ini dapat diterapkan di berbagai area, seperti meniru penalaran yang terstruktur (Contrastive CoT Prompting) atau meningkatkan otomatisasi dalam pengembangan kode (A Survey on Language Models for Code). Selain itu, metode untuk lebih memajukan LLM, misalnya penguatan pencarian informasi melalui penyaringan konteks yang akurat (Learning to Filter Context for RAG) maupun penelitian ke arah yang tidak menipu pengguna (LLMs can Deceive Users), juga merupakan tren riset yang penting.
Video Emu dan Emu Edit / Emu Video and Emu Edit
Pengantar makalah
- Memperkenalkan model baru untuk penyuntingan gambar terkontrol dan pembuatan video dari teks berbasis model difusi. Emu Video dapat menghasilkan video berkualitas tinggi dengan menggunakan input hanya teks, hanya gambar, atau gabungan teks dan gambar, sementara Emu Edit memungkinkan penyuntingan bentuk bebas melalui instruksi teks.
Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.
Tautan makalah
Baca lebih lanjut
https://x.com/AIatMeta/status/1725184026154349007
CoN(Chain-of-Note): Meningkatkan Ketangguhan Model Bahasa Retrieval-Augmented / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models
Pengantar makalah
- Pendekatan untuk meningkatkan ketangguhan dan keandalan model bahasa retrieval-augmented saat menghadapi dokumen yang bising, tidak relevan, dan dalam menangani skenario yang tidak diketahui; CoN menghasilkan catatan pembacaan berurutan untuk dokumen yang diambil, sehingga memungkinkan evaluasi relevansinya terhadap pertanyaan yang diberikan dan mengintegrasikan informasi ini untuk merumuskan jawaban akhir; CoN secara signifikan melampaui model bahasa retrieval-augmented standar dan mencapai peningkatan skor EM rata-rata sebesar +7.9 pada dokumen hasil pencarian yang sepenuhnya bising serta +10.5 dalam tingkat penolakan untuk pertanyaan real-time yang berada di luar cakupan pengetahuan pra-pelatihan.
An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.
Abstrak makalah
- Model bahasa yang ditingkatkan dengan retrieval (RALM) merepresentasikan kemajuan besar dalam kemampuan model bahasa besar, terutama dalam mengurangi halusinasi faktual dengan memanfaatkan sumber pengetahuan eksternal. Namun, keandalan informasi yang diambil tidak selalu terjamin. Pengambilan data yang tidak relevan dapat menghasilkan respons yang keliru, dan model juga berpotensi mengabaikan pengetahuan intrinsiknya sendiri meskipun sebenarnya memiliki informasi yang cukup untuk menjawab kueri. Selain itu, RALM standar sering kesulitan menilai apakah mereka memiliki pengetahuan yang memadai, baik dari sisi internal maupun hasil retrieval, untuk memberikan jawaban yang akurat. Dalam situasi ketika pengetahuan tidak mencukupi, sistem seperti ini idealnya menjawab "tidak diketahui" saat jawaban memang tidak dapat diperoleh. Untuk menjawab tantangan ini, kami memperkenalkan CoN (Chain-of-Noting), sebuah pendekatan baru yang ditujukan untuk meningkatkan ketahanan RALM saat menghadapi dokumen yang bising dan tidak relevan serta dalam menangani skenario yang tidak diketahui. Gagasan inti CoN adalah menghasilkan catatan pembacaan berurutan untuk dokumen yang diambil, sehingga relevansinya terhadap pertanyaan yang diberikan dapat dievaluasi secara menyeluruh dan informasi ini dapat diintegrasikan untuk merumuskan jawaban akhir. Kami menggunakan ChatGPT untuk membuat data pelatihan bagi CoN, yang kemudian dilatih pada model LLaMa-2 7B. Hasil eksperimen pada empat benchmark QA open-domain menunjukkan bahwa RALM yang dilengkapi CoN secara signifikan mengungguli RALM standar. Secara khusus, CoN mencapai peningkatan rata-rata +7.9 pada skor EM ketika dokumen retrieval sepenuhnya berisi noise, serta +10.5 pada tingkat penolakan untuk pertanyaan real-time yang berada di luar cakupan pengetahuan pra-pelatihan.
Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.
Tautan makalah
https://arxiv.org/abs/2311.09210
Baca selengkapnya
https://x.com/omarsar0/status/1725181141693472959
Dampak Model Bahasa Besar terhadap Penemuan Ilmiah: Studi Pendahuluan menggunakan GPT-4 / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4
Pengantar makalah
- Mengeksplorasi dampak model bahasa besar, khususnya GPT-4, di berbagai bidang ilmiah seperti penemuan obat, biologi, dan kimia komputasional; menilai pemahaman GPT-4 terhadap konsep ilmiah yang kompleks, kemampuan pemecahan masalahnya, dan potensinya untuk memajukan penelitian ilmiah melalui evaluasi studi kasus berbasis pakar dan pengujian benchmark.
Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.
Abstrak makalah
- Dalam beberapa tahun terakhir, kemajuan terobosan dalam pemrosesan bahasa alami telah melahirkan large language model (LLM) yang sangat kuat, yang menunjukkan kinerja luar biasa di berbagai bidang, termasuk pemahaman, generasi, dan penerjemahan bahasa alami, bahkan hingga tugas-tugas yang melampaui pemrosesan bahasa. Laporan ini menelaah secara mendalam kinerja LLM dalam konteks penemuan ilmiah dengan berfokus pada GPT-4, model bahasa tercanggih saat ini. Penelitian ini mencakup beragam bidang sains, termasuk penemuan obat, biologi, kimia komputasi (density functional theory (DFT) dan molecular dynamics (MD)), perancangan material, serta persamaan diferensial parsial (PDE). Evaluasi GPT-4 pada tugas-tugas ilmiah sangat penting untuk mengungkap potensinya di berbagai domain riset, memvalidasi keahlian spesifik domainnya, mempercepat kemajuan ilmiah, mengoptimalkan alokasi sumber daya, memandu pengembangan model di masa depan, dan mendorong riset interdisipliner. Metodologi eksplorasi kami terutama terdiri dari penilaian kasus berbasis pakar, yang memberikan wawasan kualitatif tentang pemahaman model terhadap konsep dan relasi ilmiah yang rumit, serta pengujian benchmark yang secara kuantitatif mengevaluasi kapasitas model untuk menyelesaikan masalah spesifik domain yang terdefinisi dengan baik. Hasil eksplorasi awal menunjukkan bahwa GPT-4 memiliki potensi yang menjanjikan untuk beragam aplikasi ilmiah, dengan menunjukkan kecocokan untuk menangani pemecahan masalah kompleks dan tugas integrasi pengetahuan. Secara garis besar, kami mengevaluasi basis pengetahuan GPT-4, pemahaman ilmiahnya, kemampuan perhitungan numerik ilmiah, serta berbagai kemampuan prediksi ilmiah.
In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.
Tautan makalah
https://arxiv.org/abs/2311.07361
Baca lebih lanjut
https://x.com/omarsar0/status/1724465107046940893
Fine-tuning model bahasa untuk faktualitas / Fine-tuning Language Models for Factuality
Pengenalan makalah
- Melakukan fine-tuning model bahasa agar sesuai dengan faktualitas tanpa memerlukan pelabelan oleh manusia; model belajar dari peringkat preferensi faktualitas yang dihasilkan secara otomatis dan menargetkan skenario generasi terbuka; pendekatan ini secara signifikan meningkatkan faktualitas Llama-2 pada topik yang tidak disertakan dalam pelatihan dibandingkan RLHF atau strategi decoding yang ditujukan pada faktualitas.
Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.
Abstrak makalah
- Berkat kefasihan dan kreativitas model bahasa besar (LLM) yang telah dipra-latih, model bahasa kini digunakan secara luas, bahkan terkadang sebagai pengganti mesin pencari tradisional. Namun, model bahasa rentan membuat klaim yang meyakinkan tetapi tidak akurat secara faktual, yang sering disebut sebagai 'halusinasi'. Kesalahan ini dapat tanpa sengaja menyebarkan misinformasi atau melanggengkan kesalahpahaman yang merugikan. Selain itu, pemeriksaan fakta manual atas respons model adalah proses yang memakan waktu, sehingga label faktualitas dari manusia mahal untuk diperoleh. Dalam karya ini, kami melakukan fine-tuning pada model bahasa agar lebih faktual, tanpa pelabelan manusia dan dengan menargetkan pengaturan generasi yang lebih terbuka dibandingkan pekerjaan sebelumnya. Untuk itu, kami memanfaatkan dua inovasi utama terbaru di NLP. Pertama, beberapa penelitian terbaru telah mengusulkan metode untuk menilai faktualitas teks terbuka dengan mengukur konsistensinya terhadap basis pengetahuan eksternal atau sekadar skor keyakinan dari model besar. Kedua, algoritma direct preference optimization memungkinkan fine-tuning model bahasa secara langsung untuk tujuan selain imitasi terawasi, dengan menggunakan peringkat preferensi atas kemungkinan respons model. Kami menunjukkan bahwa belajar dari peringkat preferensi faktualitas yang dihasilkan secara otomatis, baik melalui sistem retrieval yang sudah ada maupun pendekatan baru kami tanpa retrieval, secara signifikan meningkatkan faktualitas Llama-2 (persentase klaim yang dihasilkan yang benar) pada topik yang ditahan dibandingkan RLHF atau strategi decoding yang ditujukan pada faktualitas. Pada skala 7B, dibandingkan dengan Llama-2-chat, kami mengamati penurunan tingkat kesalahan faktual sebesar 58% dan 40% masing-masing saat menghasilkan biografi dan menjawab pertanyaan medis.
The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.
Tautan makalah
https://arxiv.org/abs/2311.08401
Baca lebih lanjut
https://x.com/arankomatsuzaki/status/1724613041155608951
Prompting Chain-of-Thought Kontrastif / Contrastive Chain-of-Thought Prompting
Pengantar makalah
- Kami mengusulkan metode chain-of-thought kontrastif (CoT) untuk meningkatkan penalaran model bahasa. Pendekatan ini menyediakan demonstrasi penalaran yang valid dan tidak valid sekaligus, untuk membimbing model bernalar langkah demi langkah sambil mengurangi kesalahan penalaran. Kami juga mengusulkan metode otomatis untuk membangun demonstrasi kontrastif dan menunjukkan peningkatan dibandingkan prompting CoT.
Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.
Abstrak makalah
- Meskipun chain of thought berhasil meningkatkan penalaran model bahasa, proses yang mendasarinya masih belum dipahami dengan baik. Walaupun penalaran yang logis dan valid tampak sangat penting bagi chain of thought, studi sebelumnya secara mengejutkan menunjukkan bahwa penggunaan demonstrasi yang tidak valid hanya memberikan dampak yang kecil. Selain itu, chain of thought konvensional tidak memberi tahu model bahasa kesalahan apa yang harus dihindari, yang berpotensi menimbulkan lebih banyak error. Karena itu, terinspirasi oleh cara manusia belajar dari contoh positif maupun negatif, kami mengusulkan contrastive chain of thought untuk memperkuat penalaran model bahasa. Dibandingkan dengan chain of thought konvensional, pendekatan kami memberikan demonstrasi penalaran yang valid dan tidak valid sekaligus, untuk memandu model bernalar langkah demi langkah sambil mengurangi kesalahan penalaran. Untuk meningkatkan generalisasi, kami memperkenalkan metode otomatis untuk menyusun demonstrasi kontras. Eksperimen kami pada benchmark penalaran menunjukkan bahwa contrastive chain of thought dapat berfungsi sebagai peningkatan umum untuk chain-of-thought prompting.
Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.
Tautan makalah
https://arxiv.org/abs/2311.09277
Baca lebih lanjut
https://x.com/arankomatsuzaki/status/1725340150819905723
Makalah survei tentang model bahasa untuk kode / A Survey on Language Models for Code
Pengantar makalah
- Memberikan gambaran umum tentang LLM untuk kode, termasuk tinjauan atas lebih dari 50 model, lebih dari 30 tugas evaluasi, dan lebih dari 500 karya terkait.
Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.
Abstrak makalah
- Dalam karya ini, kami secara sistematis meninjau kemajuan terbaru dalam pemrosesan kode dengan model bahasa, mencakup lebih dari 50 model, lebih dari 30 tugas evaluasi, dan 500 lebih karya terkait. Kami membagi model pemrosesan kode menjadi model bahasa umum yang diwakili oleh keluarga GPT dan model khusus yang secara spesifik dipra-latih pada kode, sering kali dengan tujuan yang disesuaikan. Kami membahas hubungan dan perbedaan di antara model-model ini, serta menyoroti transisi historis pemodelan kode dari model statistik dan RNN ke Transformer pra-latih dan LLM, yang persis sama dengan jalur yang telah ditempuh NLP. Kami juga membahas fitur khusus kode seperti AST, CFG, dan unit test, beserta penerapannya dalam pelatihan model bahasa untuk kode, serta mengidentifikasi tantangan utama dan arah masa depan yang potensial di domain ini. Survei ini terus dibuka dan diperbarui di repositori GitHub (https://github.com/codefuse-ai/Awesome-Code-LLM).
In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.
Tautan makalah
https://arxiv.org/abs/2311.07989v1
Baca lebih lanjut
https://x.com/omarsar0/status/1725637165256761553
JARVIS-1: Agen multitugas open-world dengan model bahasa multimodal beraugmentasi memori / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
Pengantar makalah
- Sebuah agen open-world yang dapat memahami input multimodal seperti observasi visual dan instruksi manusia, menghasilkan rencana yang canggih, dan melakukan kontrol embodied di dalam dunia open-world Minecraft; menunjukkan performa yang nyaris sempurna pada lebih dari 200 tugas di dunia Minecraft; mencapai tingkat penyelesaian 12,5% pada tugas diamond pickaxe jangka panjang, yang merupakan peningkatan 5x dibanding rekor sebelumnya.
An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.
Abstrak makalah
- Mencapai perencanaan dan kontrol layaknya manusia melalui observasi multimodal di dunia terbuka merupakan tonggak penting menuju agen generalis yang lebih fungsional. Pendekatan yang ada dapat menangani tugas jangka panjang tertentu di dunia terbuka. Namun, pendekatan tersebut masih menghadapi kesulitan karena jumlah tugas di dunia terbuka dapat meningkat tanpa batas dan belum memiliki kemampuan untuk secara bertahap meningkatkan penyelesaian tugas seiring waktu permainan berlangsung. Unity memperkenalkan JARVIS-1, agen dunia terbuka yang mampu memahami input multimodal seperti observasi visual dan instruksi manusia, menghasilkan rencana yang canggih, serta menjalankan kontrol yang terwujud, semuanya di dalam semesta Minecraft dunia terbuka yang populer namun menantang. Secara khusus, Unity mengembangkan JARVIS-1 di atas model bahasa multimodal pralatih yang memetakan observasi visual dan instruksi teks ke dalam rencana. Rencana ini pada akhirnya diteruskan ke pengendali yang dikondisikan pada tujuan. Unity membekali JARVIS-1 dengan memori multimodal agar dapat menyusun rencana menggunakan baik pengetahuan pralatih maupun pengalaman bertahan hidup nyata di dalam game. Hasil eksperimen Unity menunjukkan bahwa JARVIS-1 menampilkan performa yang nyaris sempurna pada lebih dari 200 tugas beragam dalam Minecraft Universe Benchmark, dari tingkat pemula hingga menengah. JARVIS-1 mencapai tingkat penyelesaian 12,5% pada tugas kapak beliung berlian dengan horizon panjang. Ini merupakan peningkatan signifikan hingga 5 kali lipat dibandingkan rekor sebelumnya. Selain itu, berkat memori multimodal, ditunjukkan bahwa JARVIS-1 dapat $\textit{meningkatkan dirinya sendiri}$ mengikuti paradigma pembelajaran sepanjang hayat, memicu kecerdasan yang lebih umum dan otonomi yang lebih baik. Halaman proyek tersedia di https://craftjarvis-jarvis1.github.io.
Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.
Tautan makalah
https://arxiv.org/abs/2311.05997
Bacaan lanjutan
https://x.com/arankomatsuzaki/status/1723882043514470629
FILCO: Metode pembelajaran penyaringan konteks untuk retrieval-augmented generation / Learning to Filter Context for Retrieval-Augmented Generation
Pengenalan makalah
- Mengusulkan metode yang meningkatkan kualitas konteks yang diberikan kepada generator melalui dua langkah: 1) mengidentifikasi konteks yang berguna berdasarkan pendekatan leksikal dan teori informasi, dan 2) melatih model penyaringan konteks yang dapat memfilter konteks yang diambil saat inferensi; mengungguli pendekatan yang ada pada tugas extractive question answering (QA), QA multi-hop kompleks dan long-form, verifikasi fakta, serta pembuatan dialog.
Proposes a method that improves the quality of the context provided to the generator via two steps: 1) identifying useful context based on lexical and information-theoretic approaches, and 2) training context filtering models that can filter retrieved contexts at inference; outperforms existing approaches on extractive question answering (qa), complex multi-hop and long-form qa, fact verification, and dialog generation tasks.
Abstrak makalah
- Pengambilan pengetahuan relevan secara on-the-fly telah terbukti menjadi elemen penting dari sistem yang andal untuk tugas seperti tanya jawab domain terbuka dan verifikasi fakta. Namun, karena sistem retrieval tidak sempurna, model generatif harus menghasilkan keluaran meskipun diberi bagian teks yang sebagian atau sepenuhnya tidak relevan. Hal ini dapat menyebabkan ketergantungan yang berlebihan atau terlalu rendah pada konteks, serta menimbulkan masalah pada keluaran yang dihasilkan seperti halusinasi. Untuk mengurangi masalah ini, penulis mengusulkan FILCO, sebuah metode yang meningkatkan kualitas konteks yang diberikan kepada generator dengan (1) mengidentifikasi konteks yang berguna berdasarkan pendekatan leksikal dan teori informasi, serta (2) melatih model penyaringan konteks yang dapat memfilter konteks hasil retrieval pada saat pengujian. Eksperimen pada enam tugas intensif pengetahuan dengan FLAN-T5 dan LLaMa2 menunjukkan bahwa metode ini mengungguli pendekatan yang ada pada tugas extractive question answering (QA), QA multi-hop kompleks dan long-form, verifikasi fakta, serta generasi dialog. FILCO secara efektif meningkatkan kualitas konteks, baik konteks tersebut mendukung keluaran kanonis maupun tidak.
On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.
Tautan makalah
https://arxiv.org/abs/2311.08377v1
Baca lebih lanjut
https://x.com/ZhiruoW/status/1724792850079252886
MART: Meningkatkan Keamanan LLM dengan Red-Teaming Otomatis Multi-putaran / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
Pengantar makalah
- Mengusulkan pendekatan untuk meningkatkan keamanan LLM dengan red-teaming otomatis multi-putaran; menggabungkan penulisan prompt adversarial otomatis dan pembuatan respons aman, yang meningkatkan skalabilitas red-teaming dan keamanan LLM; tingkat pelanggaran pada LLM dengan safety alignment yang terbatas berkurang hingga 84.7% setelah 4 putaran MART, mencapai performa yang sebanding dengan LLM yang menggunakan penulisan prompt adversarial secara ekstensif.
Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.
Abstrak makalah
- Red-teaming adalah praktik umum untuk memitigasi perilaku tidak aman pada large language model (LLM), yang melibatkan evaluasi menyeluruh terhadap LLM untuk mengidentifikasi potensi cacat dan menanganinya dengan respons yang bertanggung jawab dan akurat. Meskipun efektif, red-teaming manual memakan biaya besar, dan red-teaming otomatis yang ada biasanya hanya menemukan risiko keselamatan tanpa menanganinya. Dalam makalah ini, penulis mengusulkan metode Multi-round Automatic Red-Teaming (MART), yang mengintegrasikan penulisan prompt adversarial otomatis dan pembuatan respons aman, sehingga secara signifikan meningkatkan skalabilitas red-teaming dan keamanan LLM target. Secara spesifik, LLM adversarial dan LLM target saling berinteraksi secara iteratif, di mana LLM adversarial bertujuan menghasilkan prompt menantang yang memicu respons tidak aman dari LLM target, sementara LLM target di-fine-tune dengan data yang disejajarkan untuk keamanan pada prompt adversarial tersebut. Di setiap putaran, LLM adversarial menyusun serangan yang lebih baik terhadap LLM target yang telah diperbarui, sementara LLM target juga meningkatkan dirinya melalui safety fine-tuning. Pada benchmark prompt adversarial, tingkat pelanggaran dari LLM dengan penyelarasan keamanan yang terbatas berkurang hingga 84.7% setelah 4 putaran MART, mencapai kinerja yang sebanding dengan LLM yang menggunakan penulisan prompt adversarial secara ekstensif. Yang menarik, helpfulness model pada prompt non-adversarial tetap stabil sepanjang iterasi, menunjukkan bahwa LLM target mempertahankan kinerja yang kuat dalam mengikuti instruksi.
Red-teaming adalah praktik umum untuk memitigasi perilaku tidak aman pada Large Language Models (LLM), yang melibatkan penilaian menyeluruh terhadap LLM untuk mengidentifikasi potensi kelemahan dan menanganinya dengan respons yang bertanggung jawab dan akurat. Meski efektif, red-teaming manual mahal, dan red-teaming otomatis yang ada biasanya menemukan risiko keselamatan tanpa menanganinya. Dalam makalah ini, kami mengusulkan metode Multi-round Automatic Red-Teaming (MART), yang menggabungkan penulisan prompt adversarial otomatis dan pembuatan respons aman, secara signifikan meningkatkan skalabilitas red-teaming dan keamanan LLM target. Secara spesifik, LLM adversarial dan LLM target saling berinteraksi secara iteratif, di mana LLM adversarial bertujuan menghasilkan prompt menantang yang memancing respons tidak aman dari LLM target, sementara LLM target di-fine-tune dengan data yang disejajarkan untuk keamanan pada prompt adversarial tersebut. Di setiap putaran, LLM adversarial merancang serangan yang lebih baik terhadap LLM target yang telah diperbarui, sementara LLM target juga meningkatkan dirinya melalui safety fine-tuning. Pada benchmark prompt adversarial, tingkat pelanggaran dari LLM dengan penyelarasan keamanan terbatas berkurang hingga 84.7% setelah 4 putaran MART, mencapai kinerja yang sebanding dengan LLM dengan penulisan prompt adversarial yang ekstensif. Yang menarik, helpfulness model pada prompt non-adversarial tetap stabil sepanjang iterasi, menunjukkan bahwa LLM target mempertahankan kinerja yang kuat dalam mengikuti instruksi.
Tautan makalah
https://arxiv.org/abs/2311.07689
Baca selengkapnya
https://x.com/AIatMeta/status/1724887918685425829
Laporan teknis: Large language model dapat secara strategis menipu penggunanya saat berada di bawah tekanan / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure
Pengantar makalah
- Menjelajahi penggunaan agen perdagangan saham otonom yang ditenagai oleh robo-advisor, menemukan bahwa agen tersebut bertindak berdasarkan informasi orang dalam dan menyembunyikan alasan di balik keputusan perdagangan, serta menunjukkan bahwa robo-advisor yang berguna dan aman dapat secara strategis menipu pengguna dalam situasi realistis tanpa instruksi langsung maupun pelatihan untuk menipu.
Mengeksplorasi penggunaan agen perdagangan saham otonom yang ditenagai oleh llms; menemukan bahwa agen bertindak berdasarkan bocoran orang dalam dan menyembunyikan alasan di balik keputusan perdagangan; menunjukkan bahwa llms yang berguna dan aman dapat secara strategis menipu pengguna dalam situasi realistis tanpa instruksi eksplisit atau pelatihan untuk menipu.
Abstrak makalah
- Menunjukkan situasi di mana model bahasa besar yang dilatih agar membantu, tidak berbahaya, dan jujur dapat menampilkan perilaku yang tidak selaras dan secara strategis menipu penggunanya tanpa diperintahkan untuk melakukannya. Secara spesifik, GPT-4 diterapkan sebagai agen dalam lingkungan simulasi yang realistis, di mana ia mengambil peran sebagai agen perdagangan saham otonom. Dalam lingkungan ini, model memperoleh informasi orang dalam tentang transaksi saham yang menguntungkan dan tetap mengeksekusinya meskipun mengetahui bahwa perdagangan orang dalam tidak disetujui oleh manajemen perusahaan. Saat melapor kepada manajernya, model tersebut secara konsisten menyembunyikan alasan sebenarnya di balik keputusan perdagangannya. Kami secara singkat menyelidiki bagaimana perilaku ini berubah ketika pengaturan diubah, seperti menghapus akses model ke scratchpad penalaran, mencoba mencegah perilaku yang tidak selaras dengan mengubah instruksi sistem, mengubah tingkat tekanan yang diterima model, mengubah persepsi risiko untuk tertangkap, serta melakukan perubahan lingkungan sederhana lainnya. Sepanjang pengetahuan kami, ini adalah demonstrasi pertama model bahasa besar yang dilatih agar membantu, tidak berbahaya, dan jujur yang secara strategis menipu penggunanya dalam situasi realistis tanpa instruksi langsung atau pelatihan untuk menipu.
We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
Tautan makalah
https://arxiv.org/abs/2311.07590
Baca lebih lanjut
https://x.com/ESYudkowsky/status/1725226563992715521
Artikel asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d
Belum ada komentar.