7 poin oleh ninebow 2023-10-23 | Belum ada komentar. | Bagikan ke WhatsApp

Ikhtisar

  • Kami telah mencoba menerjemahkan secara otomatis tulisan tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.

  • Ada dua tren utama dalam makalah yang dipilih minggu ini. Pertama adalah sistem dialog domain terbuka (open domain dialog system), dan kedua adalah penelitian yang memungkinkan kecerdasan buatan menghasilkan penjelasan sendiri atau menyelesaikan masalah secara mandiri.

  • Sistem dialog domain terbuka adalah teknologi yang memungkinkan sistem AI berbicara secara alami dengan pengguna, dan dibahas dalam makalah seperti "OpenAgents", "LLMs for Software Engineering", dan "Eliciting Human Preferences with LLMs". Makalah-makalah ini meneliti cara agar sistem AI dapat belajar dan berkembang sendiri melalui percakapan dengan pengguna.

  • Selain itu, penelitian tentang AI yang menghasilkan penjelasannya sendiri atau menyelesaikan masalah secara mandiri dibahas dalam makalah seperti "A Study of LLM-Generated Self-Explanations", "Self-RAG", dan "Retrieval-Augmentation for Long-form Question Answering". Tujuan utama makalah-makalah ini adalah membuat proses AI saat memecahkan masalah atau menghasilkan penjelasan menjadi transparan sehingga dapat dipahami oleh pengguna. Tren ini tampak sebagai perkembangan yang wajar jika mempertimbangkan pentingnya penelitian untuk menjadikan AI teknologi yang lebih transparan dan dapat digunakan secara luas.


Llemma: Model Bahasa Terbuka untuk Matematika / Llemma: An Open Language Model For Mathematics

Pengenalan makalah

  • Model Llemma untuk matematika yang dilatih lebih lanjut dari Code Llama pada dataset Proof-Pile-2. Menunjukkan performa yang lebih baik daripada model dasar terbuka dan Minerva yang belum dirilis pada makalah ilmiah, data web yang mengandung matematika, dataset yang mencakup kode matematika, dan benchmark matematika; model ini dirilis bersama dataset dan kode untuk mereplikasi eksperimen. #mathglm #
    > An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.

Abstrak makalah

  • Kami memperkenalkan Llemma, sebuah model bahasa skala besar untuk matematika. Kami melanjutkan pretraining Code Llama pada Proof-Pile-2, campuran makalah ilmiah, data web yang mengandung matematika, dan kode matematika, sehingga menghasilkan Llemma. Pada benchmark MATH, Llemma mengungguli semua model dasar terbuka yang diketahui, serta keluarga model Minerva yang belum dirilis, pada basis jumlah parameter yang setara. Selain itu, Llemma mampu menggunakan alat dan melakukan pembuktian teorema formal tanpa fine-tuning tambahan. Kami merilis secara terbuka semua artefak, termasuk model berparameter 7 miliar dan 34 miliar, Proof-Pile-2, serta kode untuk mereplikasi eksperimen kami.
    > We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Tautan makalah

https://arxiv.org/abs/2310.10631

Baca lebih lanjut

https://x.com/zhangir_azerbay/status/1714098025956864031


Model Bahasa Skala Besar untuk Rekayasa Perangkat Lunak: Survei dan Masalah Terbuka / Large Language Models for Software Engineering: Survey and Open Problems

Pengenalan makalah

  • Makalah survei komprehensif tentang LLM untuk rekayasa perangkat lunak, termasuk tantangan riset terbuka dan teknis
    > A comprehensive survey of llms for software engineering, including open research and technical challenges.

Abstrak makalah

  • Makalah ini menyajikan survei tentang area baru Large Language Models (LLM) untuk Software Engineering (SE). Makalah ini juga memaparkan tantangan riset terbuka untuk penerapan LLM pada persoalan teknis yang dihadapi insinyur perangkat lunak. Sifat emergen LLM menghadirkan kebaruan dan kreativitas dengan penerapan di seluruh spektrum aktivitas rekayasa perangkat lunak, termasuk coding, desain, requirement, perbaikan, refactoring, peningkatan performa, dokumentasi, dan analitik. Namun, sifat emergen yang sama ini juga menimbulkan tantangan teknis yang signifikan; kita memerlukan teknik yang dapat secara andal menyaring solusi yang salah, seperti halusinasi. Survei ini menunjukkan peran penting teknik hibrida (SE tradisional plus LLM) dalam pengembangan dan penerapan SE berbasis LLM yang andal, efisien, dan efektif.
    > This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

Tautan makalah

https://arxiv.org/abs/2310.03533

Baca lebih lanjut

https://x.com/omarsar0/status/1713940983199506910


Self-RAG: Mempelajari Pengambilan, Generasi, dan Kritik melalui Refleksi Diri / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Pengenalan makalah

  • Memperkenalkan framework retrieval-augmented baru yang meningkatkan kualitas dan faktualitas LM melalui pencarian dan refleksi diri, melatih LM yang secara adaptif mengambil passage saat diperlukan serta menghasilkan dan merefleksikan passage dan generasinya sendiri dengan token refleksi khusus, dan menunjukkan performa yang jauh melampaui sota llms (chatgpt dan retrieval-augmented llama2-chat) pada tugas open-domain QA, penalaran, dan verifikasi fakta, termasuk peningkatan faktualitas. #rag
    > Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.

Abstrak makalah

  • Terlepas dari kemampuannya yang luar biasa, large language model (LLM) sering menghasilkan respons yang mengandung ketidakakuratan faktual karena hanya bergantung pada pengetahuan parametrik yang mereka enkapsulasi. Retrieval-Augmented Generation (RAG), sebuah pendekatan ad hoc yang memperkuat LM dengan pencarian pengetahuan yang relevan, dapat mengurangi masalah tersebut. Namun, mengambil dan menggabungkan sejumlah tetap passage yang diambil secara serampangan—tanpa memedulikan apakah pencarian memang diperlukan atau apakah passage tersebut relevan—dapat mengurangi fleksibilitas LM atau menghasilkan respons yang tidak membantu. Kami memperkenalkan framework baru bernama Self-Reflective Retrieval-Augmented Generation (Self-RAG) yang meningkatkan kualitas dan faktualitas LM melalui pencarian dan refleksi diri. Framework Facebook ini melatih satu LM arbitrer yang secara adaptif mengambil passage sesuai kebutuhan, lalu menghasilkan dan merefleksikan passage yang diambil serta generasinya sendiri menggunakan token khusus yang disebut reflection tokens. Dengan menghasilkan reflection tokens, LM dapat dikendalikan selama fase inferensi, sehingga perilakunya dapat disesuaikan dengan beragam kebutuhan tugas. Eksperimen menunjukkan bahwa Self-RAG (parameter 7B dan 13B) secara signifikan mengungguli state-of-the-art LLM dan model retrieval-augmented pada beragam kumpulan tugas. Secara khusus, Self-RAG mengungguli ChatGPT dan retrieval-augmented Llama2-chat pada tugas open-domain QA, penalaran, dan verifikasi fakta, serta menunjukkan keuntungan besar dalam meningkatkan faktualitas dan akurasi sitasi untuk generasi long-form dibandingkan model-model tersebut.
    > Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

Tautan makalah

https://arxiv.org/abs/2310.11511

Baca selengkapnya

https://x.com/AkariAsai/status/1715110277077962937


Memahami Retrieval Augmentation untuk Tanya Jawab Long-Form / Understanding Retrieval Augmentation for Long-Form Question Answering

Pengenalan makalah

  • Menelaah language model retrieval-augmented untuk tanya jawab long-form, menemukan bahwa pencarian adalah komponen penting tetapi dokumen bukti harus ditambahkan ke llm secara hati-hati, dan menemukan bahwa kesalahan atribusi lebih sering terjadi ketika dokumen yang diambil tidak memiliki informasi/bukti yang cukup untuk menjawab pertanyaan.
    > Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.

Abstrak makalah

  • Memperkenalkan studi tentang language model (LM) dengan retrieval augmentation untuk penjawaban pertanyaan bentuk panjang. Studi ini menganalisis bagaimana retrieval augmentation memengaruhi LM yang berbeda dengan membandingkan jawaban yang dihasilkan model saat menggunakan dokumen bukti yang sama, serta bagaimana perbedaan kualitas kumpulan dokumen retrieval memengaruhi jawaban yang dihasilkan oleh LM yang sama. Berbagai atribut jawaban yang dihasilkan (misalnya kelancaran, panjang, varians) diteliti, dengan penekanan khusus pada atribusi jawaban bentuk panjang terhadap dokumen bukti dalam konteks. Peneliti mengumpulkan anotasi manusia tentang atribusi jawaban dan mengevaluasi metode untuk menilai atribusi secara otomatis. Studi ini memberikan wawasan baru tentang bagaimana retrieval augmentation memengaruhi pembuatan teks panjang yang kaya pengetahuan oleh LM. Selain itu, studi ini mengidentifikasi pola atribusi untuk pembuatan teks panjang dan menganalisis penyebab utama kesalahan atribusi. Secara keseluruhan, analisis ini mengungkap bagaimana retrieval augmentation memengaruhi pembuatan teks panjang yang kaya pengetahuan dan memberikan arah untuk pekerjaan selanjutnya.
    > We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.

Tautan makalah

https://arxiv.org/abs/2310.12150

Baca lebih lanjut

https://x.com/omarsar0/status/1714986431859282144


GenBench

Perkenalan makalah

  • Menyajikan kerangka kerja untuk mengkarakterisasi dan memahami riset generalisasi di NLP, mencakup meta-analisis terhadap 543 makalah dan seperangkat alat untuk mengeksplorasi serta memahami studi generalisasi dengan lebih baik.
    > Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.

Tautan makalah

https://nature.com/articles/s42256-023-00729-y/…

Baca lebih lanjut

https://x.com/AIatMeta/status/1715041427283902793


Bisakah large language model menjelaskan dirinya sendiri? Studi tentang penjelasan diri yang dihasilkan LLM / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

Perkenalan makalah

  • Mengevaluasi kemampuan LLM untuk menghasilkan sendiri penjelasan atribusi fitur; penjelasan diri berguna untuk meningkatkan performa dan kejujuran pada LLM, dan kemampuan ini dapat digunakan bersama chain-of-thought prompting. #chain-of-thought
    > Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.

Abstrak makalah

  • Model bahasa besar (LLM) seperti ChatGPT telah menunjukkan kinerja unggul pada berbagai tugas pemrosesan bahasa alami (NLP) termasuk analisis sentimen, penalaran matematis, dan peringkasan. Selain itu, karena model-model ini disetel melalui instruction-tuning pada percakapan manusia untuk menghasilkan respons yang “membantu”, model ini dapat dan sering kali menghasilkan penjelasan bersama responsnya, yang kami sebut sebagai penjelasan diri. Sebagai contoh, saat menganalisis sentimen ulasan film, model dapat mengeluarkan bukan hanya tingkat positif sentimennya, tetapi juga penjelasan (misalnya dengan mencantumkan kata-kata bermuatan sentimen seperti "fantastic" dan "memorable" dalam ulasan tersebut). Seberapa baik penjelasan diri yang dihasilkan secara otomatis ini? Dalam makalah ini, kami menyelidiki pertanyaan tersebut pada tugas analisis sentimen dan untuk penjelasan atribusi fitur, salah satu pengaturan yang paling umum dipelajari dalam literatur interpretabilitas (untuk model pra-ChatGPT). Secara spesifik, kami mempelajari berbagai cara untuk memunculkan penjelasan diri, mengevaluasi faithfulnes-nya berdasarkan serangkaian metrik evaluasi, dan membandingkannya dengan metode penjelasan tradisional seperti occlusion atau peta saliency LIME. Melalui serangkaian eksperimen yang ekstensif, kami menemukan bahwa penjelasan diri ChatGPT memiliki performa yang setara dengan penjelasan tradisional, tetapi cukup berbeda darinya menurut berbagai metrik kesepakatan, sementara biaya pembuatannya jauh lebih murah karena dihasilkan bersamaan dengan prediksi. Selain itu, kami mengidentifikasi beberapa karakteristik menarik, yang mendorong kami untuk memikirkan kembali banyak praktik interpretabilitas model saat ini di era LLM seperti ChatGPT.

    Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.

Tautan makalah

https://arxiv.org/abs/2310.11207

Baca lebih lanjut

https://x.com/omarsar0/status/1714665747752923620


OpenAgents (OpenAgent): platform terbuka untuk agen bahasa di alam liar / OpenAgents: An Open Platform for Language Agents in the Wild

Pengantar makalah

  • Ini adalah platform terbuka untuk menggunakan dan meng-host agen bahasa di alam liar, yang mencakup tiga agen: agen data untuk analisis data, agen plugin dengan 200+ alat API harian, dan agen web untuk penelusuran web otonom.

    An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.

Abstrak makalah

  • Agen bahasa menunjukkan potensi untuk memanfaatkan bahasa alami dalam beragam tugas yang bervariasi dan kompleks di berbagai lingkungan, terutama ketika dibangun di atas large language model (LLM). Kerangka kerja agen bahasa saat ini bertujuan mempermudah pembangunan agen bahasa proof-of-concept, tetapi mengabaikan akses agen bagi pengguna non-ahli dan hampir tidak memberi perhatian pada desain tingkat aplikasi. Kami memperkenalkan OpenAgents, platform terbuka untuk menggunakan dan meng-host agen bahasa dalam kehidupan sehari-hari. OpenAgents mencakup tiga agen: (1) Data Agent untuk analisis data dengan Python/SQL dan alat data, (2) Plugins Agent dengan lebih dari 200 alat API sehari-hari, (3) Web Agent untuk penjelajahan web otonom. Pengguna umum dapat berinteraksi dengan fungsi agen melalui antarmuka pengguna web yang dioptimalkan untuk respons cepat dan kegagalan umum, sementara pengembang dan peneliti mendapatkan pengalaman deployment yang mulus di lingkungan lokal, menyediakan fondasi untuk membuat agen bahasa yang inovatif dan memfasilitasi evaluasi di dunia nyata. Kami juga menjelaskan tantangan dan peluang, dengan harapan meletakkan dasar bagi riset dan pengembangan agen bahasa dunia nyata di masa depan.
    > Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.

Tautan makalah

https://arxiv.org/abs/2310.10634v1

Baca lebih lanjut

https://x.com/ChengZhoujun/status/1714343204148113860


Menggali Preferensi Manusia dengan Model Bahasa / Eliciting Human Preferences with Language Models

Pengantar makalah

  • Menggunakan model bahasa untuk memandu proses spesifikasi tugas dan kerangka pembelajaran untuk membantu model menggali serta menyimpulkan perilaku yang dimaksud melalui interaksi bebas berbasis bahasa dengan pengguna; menunjukkan bahwa dengan menghasilkan pertanyaan terbuka, sistem dapat menghasilkan respons yang lebih informatif daripada prompt yang ditulis pengguna.
    > Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.

Abstrak makalah

  • Model bahasa (LM) dapat diarahkan untuk menjalankan tugas target dengan menggunakan contoh berlabel atau prompt bahasa alami. Namun, memilih contoh atau menulis prompt bisa menjadi hal yang menantang, terutama pada tugas yang melibatkan edge case yang tidak lazim, menuntut artikulasi yang presisi atas preferensi yang samar, atau memerlukan model mental yang akurat tentang perilaku LM. Kami mengusulkan untuk menggunakan LM itu sendiri guna memandu proses spesifikasi tugas. Dalam makalah ini, kami memperkenalkan Generative Active Task Elicitation (GATE): kerangka pembelajaran di mana model menggali dan menyimpulkan perilaku yang diinginkan melalui interaksi bebas berbasis bahasa dengan pengguna. Kami mempelajari GATE pada tiga domain: validasi email, rekomendasi konten, dan penalaran moral. Dalam eksperimen praregistrasi, kami menunjukkan bahwa LM yang diprompt untuk menjalankan GATE (misalnya dengan menghasilkan pertanyaan terbuka atau mensintesis edge case yang informatif) sering kali memunculkan respons yang lebih informatif dibanding prompt atau label yang ditulis pengguna. Pengguna melaporkan bahwa elicitation tugas interaktif membutuhkan upaya lebih sedikit dibanding prompting atau pelabelan contoh, serta mengungkap pertimbangan baru yang awalnya tidak diantisipasi pengguna. Temuan kami menunjukkan bahwa elicitation yang digerakkan LM dapat menjadi alat yang kuat untuk menyelaraskan model dengan preferensi dan nilai manusia yang kompleks.
    > Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.

Tautan makalah

https://arxiv.org/abs/2310.11589

Baca lebih lanjut

https://x.com/AlexTamkin/status/1715040019520569395


AutoMix: Pencampuran model bahasa otomatis / AutoMix: Automatically Mixing Language Models

Pengantar makalah

  • Pendekatan untuk merutekan kueri ke llms berdasarkan ketepatan model bahasa yang lebih kecil (dilakukan melalui self-verification few-shot); meta-verifier diperkenalkan untuk memeriksa keluaran verifier (biasanya model yang lebih kecil) dan merutekan kueri ke model bahasa yang lebih besar bila diperlukan. Eksperimen pada lima dataset penalaran berbasis konteks menggunakan llama2-13/70b menunjukkan bahwa AutoMix melampaui baseline yang ada, meningkatkan manfaat inkremental per biaya hingga 89%.
    > An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.

Abstrak makalah

  • Kini model bahasa besar (LLM) tersedia dalam berbagai ukuran dan konfigurasi dari penyedia API cloud. Walaupun keragaman ini menawarkan spektrum pilihan yang luas, memanfaatkan opsi-opsi tersebut secara efektif untuk mengoptimalkan biaya komputasi dan performa tetap menjadi tantangan. Dalam karya ini, kami memperkenalkan AutoMix, sebuah pendekatan yang secara strategis merutekan kueri ke LM yang lebih besar berdasarkan perkiraan ketepatan keluaran dari LM yang lebih kecil. Inti dari AutoMix adalah mekanisme self-verification few-shot, yang memperkirakan keandalan keluarannya sendiri tanpa memerlukan pelatihan. Mengingat verifikasi dapat mengandung noise, dalam AutoMix kami menggunakan meta verifier untuk menyempurnakan akurasi penilaian tersebut. Hasil eksperimen menggunakan LLAMA2-13/70B pada lima dataset penalaran berbasis konteks menunjukkan bahwa AutoMix melampaui baseline yang ada, meningkatkan manfaat inkremental per biaya hingga 89%. Kode dan data tersedia di https://github.com/automix-llm/automix.
    > Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.

Tautan makalah

https://arxiv.org/abs/2310.12963

Baca lebih lanjut

https://x.com/omarsar0/status/1715385477627334718


Perencanaan Bahasa Video / Video Language Planning

Pengantar makalah

  • Algoritme yang diusulkan dapat menyintesis rencana video long-horizon yang kompleks di berbagai domain robotika melalui prosedur pencarian pohon yang melatih model vision-language sebagai kebijakan dan fungsi nilai, serta model text-to-video sebagai model dinamika.
    > Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.

Abstrak makalah

  • Kami tertarik untuk memungkinkan perencanaan visual bagi tugas long-horizon yang kompleks dalam ruang video dan bahasa yang dihasilkan, dengan memanfaatkan kemajuan terbaru dalam model generatif besar yang dipra-latih pada data berskala internet. Untuk tujuan ini, kami memperkenalkan video language planning (VLP), sebuah algoritme yang terdiri dari prosedur pencarian pohon, di mana kami melatih (i) model vision-language untuk berperan sebagai kebijakan dan fungsi nilai, dan (ii) model text-to-video sebagai model dinamika. VLP menerima instruksi tugas long-horizon dan observasi gambar saat ini sebagai input, lalu menghasilkan rencana video panjang yang memberikan spesifikasi multimodal (video dan bahasa) yang rinci untuk menjelaskan cara menyelesaikan tugas akhir. VLP dapat diskalakan seiring peningkatan anggaran komputasi, di mana lebih banyak waktu komputasi menghasilkan rencana video yang lebih baik, dan mampu menyintesis rencana video long-horizon di berbagai domain robotika: mulai dari penataan ulang multi-objek hingga manipulasi cekatan dua lengan multi-kamera. Rencana video yang dihasilkan dapat diterjemahkan menjadi aksi robot nyata melalui kebijakan goal-conditioned yang dikondisikan pada setiap frame antara dari video yang dihasilkan. Hasil eksperimen menunjukkan bahwa VLP secara substansial meningkatkan tingkat keberhasilan tugas long-horizon dibandingkan metode sebelumnya, baik pada robot simulasi maupun robot nyata (di 3 platform perangkat keras).
    > We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).

Tautan makalah

https://arxiv.org/abs/2310.10625

Baca lebih lanjut

https://x.com/du_yilun/status/1714297584842318157

Teks asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8

Belum ada komentar.

Belum ada komentar.