24] Makalah ML utama minggu ini (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 poin oleh ninebow 2024-03-27 | Belum ada komentar. | Bagikan ke WhatsApp

Saya telah menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.

Makalah yang dipilih minggu ini secara umum banyak menampilkan riset yang memanfaatkan large language models (LLMs). Khususnya, seperti dapat dilihat dari judul-judul seperti 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information', dan 'Retrieval-Augmented Fine-Tuning', makalah-makalah ini tampaknya membahas beragam cakupan penerapan LLMs, metode peningkatan performa, hingga isu keamanan.
Tren ini dapat dilihat sebagai hasil dari upaya dalam beberapa tahun terakhir untuk mengeksplorasi cakupan pemanfaatan LLMs di berbagai bidang riset seiring meningkatnya perhatian terhadap LLMs di bidang kecerdasan buatan. Secara khusus, bukan hanya metodologi untuk memproses pekerjaan yang sudah ada dengan lebih efisien, tetapi juga peningkatan kemampuan penalaran dalam penggunaan alat dan proses pemecahan masalah, eksplorasi bidang penerapan baru seperti rekayasa balik perangkat lunak, serta riset mengenai stabilitas dan keamanan model, semuanya memperluas kemungkinan perkembangan LLMs. Selain itu, riset-riset ini memainkan peran penting dalam memperdalam pemahaman tentang bagaimana LLMs dapat digunakan di lingkungan nyata dan apa saja potensi masalah yang terkait dengannya.
Selain itu, makalah seperti 'Evolutionary Model Merge' dan 'DROID' mengusulkan riset tentang proses integrasi dan perkembangan model, yang menunjukkan bahwa minat terhadap cara untuk terus meningkatkan dan mengoptimalkan performa model juga semakin tinggi. Ini menghadirkan arah penting bagi perkembangan dan integrasi bukan hanya LLMs, tetapi juga berbagai teknologi kecerdasan buatan, dan diperkirakan akan terus menjadi topik penting dalam riset mendatang. Karena itu, makalah yang dipilih minggu ini memberikan wawasan berharga mengenai tren saat ini dan arah masa depan riset terkait LLMs.

Grok-1

Perkenalan makalah

Model mixture-of-experts dengan 314B parameter yang mencakup rilis terbuka untuk bobot model dasar dan arsitektur jaringan; model MoE ini mengaktifkan 25% dari bobot untuk token tertentu dan tanggal cutoff pra-pelatihannya adalah Oktober 2023.

a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

Tautan makalah

https://x.ai/blog/grok-os

Baca lebih lanjut

https://discuss.pytorch.kr/t/x-ai-grok/3793/1

https://x.com/ibab_ml/status/1769447989192675748

Optimisasi Evolusioner untuk Resep Penggabungan Model / Evolutionary Optimization of Model Merging Recipes

Perkenalan makalah

Pendekatan untuk mengotomatiskan pengembangan foundation model dengan menggunakan evolusi untuk menggabungkan model open-source; memfasilitasi penggabungan lintas domain, di mana Japanese Math LLM mencapai performa state-of-the-art pada benchmark Japanese LLM, bahkan melampaui model dengan parameter yang jauh lebih banyak meskipun tidak dilatih secara eksplisit untuk tugas-tugas tersebut.

an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

Abstrak makalah (Abstract)

Kami memperkenalkan contoh penerapan baru dari algoritme evolusioner untuk mengotomatiskan pembuatan foundation model yang kuat. Meskipun model merging telah muncul sebagai pendekatan yang menjanjikan untuk pengembangan LLM karena efisiensi biayanya, saat ini pendekatan tersebut masih bergantung pada intuisi manusia dan pengetahuan domain, yang membatasi potensinya. Di sini, kami mengusulkan pendekatan evolusioner yang mengatasi keterbatasan ini dengan secara otomatis menemukan kombinasi efektif dari beragam model open-source, memanfaatkan kecerdasan kolektifnya tanpa memerlukan data pelatihan tambahan yang besar atau komputasi yang tinggi. Pendekatan kami beroperasi baik di ruang parameter maupun ruang aliran data, sehingga memungkinkan optimisasi melampaui sekadar bobot masing-masing model. Pendekatan ini bahkan memfasilitasi penggabungan lintas domain, menghasilkan model seperti LLM berbahasa Jepang dengan kemampuan penalaran matematika. Menariknya, Japanese Math LLM kami mencapai performa state-of-the-art pada berbagai benchmark Japanese LLM yang sudah mapan, bahkan melampaui model dengan parameter yang jauh lebih besar, meskipun tidak dilatih secara eksplisit untuk tugas-tugas tersebut. Selain itu, Japanese VLM yang sadar budaya dan dihasilkan melalui pendekatan kami menunjukkan efektivitasnya dalam mendeskripsikan konten yang spesifik terhadap budaya Jepang, mengungguli Japanese VLM sebelumnya. Karya ini tidak hanya menyumbangkan model-model state-of-the-art baru kembali ke komunitas open-source, tetapi juga memperkenalkan paradigma baru untuk komposisi model otomatis, membuka jalan untuk mengeksplorasi pendekatan alternatif dan efisien dalam pengembangan foundation model.

We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

Tautan makalah

https://arxiv.org/abs/2403.13187

Bacaan lebih lanjut

https://x.com/SakanaAILabs/status/1770613032198279663

TacticAI: asisten AI untuk taktik sepak bola / TacticAI: an AI assistant for football tactics

Pengantar makalah

Sebuah sistem pendamping AI untuk taktik sepak bola yang dikembangkan dan dievaluasi melalui kolaborasi dengan para ahli domain dari Liverpool FC, yang memberi pelatih cara untuk mengambil sampel dan mengeksplorasi susunan pemain alternatif untuk skema tendangan sudut serta memilih taktik dengan peluang keberhasilan prediksi tertinggi; saran model TacticAI lebih disukai daripada taktik yang ada dalam 90% kasus dan menyediakan sistem pencarian tendangan sudut yang efektif.

an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

Abstrak makalah (Abstract)

Mengidentifikasi pola kunci dari taktik yang digunakan tim lawan dan mengembangkan respons yang efektif merupakan inti dari sepak bola modern. Namun, melakukan hal tersebut secara algoritmis masih menjadi tantangan riset yang belum terpecahkan. Untuk menjawab kebutuhan yang belum terpenuhi ini, Unity mengusulkan TacticAI, asisten AI untuk taktik sepak bola yang dikembangkan dan dievaluasi melalui kolaborasi erat dengan para ahli domain dari Liverpool FC. Fokusnya adalah pada analisis tendangan sudut, karena situasi ini memberi pelatih peluang paling langsung untuk melakukan intervensi dan peningkatan. TacticAI menggabungkan komponen prediktif dan generatif, sehingga pelatih dapat secara efektif mengambil sampel dan mengeksplorasi susunan pemain alternatif untuk setiap skema tendangan sudut serta memilih yang memiliki peluang keberhasilan prediksi tertinggi. Unity memvalidasi TacticAI pada sejumlah tugas benchmark yang relevan: memprediksi penerima bola dan percobaan tembakan, serta merekomendasikan penyesuaian posisi pemain. Kegunaan TacticAI divalidasi melalui studi kualitatif yang dilakukan bersama para ahli sepak bola di Liverpool FC. Hasil penelitian menunjukkan bahwa saran model TacticAI bukan hanya tidak dapat dibedakan dari taktik nyata, tetapi juga lebih disukai daripada taktik yang ada dalam 90% kasus, serta menyediakan sistem pencarian tendangan sudut yang efektif. TacticAI dapat mencapai hasil ini meskipun ketersediaan data gold-standard terbatas, dengan memperoleh efisiensi data melalui geometric deep learning.

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

Tautan makalah

https://www.nature.com/articles/s41467-024-45965-x

Bacaan lebih lanjut

https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841

https://x.com/GoogleDeepMind/status/1770121564085707082

Penggunaan alat dalam LLM / Tool Use in LLMs

Pengantar makalah

Memberikan gambaran umum tentang penggunaan alat dalam LLM, termasuk definisi formal dari paradigma penggunaan alat, skenario ketika LLM memanfaatkan penggunaan alat, serta jenis tugas yang cocok untuk pendekatan ini; juga menyajikan analisis tentang penggunaan alat yang kompleks dan merangkum testbed serta metrik evaluasi di berbagai karya tooling LM.

provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

Abstrak makalah (Abstract)

Model bahasa (LM) sangat kuat, tetapi sebagian besar digunakan untuk tugas pembuatan teks. Untuk tugas yang membutuhkan kemampuan kompleks, penggunaan tool telah meningkatkan performa secara signifikan. Namun, banyak karya menggunakan istilah "tool" dengan cara yang berbeda-beda, sehingga memunculkan pertanyaan: sebenarnya apa itu tool? Lalu, di mana dan bagaimana tool membantu LM? Dalam survei ini, penulis memberikan definisi terpadu tentang tool sebagai program eksternal yang digunakan oleh LM, serta melakukan tinjauan sistematis terhadap skenario dan pendekatan penggunaan tool oleh LM. Berdasarkan tinjauan ini, penulis mempelajari secara empiris efisiensi berbagai metode tooling dengan mengukur kebutuhan komputasi dan peningkatan performanya pada berbagai benchmark, serta menyoroti sejumlah tantangan dan potensi riset masa depan di bidang ini.

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

Tautan makalah

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

Baca lebih lanjut

https://x.com/omarsar0/status/1770497515898433896

RankPrompt: Menjadikan model bahasa penalar lebih baik melalui perbandingan langkah demi langkah / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Pengantar makalah

Mengusulkan RankPrompt, metode prompting yang memungkinkan LLM memberi peringkat pada responsnya sendiri tanpa sumber daya tambahan. Pendekatan self-ranking ini memberi peringkat kandidat melalui evaluasi perbandingan yang sistematis, langkah demi langkah. Metode ini tampaknya bekerja dengan baik karena memanfaatkan kemampuan LLM untuk menghasilkan rantai perbandingan sebagai demonstrasi, dan RankPrompt secara signifikan meningkatkan performa penalaran ChatGPT dan GPT-4 pada banyak tugas penalaran aritmetika dan commonsense.

proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

Abstrak makalah (Abstract)

Large Language Models (LLM) telah mencapai performa yang mengesankan di berbagai tugas penalaran. Namun, bahkan LLM mutakhir seperti ChatGPT pun rentan terhadap kesalahan logis selama proses penalarannya. Solusi yang ada, seperti menerapkan verifier khusus tugas atau melakukan voting atas beberapa jalur penalaran, either memerlukan anotasi manusia dalam jumlah besar atau gagal pada skenario dengan respons yang tidak konsisten. Untuk mengatasi tantangan ini, penulis memperkenalkan RankPrompt, metode prompting baru yang memungkinkan LLM memberi peringkat pada responsnya sendiri tanpa sumber daya tambahan. RankPrompt memecah masalah pemeringkatan menjadi serangkaian perbandingan di antara beragam respons, dengan memanfaatkan kemampuan bawaan LLM untuk menghasilkan rantai perbandingan sebagai contoh kontekstual. Hasil eksperimen pada 11 tugas penalaran aritmetika dan commonsense menunjukkan bahwa RankPrompt secara signifikan meningkatkan performa penalaran ChatGPT dan GPT-4, dengan peningkatan hingga 13%. Selain itu, RankPrompt unggul dalam evaluasi otomatis berbasis LLM untuk tugas open-ended, dengan keselarasan terhadap penilaian manusia sebesar 74% pada dataset AlpacaEval. Metode ini juga menunjukkan ketahanan terhadap variasi urutan dan konsistensi respons. Secara keseluruhan, hasil ini memvalidasi RankPrompt sebagai metode yang efektif untuk memperoleh umpan balik berkualitas tinggi dari model bahasa.

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

Tautan makalah

https://arxiv.org/abs/2403.12373

Baca lebih lanjut

https://x.com/omarsar0/status/1770492690129359135

LLM4Decompile: Mendekompilasi kode biner dengan large language models / LLM4Decompile: Decompiling Binary Code with Large Language Models

Pengantar makalah

keluarga LLM dekompilasi akses terbuka dengan rentang 1 miliar hingga 3,3 miliar parameter; model-model ini dilatih pada 4 miliar token kode sumber C dan kode assembly yang sesuai; para penulis juga memperkenalkan Decompile-Eval, sebuah dataset untuk menilai re-kompatibilitas dan re-eksekutabilitas untuk dekompilasi serta evaluasi dari perspektif semantik program; LLM4Decompile menunjukkan kemampuan untuk mendekompilasi 21% kode assembly, mencapai peningkatan 50% dibandingkan GPT-4.

a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.

Abstrak makalah (Abstract)

Dekompilasi bertujuan untuk memulihkan kode yang telah dikompilasi menjadi kode sumber yang dapat dibaca manusia, tetapi menghadapi kesulitan karena detail seperti nama dan struktur. Large language model (LLM) menunjukkan potensi untuk tugas pemrograman, yang mendorong penerapannya pada dekompilasi. Namun, belum ada LLM open-source untuk dekompilasi. Selain itu, sistem evaluasi dekompilasi yang ada terutama mempertimbangkan akurasi pada tingkat token dan sebagian besar mengabaikan kemampuan eksekusi kode, yang merupakan fitur terpenting dari sebuah program. Karena itu, kami merilis LLM dekompilasi akses terbuka pertama dengan rentang 1 miliar hingga 3,3 miliar parameter yang telah dipra-latih pada 4 miliar token kode sumber C dan kode assembly yang sesuai. LLM open-source ini dapat menjadi baseline untuk pengembangan lebih lanjut di bidang ini. Untuk memastikan evaluasi program yang praktis, kami memperkenalkan Decompile-Eval, dataset pertama yang mempertimbangkan kemampuan untuk dikompilasi ulang dan dijalankan ulang untuk dekompilasi. Benchmark ini menekankan pentingnya mengevaluasi model dekompilasi dari perspektif semantik program. Hasil eksperimen menunjukkan bahwa LLM4Decompile mampu mendekompilasi 21% kode assembly secara akurat, yang merupakan peningkatan 50% dibandingkan GPT-4. Kode, dataset, dan model tersedia di https://github.com/albertan017/LLM4Decompile

Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile

Tautan makalah

https://arxiv.org/abs/2403.05286v1

Bacaan lebih lanjut

https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809

https://github.com/albertan017/LLM4Decompile

https://x.com/omarsar0/status/1771218791399092351

Agent-FLAN: Perancangan data dan metode tuning agen yang efektif untuk large language model / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Pengantar makalah

Merancang data dan metode untuk melakukan fine-tuning language model bagi agen secara efektif, yang disebut Agent-FLAN; pendekatan ini memungkinkan Llama2-7B melampaui karya terbaik sebelumnya sebesar 3,5% di berbagai dataset evaluasi agen; Agent-FLAN sangat mengurangi masalah halusinasi dan secara konsisten meningkatkan kapabilitas agen pada LLM saat ukuran model diperbesar, sambil secara umum juga meningkatkan LLM;

Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;

Abstrak makalah (Abstract)

Model bahasa besar (LLM) open source telah meraih kesuksesan besar dalam berbagai tugas NLP, tetapi saat berfungsi sebagai agen, model ini masih jauh tertinggal dibandingkan model berbasis API. Cara mengintegrasikan kemampuan agen ke dalam LLM umum menjadi masalah yang penting dan mendesak. Makalah ini pertama-tama menyampaikan tiga pengamatan utama: (1) korpus pelatihan agen saat ini bercampur antara kepatuhan format dan penalaran agen, yang secara signifikan bergeser dari distribusi data pra-pelatihannya; (2) LLM menunjukkan kecepatan belajar yang berbeda untuk kemampuan yang dibutuhkan dalam tugas agen; dan (3) pendekatan saat ini memiliki efek samping ketika meningkatkan kemampuan agen dengan memperkenalkan halusinasi. Berdasarkan temuan di atas, penulis mengusulkan Agent-FLAN untuk secara efektif melakukan fine-tuning model bahasa untuk agen. Melalui dekomposisi dan perancangan ulang korpus pelatihan yang cermat, Agent-FLAN memungkinkan Llama2-7B melampaui karya terbaik sebelumnya sebesar 3.5% di berbagai dataset evaluasi agen. Dengan sampel negatif yang dibangun secara komprehensif, Agent-FLAN secara signifikan mengurangi masalah halusinasi berdasarkan benchmark evaluasi yang telah ditetapkan. Selain itu, pendekatan ini secara konsisten meningkatkan kemampuan agen LLM saat ukuran model diskalakan, sekaligus sedikit meningkatkan kemampuan umum LLM. Kode tersedia di https://github.com/InternLM/Agent-FLAN.

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Tautan makalah

https://arxiv.org/abs/2403.12881v1

Baca lebih lanjut

https://github.com/InternLM/Agent-FLAN

https://x.com/_akhaliq/status/1770302813152690259

Jika logit dari LLM yang dilindungi API membocorkan informasi proprietari / Logits of API-Protected LLMs Leak Proprietary Information

Pengantar makalah

Menunjukkan bahwa dengan menggunakan logit, dimungkinkan untuk mempelajari sejumlah besar informasi non-publik tentang LLM yang dilindungi API. Dengan jumlah kueri API yang relatif sedikit, pendekatan ini memperkirakan ukuran embedding OpenAI gpt-3.5-turbo sekitar 4,096, dan makalah ini juga mengusulkan guardrail terhadap serangan yang digunakan.

shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

Abstrak makalah (Abstract)

Komersialisasi large language model (LLM) telah menjadikan akses tingkat tinggi yang hanya melalui API ke model proprietari sebagai praktik umum. Penelitian ini menunjukkan bahwa bahkan dengan asumsi yang konservatif tentang arsitektur model, dimungkinkan untuk mempelajari sejumlah besar informasi non-publik tentang LLM yang dilindungi API hanya dari jumlah kueri API yang relatif kecil (misalnya, dengan biaya kurang dari $1.000 untuk OpenAI gpt-3.5-turbo). Inti dari temuan penelitian ini adalah satu observasi kunci: sebagian besar LLM modern mengalami softmax bottleneck, yang membatasi output model ke subruang linear dari keseluruhan ruang output. Kami menunjukkan bahwa hal ini dapat dimanfaatkan sebagai model image atau model signature, yang membuka berbagai kemampuan dengan biaya terjangkau: menemukan hidden size LLM secara efisien, memperoleh output kosakata penuh, mendeteksi dan membedakan berbagai pembaruan model, mengidentifikasi LLM sumber dari satu output LLM lengkap, dan bahkan memperkirakan parameter lapisan output. Investigasi empiris kami menunjukkan efektivitas metode ini, yang memungkinkan kami memperkirakan ukuran embedding OpenAI gpt-3.5-turbo sekitar 4.096. Terakhir, kami membahas cara penyedia LLM dapat bertahan dari serangan semacam ini, serta bagaimana kemampuan ini dapat dipandang sebagai fitur (bukan bug) dengan memungkinkan transparansi dan akuntabilitas yang lebih besar.

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

Tautan makalah

https://arxiv.org/abs/2403.09539

Baca lebih lanjut

https://x.com/DimitrisPapail/status/1768654579254579385

DROID: Dataset manipulasi robot in-the-wild berskala besar / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Pengenalan makalah

Sebagai dataset manipulasi robot open-source berskala besar untuk melatih dan membangun kebijakan manipulasi robot yang lebih mampu dan tangguh, dataset ini mencakup 76.000 trajectory demonstrasi yang dikumpulkan dari 564 scene dan 86 tugas, dan pelatihan dengan DROID dapat menghasilkan kebijakan dengan performa lebih tinggi serta generalisasi yang lebih baik.

an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

Abstrak makalah (Abstract)

Pembuatan dataset manipulasi robot berskala besar yang beragam dan berkualitas tinggi merupakan batu loncatan penting menuju kebijakan manipulasi robot yang lebih mampu dan lebih tangguh. Namun, membuat dataset semacam itu tidak mudah: pengumpulan data manipulasi robot di lingkungan yang beragam menimbulkan tantangan logistik dan keselamatan serta membutuhkan investasi besar dalam perangkat keras dan tenaga manusia. Akibatnya, bahkan kebijakan manipulasi robot yang paling umum saat ini pun sebagian besar dilatih dengan data yang dikumpulkan dari sejumlah kecil lingkungan dengan keragaman scene dan tugas yang terbatas. Dalam penelitian ini, kami memperkenalkan DROID (Distributed Robot Interaction Dataset), dataset manipulasi robot yang beragam dengan 76 ribu trajectory demonstrasi atau 350 jam data interaksi, yang dikumpulkan dari 564 scene dan 84 tugas oleh 50 pengumpul data di Amerika Utara, Asia, dan Eropa selama 12 bulan. Kami menunjukkan bahwa pelatihan menggunakan DROID menghasilkan kebijakan dengan performa lebih tinggi dan kemampuan generalisasi yang lebih baik. Kami merilis secara open source seluruh dataset, kode pembelajaran kebijakan, dan panduan terperinci untuk mereproduksi konfigurasi perangkat keras robot kami.

The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.

Tautan makalah

https://arxiv.org/abs/2403.12945

Baca lebih lanjut

https://x.com/chelseabfinn/status/1770311755140575413

RAFT: Menyesuaikan Model Bahasa untuk RAG Spesifik Domain / RAFT: Adapting Language Model to Domain Specific RAG

Perkenalan makalah

Dengan menggabungkan keunggulan RAG dan fine-tuning, kemampuan model untuk menjawab pertanyaan dalam pengaturan in-domain “open-book” dapat ditingkatkan, dan ketika dipadukan dengan respons bergaya CoT dari RAFT, hal ini membantu meningkatkan penalaran.

combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

Abstrak makalah (Abstract)

Pra-pelatihan Large Language Models (LLM) pada korpus besar data tekstual kini telah menjadi paradigma standar. Saat menggunakan LLM ini untuk banyak aplikasi downstream, sudah umum untuk menanamkan pengetahuan baru tambahan (misalnya, berita yang sensitif terhadap waktu atau pengetahuan domain privat) ke dalam model yang telah dipra-latih, baik melalui prompting berbasis RAG maupun fine-tuning. Namun, metodologi optimal agar model memperoleh pengetahuan baru semacam itu masih merupakan pertanyaan terbuka. Dalam makalah ini, kami memperkenalkan Retrieval Augmented FineTuning (RAFT), sebuah resep pelatihan yang meningkatkan kemampuan model untuk menjawab pertanyaan dalam pengaturan in-domain “open-book”. Dalam RAFT, dengan diberikan sebuah pertanyaan dan sekumpulan dokumen hasil retrieval, kami melatih model untuk mengabaikan dokumen yang tidak membantu menjawab pertanyaan, yang kami sebut sebagai distractor documents. RAFT melakukannya dengan mengutip secara verbatim urutan yang tepat dari dokumen relevan yang akan membantu menjawab pertanyaan. Hal ini, dipadukan dengan respons bergaya chain-of-thought milik RAFT, membantu meningkatkan kemampuan model untuk bernalar. Dalam RAG spesifik domain, RAFT secara konsisten meningkatkan performa model di berbagai dataset PubMed, HotpotQA, dan Gorilla, serta menghadirkan resep post-training untuk meningkatkan LLM pra-latih menjadi RAG in-domain. Kode dan demo RAFT tersedia sebagai open source di github.com/ShishirPatil/gorilla.

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

Tulisan ini dirangkum dengan model GPT, sehingga mungkin ada bagian yang keliru; mohon lihat juga sumber asli di bagian bawah tulisan! Jika saat membaca Anda menemukan isi yang terasa janggal atau salah, mohon beri tahu melalui komentar.

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh Komunitas Pengguna PyTorch Korea ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

[2024/03/18 ~ 03/24] Makalah ML utama minggu ini (Top ML Papers of the Week)

Grok-1

Perkenalan makalah

Tautan makalah

Baca lebih lanjut

Optimisasi Evolusioner untuk Resep Penggabungan Model / Evolutionary Optimization of Model Merging Recipes

Perkenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lebih lanjut

TacticAI: asisten AI untuk taktik sepak bola / TacticAI: an AI assistant for football tactics

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lebih lanjut

Penggunaan alat dalam LLM / Tool Use in LLMs

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

RankPrompt: Menjadikan model bahasa penalar lebih baik melalui perbandingan langkah demi langkah / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

LLM4Decompile: Mendekompilasi kode biner dengan large language models / LLM4Decompile: Decompiling Binary Code with Large Language Models

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lebih lanjut

Agent-FLAN: Perancangan data dan metode tuning agen yang efektif untuk large language model / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

Jika logit dari LLM yang dilindungi API membocorkan informasi proprietari / Logits of API-Protected LLMs Leak Proprietary Information

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

DROID: Dataset manipulasi robot in-the-wild berskala besar / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Pengenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

RAFT: Menyesuaikan Model Bahasa untuk RAG Spesifik Domain / RAFT: Adapting Language Model to Domain Specific RAG

Perkenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

Teks asli

Bacaan terkait

Belum ada komentar.