[2023/10/02 ~ 10/08] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Gambaran Umum
-
Kami telah mencoba menerjemahkan secara otomatis tulisan tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
-
Dari hasil meninjau makalah-makalah yang disajikan minggu ini, ada banyak penelitian tentang language model (LLM) yang menangani long context. Secara khusus, makalah seperti 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs', dan 'Training LLMs with Pause Tokens' menyoroti berbagai aspek LLM.
-
Tren ini merupakan contoh yang menunjukkan bahwa pentingnya language model dalam machine learning dan deep learning terus meningkat. LLM adalah teknologi yang mempelajari data bahasa dalam jumlah besar sehingga memungkinkan peningkatan kinerja secara menyeluruh pada berbagai tugas pemahaman bahasa seperti pembuatan kalimat, penerjemahan mesin, dan koreksi ejaan. Namun, masih ada banyak kesulitan dalam memproses konteks jangka panjang. Tampaknya berbagai pendekatan sedang diajukan untuk mengatasi hal ini.
-
Selain itu, makalah seperti 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation', dan 'Retrieval-Augmented Dual Instruction Tuning' juga mengeksplorasi topik seperti pembelajaran mandiri AI, pembuatan kode, dan instruction tuning. Ini menunjukkan bahwa metodologi yang semakin baru terus bermunculan di bidang AI, dan penelitian semacam ini diperkirakan akan memainkan peran yang sangat penting dalam meningkatkan kemampuan belajar mandiri dan adaptabilitas teknologi AI.
-
Oleh karena itu, dapat dikatakan bahwa tren makalah minggu ini menunjukkan arah penelitian baru dalam pemrosesan konteks jangka panjang untuk language model serta pembelajaran mandiri AI dan pembuatan kode.
Language model yang merepresentasikan ruang dan waktu / Language Models Represent Space and Time
Pengenalan makalah
- Ditemukan bahwa language model mempelajari representasi linear atas ruang dan waktu di berbagai skala, dan representasi ini kuat terhadap variasi prompt serta terintegrasi di berbagai jenis entitas, sehingga dibuktikan bahwa language model memperoleh pengetahuan terstruktur yang mendasar seperti ruang dan waktu, sambil berargumen bahwa language model mempelajari world model yang literal, bukan sekadar statistik yang dangkal. #llm #llama2
> Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.
Abstrak makalah
- Kemampuan large language model (LLM) telah memicu perdebatan tentang apakah sistem seperti ini hanya mempelajari kumpulan besar statistik dangkal atau justru mempelajari model yang koheren dari proses pembangkitan data, yaitu world model. Kami menemukan bukti untuk kemungkinan kedua dengan menganalisis representasi yang dipelajari dari tiga dataset spasial (dunia, AS, dan lokasi di New York City) serta tiga dataset temporal (tokoh sejarah, karya seni, dan headline berita) dalam keluarga model Llama-2. Hasilnya, kami menemukan bahwa LLM mempelajari representasi linear atas ruang dan waktu di berbagai skala. Representasi ini kuat terhadap variasi prompting dan terintegrasi di berbagai jenis entitas (misalnya kota dan landmark). Selain itu, kami mengidentifikasi 'space neurons' dan 'time neurons' individual yang secara andal mengodekan koordinat spasial dan temporal. Analisis kami menunjukkan bahwa LLM modern memperoleh pengetahuan terstruktur tentang dimensi mendasar seperti ruang dan waktu, mendukung pandangan bahwa mereka tidak hanya mempelajari statistik dangkal, melainkan world model yang literal.
> The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individualspace neurons'' andtime neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.
Tautan makalah
https://arxiv.org/abs/2310.02207
Bacaan lanjutan
https://x.com/wesg52/status/1709551516577902782
Pertemuan antara retrieval dan large language model berkonteks panjang / Retrieval meets Long Context Large Language Models
Pengenalan makalah
- Penelitian ini membandingkan retrieval augmentation dan jendela konteks panjang untuk tugas downstream guna menyelidiki apakah kedua metode dapat digabungkan untuk mendapatkan keunggulan dari keduanya; llm dengan jendela konteks 4K yang menggunakan RAG sederhana dapat mencapai kinerja yang sebanding dengan llm yang di-fine-tune dengan konteks 16K, retrieval dapat secara signifikan meningkatkan kinerja llm terlepas dari ukuran jendela konteks yang diperluas, dan retrieval-augmented llama2-70b dengan jendela konteks 32K mengungguli gpt-3.5-turbo-16k pada tujuh tugas long context termasuk question answering dan query-based summarization. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm
> Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.
Abstrak makalah
- Meskipun memperluas jendela konteks large language model (LLM) belakangan ini semakin populer, solusi untuk memperkuat LLM dengan retrieval sudah ada sejak bertahun-tahun lalu. Pertanyaan alaminya adalah i) antara retrieval-augmentation dan jendela konteks panjang, mana yang lebih baik untuk tugas downstream? ii) Dapatkah kedua metode digabungkan untuk mendapatkan keunggulan dari keduanya? Studi ini menjawab pertanyaan tersebut dengan meneliti kedua solusi menggunakan dua LLM pralatih mutakhir, yaitu GPT 43B proprietari dan LLaMA2-70B. Secara mengejutkan, mereka menemukan bahwa LLM dengan jendela konteks 4K yang menggunakan retrieval-augmentation sederhana saat generasi dapat mencapai performa yang sebanding dengan LLM hasil fine-tuning berjendela konteks 16K melalui positional interpolation pada tugas konteks panjang, sambil membutuhkan komputasi yang jauh lebih sedikit. Yang lebih penting, penelitian ini menunjukkan bahwa retrieval dapat secara signifikan meningkatkan performa LLM terlepas dari ukuran jendela konteks yang diperluas. LLaMA2-70B dengan retrieval-augmentation dan jendela konteks 32K mengungguli GPT-3.5-turbo-16k dan Davinci003 dalam hal skor rata-rata pada tujuh tugas konteks panjang, termasuk tanya jawab dan peringkasan berbasis kueri. Model ini juga mengungguli baseline LLaMA2-70B-32k tanpa retrieval dengan selisih yang besar, sekaligus memiliki kecepatan generasi yang jauh lebih cepat. Studi ini memberikan insight umum untuk membantu praktisi memilih antara retrieval-augmentation dan perluasan konteks panjang pada LLM.
> Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.
Tautan makalah
https://arxiv.org/abs/2310.03025
Baca lebih lanjut
https://x.com/omarsar0/status/1709749178199318545
Efficient Streaming Language Models with Attention Sinks / Model Bahasa Streaming Efisien dengan Attention Sink
Pengantar makalah
- Kerangka kerja yang memungkinkan streaming LLM yang efisien dengan attention sink, yaitu fenomena ketika status KV dari token awal dapat memulihkan sebagian besar performa window attention; kemunculan attention sink disebabkan oleh skor attention yang kuat terhadap token awal; pendekatan ini memungkinkan LLM yang dilatih dengan jendela attention berdurasi terbatas untuk melakukan generalisasi ke panjang sekuens tak terbatas tanpa fine-tuning tambahan. #streamingllm
> A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.
Abstrak makalah
- Menerapkan large language model (LLM) pada aplikasi streaming seperti dialog multi-putaran, di mana interaksi panjang diperkirakan akan terjadi, sangat dibutuhkan secara mendesak tetapi menghadirkan dua tantangan utama. Pertama, pada tahap decoding, caching status Key dan Value (KV) dari token sebelumnya menghabiskan memori yang sangat besar. Kedua, LLM yang banyak digunakan tidak dapat melakukan generalisasi ke teks yang lebih panjang daripada panjang sekuens pelatihan. Window attention, yang hanya menyimpan cache KV terbaru, adalah pendekatan yang alami, tetapi ditunjukkan gagal ketika panjang teks melampaui ukuran cache. Diamati fenomena menarik, yaitu attention sink, bahwa mempertahankan KV dari token awal dapat secara signifikan memulihkan performa window attention. Dalam makalah ini, pertama-tama ditunjukkan bahwa kemunculan attention sink disebabkan oleh skor perhatian yang kuat terhadap token awal sebagai sebuah "sink" meskipun token tersebut tidak penting secara semantik. Berdasarkan analisis di atas, diperkenalkan StreamingLLM, sebuah framework efisien yang memungkinkan LLM yang dilatih dengan jendela attention berdimensi terbatas untuk melakukan generalisasi ke panjang sekuens tak terbatas tanpa fine-tuning apa pun. Ditunjukkan bahwa StreamingLLM dapat memungkinkan Llama-2, MPT, Falcon, dan Pythia melakukan language modeling yang stabil dan efisien hingga lebih dari 4 juta token. Selain itu, juga ditemukan bahwa menambahkan placeholder token sebagai attention sink khusus selama pre-training dapat semakin meningkatkan deployment streaming. Dalam pengaturan streaming, StreamingLLM mengungguli baseline sliding window recomputation dengan percepatan hingga 22,2x. Kode dan dataset tersedia di https://github.com/mit-han-lab/streaming-llm.
> Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
Tautan makalah
https://arxiv.org/abs/2309.17453
Baca selengkapnya
https://x.com/Guangxuan_Xiao/status/1708943505731801325
https://discuss.pytorch.kr/t/…
Menuju Perakitan Mandiri Jaringan Saraf Tiruan melalui Program Perkembangan Neural / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs
Pengenalan makalah
- Diusulkan penggunaan jaringan saraf yang merakit dirinya sendiri melalui proses perkembangan yang mencerminkan sifat perkembangan embrio pada organisme biologis (disebut program perkembangan neural); ditunjukkan kelayakan pendekatan ini pada masalah continuous control dan topologi yang berkembang.
> Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.
Abstrak makalah
- Sistem saraf biologis dibentuk dengan cara yang secara fundamental berbeda dari jaringan saraf buatan saat ini. Meskipun deep learning menunjukkan hasil yang mengesankan di berbagai bidang, merancang arsitektur saraf berkinerja tinggi sering kali memerlukan upaya engineering yang besar. Sebaliknya, sistem saraf biologis tumbuh melalui proses pengorganisasian diri yang dinamis. Dalam makalah ini, penulis mengambil langkah awal menuju jaringan saraf yang tumbuh melalui proses perkembangan yang mencerminkan sifat-sifat utama perkembangan embrio pada organisme biologis. Proses pertumbuhan ini dipandu oleh jaringan saraf lain, yang mereka sebut Neural Developmental Program (NDP), dan yang beroperasi hanya melalui komunikasi lokal. Penulis menyelidiki peran pertumbuhan saraf pada berbagai benchmark machine learning dan berbagai metode optimisasi (evolutionary training, online RL, offline RL, dan supervised learning). Selain itu, mereka juga menyoroti arah dan peluang riset masa depan yang dimungkinkan oleh pengorganisasian diri sebagai pendorong pertumbuhan jaringan saraf.
> Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.
Tautan makalah
https://arxiv.org/abs/2307.08197
Bacaan lebih lanjut
https://x.com/risi1979/status/1708888992224362742
Fajar LMM: Eksplorasi Pendahuluan dengan GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Pengenalan makalah
- Untuk memperdalam pemahaman tentang large multimodal models (LMM), makalah ini menganalisis gpt-4v secara komprehensif, dengan fokus pada probing gpt-4v dalam berbagai skenario aplikasi, serta menyediakan beragam contoh mulai dari kemampuan coding dengan vision hingga retrieval-augmented LMM. #multimodal #gpt-4v
> A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.
Abstrak makalah
- Large multimodal models (LMM) memperluas large language models (LLM) dengan kemampuan multisensorik seperti pemahaman visual untuk mencapai kecerdasan umum yang lebih kuat. Dalam makalah ini, penulis menganalisis model terbaru, GPT-4V(ision), untuk memperdalam pemahaman tentang LMM. Analisis ini berfokus pada tugas-tugas menarik yang dapat dilakukan GPT-4V, termasuk sampel uji untuk menyelidiki kualitas dan generalitas kemampuan GPT-4V, input dan mode kerja yang didukung, serta cara efektif untuk melakukan prompting pada model. Dalam pendekatan mereka untuk mengeksplorasi GPT-4V, penulis mengkurasi dan menyusun kumpulan sampel kualitatif yang dirancang dengan cermat dan mencakup beragam domain serta tugas. Pengamatan dari sampel-sampel ini menunjukkan bahwa kemampuan GPT-4V yang belum pernah ada sebelumnya dalam memproses input multimodal yang diinterleaving secara arbitrer, bersama dengan generalitas kemampuannya, menjadikan GPT-4V sebuah sistem generalis multimodal yang kuat. Selain itu, kemampuan unik GPT-4V dalam memahami penanda visual yang digambar pada gambar input dapat melahirkan metode interaksi manusia-komputer baru seperti visual referring prompting. Laporan ini ditutup dengan diskusi mendalam tentang skenario aplikasi yang sedang muncul dan arah riset masa depan untuk sistem berbasis GPT-4V. Penulis berharap eksplorasi pendahuluan ini dapat menginspirasi riset lanjutan tentang formulasi tugas multimodal generasi berikutnya, cara-cara baru untuk memanfaatkan dan meningkatkan LMM dalam menyelesaikan masalah dunia nyata, serta pemahaman yang lebih baik tentang multimodal foundation models.
> Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.
Tautan makalah
https://arxiv.org/abs/2309.17421
Bacaan lebih lanjut
https://x.com/omarsar0/status/1708860551110041871
https://discuss.pytorch.kr/t/gn-chatgpt/2543
Pikir dulu sebelum berbicara: Melatih model bahasa dengan token jeda / Think before you speak: Training Language Models With Pause Tokens
Pengantar makalah
- Dengan menggunakan token
<pause>yang dapat dipelajari untuk pelatihan dan inferensi pada LLM, model dapat menunda pembuatan jawaban dan membantu mencapai peningkatan kinerja pada tugas pemahaman umum seperti tanya jawab commonsense dan penyelesaian soal cerita matematika. Hasil eksperimen menunjukkan bahwa manfaat ini hanya muncul ketika jeda diperkenalkan baik pada pretraining terkait maupun fine-tuning downstream. #pause-for-thoughtPerforms training and inference on llms with a learnable
<pause>token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.
Abstrak makalah
- Model bahasa menghasilkan respons dengan memproduksi serangkaian token secara berurutan: token ke-$(K+1)^{th}$ adalah hasil dari manipulasi $K$ vektor tersembunyi per layer, satu vektor untuk setiap token sebelumnya. Bagaimana jika, alih-alih demikian, kita membiarkan model memanipulasi misalnya $K+10$ vektor tersembunyi sebelum mengeluarkan token ke-$(K+1)^{th}$? Kami mengoperasionalkan ide ini dengan melakukan pelatihan dan inferensi pada model bahasa menggunakan token $\textit{pause}$ (yang dapat dipelajari), berupa sebuah sekuens yang ditambahkan ke prefiks input. Kami kemudian menunda ekstraksi output model hingga token jeda terakhir terlihat, sehingga model dapat memproses komputasi tambahan sebelum menetapkan jawaban. Kami mengevaluasi secara empiris $\textit{pause-training}$ pada model decoder-only berukuran 1B dan 130M parameter dengan pretraining kausal pada C4, serta pada tugas downstream yang mencakup penalaran, tanya jawab, pemahaman umum, dan pengingatan fakta. Temuan utama kami adalah bahwa jeda saat inferensi memberikan peningkatan ketika model dipretrain dan di-fine-tune dengan jeda. Untuk model 1B, kami melihat peningkatan pada 8 dari 9 tugas, yang paling menonjol adalah kenaikan skor EM sebesar $18%$ pada tugas QA SQuAD, $8%$ pada CommonSenseQA, dan akurasi $1%$ pada tugas penalaran GSM8k. Pekerjaan kami memunculkan berbagai pertanyaan penelitian masa depan, baik konseptual maupun praktis, untuk menjadikan prediksi next-token yang ditunda sebagai paradigma baru yang dapat diterapkan secara luas.
Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
Tautan makalah
https://arxiv.org/abs/2310.02226
Baca selengkapnya
https://x.com/omarsar0/status/1709573238123122959
Self-Taught Optimizer (STOP): Generasi kode yang secara rekursif meningkatkan dirinya sendiri / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
Pengantar makalah
- Mengusulkan penggunaan program scaffolding yang diinfus dengan model bahasa untuk meningkatkan dirinya sendiri secara rekursif; improver awal terlebih dahulu memperbaiki program masukan yang mengembalikan solusi terbaik, lalu melalui tugas tambahan memperbaiki dirinya sendiri; menunjukkan bahwa model GPT-4 dapat menulis kode yang bisa memanggil dirinya sendiri untuk meningkatkan dirinya sendiri. #self-training-survey-paper
Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.
Abstrak makalah
- Beberapa kemajuan terbaru dalam sistem AI (misalnya, Tree-of-Thoughts dan Program-Aided Language Models) memecahkan masalah dengan menyediakan program "scaffolding" yang menyusun beberapa panggilan ke model bahasa untuk menghasilkan keluaran yang lebih baik. Program scaffolding ditulis dalam bahasa pemrograman seperti Python. Dalam karya ini, kami menggunakan program scaffolding yang dipadukan dengan model bahasa untuk meningkatkan dirinya sendiri. Kami memulai dengan "improver" awal yang meningkatkan program masukan sesuai fungsi utilitas tertentu dengan melakukan kueri ke model bahasa beberapa kali dan mengembalikan solusi terbaik. Lalu kami menjalankan improver awal ini untuk memperbaiki dirinya sendiri. Pada sekumpulan kecil tugas downstream, improver hasil peningkatan tersebut menghasilkan program dengan kinerja yang jauh lebih baik daripada improver awalnya. Setelah itu, kami menganalisis berbagai strategi self-improvement yang diusulkan oleh model bahasa, termasuk beam search, genetic algorithms, dan simulated annealing. Karena model bahasanya sendiri tidak diubah, ini bukan recursive self-improvement penuh. Meskipun demikian, ini menunjukkan bahwa model bahasa modern, GPT-4 dalam eksperimen proof-of-concept kami, mampu menulis kode yang dapat memanggil dirinya sendiri untuk meningkatkan dirinya sendiri. Kami secara kritis mempertimbangkan kekhawatiran seputar pengembangan teknologi self-improvement dan mengevaluasi seberapa sering kode yang dihasilkan melewati sandbox.
Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
Tautan makalah
https://arxiv.org/abs/2310.02304
Baca lebih lanjut
https://x.com/ericzelikman/status/1709721771937587541
RA-DIT: Tuning Instruksi Ganda Berbantuan Retrieval / RA-DIT: Retrieval-Augmented Dual Instruction Tuning
Pengenalan makalah
- Mengusulkan metode fine-tuning ringan untuk melengkapi artificial neural network dengan kemampuan retrieval. Pendekatan ini mencakup 2 tahap: 1) memperbarui artificial neural network yang telah dipra-latih agar dapat memanfaatkan informasi yang diambil dengan lebih baik, dan 2) memperbarui retriever agar mengembalikan hasil yang lebih relevan. Hasilnya menunjukkan bahwa fine-tuning pada tugas yang membutuhkan baik pemanfaatan pengetahuan maupun kesadaran konteks menghasilkan keuntungan tambahan di setiap tahap. Model 65b mencapai hasil state-of-the-art pada berbagai benchmark zero-shot dan few-shot learning yang intensif pengetahuan, serta menunjukkan kinerja hingga +8% lebih baik daripada pendekatan retrieval-augmented language yang ada. Dalam zero-shot sebesar 9%, dan dalam 5-shot sebesar +1.4%. #rag #instruct-tuning
Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.
Abstrak makalah
- Retrieval-augmented language model (RALM) meningkatkan performa dengan mengakses pengetahuan long-tail dan terbaru dari penyimpanan data eksternal, tetapi sulit dibangun. Pendekatan yang ada mengharuskan modifikasi pra-pelatihan LM yang spesifik untuk retrieval dan mahal, atau menggunakan integrasi pasca-hoc dengan penyimpanan data yang menghasilkan performa yang kurang optimal. Kami memperkenalkan Retrieval-Augmented Dual Instruction Tuning (RA-DIT), metodologi fine-tuning ringan yang menawarkan opsi ketiga dengan menambahkan kemampuan retrieval ke LLM mana pun. Pendekatan ini berjalan dalam dua tahap fine-tuning yang berbeda: (1) satu tahap memperbarui LM yang telah dipra-latih agar lebih baik dalam memanfaatkan informasi yang diambil, sementara (2) tahap lainnya memperbarui retriever agar mengembalikan hasil yang lebih relevan sesuai preferensi LM. Dengan fine-tuning pada tugas-tugas yang membutuhkan pemanfaatan pengetahuan sekaligus kesadaran konteks, kami menunjukkan bahwa setiap tahap menghasilkan peningkatan performa yang signifikan, dan penggunaan keduanya memberikan keuntungan tambahan. Model terbaik kami, RA-DIT 65B, mencapai performa state-of-the-art di berbagai benchmark pembelajaran zero-shot dan few-shot yang intensif pengetahuan, secara signifikan melampaui pendekatan RALM in-context yang ada hingga +8.9% pada pengaturan 0-shot dan +1.4% pada pengaturan 5-shot secara rata-rata.
> Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.
Tautan makalah
https://arxiv.org/abs/2310.01352
Baca lebih lanjut
https://x.com/omarsar0/status/1709204756013490494
Kosmos-G: menghasilkan gambar yang sesuai konteks dengan model bahasa besar multimodal / Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Pengenalan makalah
- Model yang melakukan pembuatan gambar zero-shot berketelitian tinggi dari input vision-language umum yang mencakup banyak gambar, memperluas pembuatan gambar zero-shot berbasis subjek ke skenario multi-entitas, serta memungkinkan penggantian CLIP untuk membuka aplikasi baru dengan teknik U-Net lain seperti ControlNet dan LoRA. #multimodal
> A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.
Abstrak makalah
- Kemajuan terbaru dalam teknologi generasi text-to-image (T2I) dan vision-language-to-image (VL2I) telah berkembang pesat. Namun, generasi dari input vision-language yang digeneralisasi, khususnya yang melibatkan banyak gambar, masih belum banyak dieksplorasi. Makalah ini memperkenalkan Kosmos-G, model yang memanfaatkan kemampuan persepsi canggih dari Multimodal Large Language Models (MLLMs) untuk menangani tantangan tersebut. Pendekatan kami menyelaraskan ruang keluaran MLLM dengan CLIP menggunakan modalitas teks sebagai jangkar dan melakukan compositional instruction tuning pada data yang telah dikurasi. Kosmos-G menunjukkan kemampuan unik berupa generasi berbasis subjek multi-entitas zero-shot. Yang menarik, score distillation instruction tuning tidak memerlukan modifikasi pada image decoder. Hal ini memungkinkan penggantian CLIP secara mulus dan integrasi mudah dengan beragam teknik U-Net mulai dari kontrol yang terperinci hingga varian image decoder yang dipersonalisasi. Kami memposisikan Kosmos-G sebagai upaya awal menuju tujuan "image as a foreign language in image generation"
> Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."
Tautan makalah
https://arxiv.org/abs/2310.02992
Baca lebih lanjut
https://x.com/omarsar0/status/1709934741158510625
Model bahasa besar sebagai penalar analogi / Large Language Models as Analogical Reasoners
Pengenalan makalah
- Pendekatan ini berbeda dari chain-of-thought karena tidak memerlukan contoh berlabel untuk proses penalaran, dan merupakan pendekatan prompting baru yang terinspirasi oleh penalaran analogis untuk mendorong model menghasilkan sendiri contoh atau pengetahuan yang relevan dalam konteks. #llm-reasoning #chain-of-thought
> A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.
Abstrak makalah
- Chain-of-thought (CoT) prompting untuk model bahasa menunjukkan performa yang mengesankan di berbagai tugas penalaran, tetapi biasanya memerlukan contoh berlabel dari proses penalaran. Dalam penelitian ini, kami memperkenalkan pendekatan prompting baru, Analogical Prompting, yang dirancang untuk secara otomatis memandu proses penalaran model bahasa besar. Terinspirasi oleh penalaran analogis, yaitu proses kognitif ketika manusia memanfaatkan pengalaman masa lalu yang relevan untuk menangani masalah baru, pendekatan kami memandu model bahasa untuk menghasilkan sendiri contoh atau pengetahuan yang relevan dalam konteks sebelum melanjutkan menyelesaikan masalah yang diberikan. Metode ini menawarkan beberapa keunggulan: menghilangkan kebutuhan untuk memberi label atau mengambil contoh, sehingga memberikan generalitas dan kemudahan; selain itu, contoh dan pengetahuan yang dihasilkan dapat disesuaikan dengan tiap masalah, sehingga memberikan adaptabilitas. Hasil eksperimen menunjukkan bahwa pendekatan kami mengungguli 0-shot CoT dan manual few-shot CoT pada berbagai tugas penalaran, termasuk pemecahan soal matematika di GSM8K dan MATH, pembuatan kode di Codeforces, serta tugas penalaran lainnya di BIG-Bench.
> Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
Tautan makalah
https://arxiv.org/abs/2310.01714
Baca lebih lanjut
https://x.com/michiyasunaga/status/1709582150025240854
Teks asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9
Belum ada komentar.