19] Makalah ML utama minggu ini (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 poin oleh ninebow 2024-05-22 | Belum ada komentar. | Bagikan ke WhatsApp

Kami telah mencoba menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
Tren utama yang dapat diamati dari makalah yang diajukan minggu ini adalah banyaknya penelitian yang berfokus pada pemrosesan bahasa alami (NLP) dan reinforcement learning (RL). Sebagai contoh, "GPT-4o", "Fine-tuning and Hallucinations", dan "Zero-shot Tokenizer Transfer" membahas teknologi dan metodologi terbaru terkait pemrosesan bahasa alami, khususnya mengeksplorasi kemajuan di bidang seperti model generatif dan transfer learning tokenizer. Selain itu, "RLHF Workflow" menyajikan penelitian tentang perancangan proses pembelajaran yang efisien dengan memanfaatkan reinforcement learning, yang dapat dilihat sebagai upaya untuk memperluas kemungkinan penerapan praktis di bidang RL.
Tren ini mencerminkan semakin pentingnya pemrosesan bahasa alami dan reinforcement learning, yang memainkan peran kunci dalam perkembangan teknologi kecerdasan buatan, khususnya machine learning dan deep learning. Dalam beberapa tahun terakhir, seiring pertumbuhan eksplosif model pembangkit bahasa seperti GPT, cakupan penerapannya terus meluas, dan hal ini juga mendorong para peneliti untuk menaruh perhatian besar pada penyetelan model-model tersebut agar semakin canggih serta pada penelitian untuk melengkapi kelemahan model yang sudah ada. Selain itu, reinforcement learning telah menjadi teknik penting untuk mengoptimalkan proses pengambilan keputusan dan meningkatkan kemampuan belajar dalam lingkungan yang kompleks, sejalan dengan tren riset saat ini yang berupaya memaksimalkan efisiensi pembelajaran.
Oleh karena itu, makalah yang diajukan minggu ini dengan jelas menunjukkan ke arah mana upaya penelitian dan pengembangan di dunia akademik dan industri sedang bergerak. Pemrosesan bahasa alami merupakan inti dari teknologi untuk membuat interaksi antara manusia dan mesin menjadi lebih alami dan efisien, sementara reinforcement learning memainkan peran penting dalam mengoptimalkan proses pengambilan keputusan berdasarkan interaksi tersebut. Tren penelitian ini akan menjadi indikator penting yang menunjukkan arah masa depan teknologi kecerdasan buatan yang akan terus berkembang.

GPT-4o

Pengenalan

Model baru dengan kemampuan penalaran multimodal yang mendukung audio, visual, dan teks secara real-time; dapat menerima kombinasi apa pun dari teks, audio, gambar, dan video sebagai input untuk menghasilkan kombinasi output teks, audio, dan gambar, serta dilaporkan memiliki performa setara GPT-4 Turbo sambil 50% lebih cepat dan lebih murah melalui API.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

Tautan terkait

https://openai.com/index/hello-gpt-4o/

Baca lebih lanjut

https://discuss.pytorch.kr/t/openai-gpt-4o-gpt-4o/4362

https://x.com/OpenAI/status/1790072174117613963

Gemini 1.5 Flash / Gemini 1.5 Flash

Pengenalan makalah

Model decoder transformer ringan dengan jendela konteks 2M dan kemampuan multimodal; dirancang untuk efisiensi serta menghasilkan keluaran tercepat di antara semua model pada beberapa bahasa yang dievaluasi. Secara keseluruhan, Gemini 1.5 Flash menunjukkan performa yang secara konsisten lebih baik dibandingkan Gemini 1.0 Pro dan bahkan menampilkan tingkat performa yang serupa dengan 1.0 Ultra pada beberapa benchmark.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Abstrak makalah (Abstract)

Laporan ini memperkenalkan keluarga model Gemini 1.5, yang mewakili generasi berikutnya dari model multimodal yang sangat efisien secara komputasi, mampu mengingat dan bernalar atas informasi terperinci dari ratusan juta token konteks, termasuk beberapa dokumen panjang serta video dan audio berdurasi berjam-jam. Keluarga ini mencakup dua model baru: (1) Gemini 1.5 Pro yang diperbarui, yang melampaui versi Februari pada sebagian besar kapabilitas dan benchmark; dan (2) Gemini 1.5 Flash, varian yang lebih ringan dan dirancang untuk efisiensi dengan penurunan kualitas yang minimal. Model Gemini 1.5 mencapai recall yang nyaris sempurna pada tugas retrieval konteks panjang di berbagai modalitas, meningkatkan state-of-the-art pada long-document QA, long-video QA, dan long-context ASR, serta menyamai atau melampaui performa state-of-the-art Gemini 1.0 Ultra di berbagai benchmark yang luas. Hasil studi terhadap batas kemampuan konteks panjang Gemini 1.5 menunjukkan peningkatan berkelanjutan pada prediksi token berikutnya dan retrieval yang nyaris sempurna (>99%) hingga setidaknya 10 juta token, sebuah lompatan lebih dari satu generasi dibanding model yang ada seperti Claude 3.0 (200 juta) dan GPT-4 Turbo (128 juta). Terakhir, laporan ini menyoroti kasus penggunaan di dunia nyata, seperti kolaborasi Gemini 1.5 dengan para profesional dalam menyelesaikan pekerjaan mereka yang menghasilkan penghematan waktu 26–75% di 10 kategori pekerjaan yang berbeda, serta kemampuan baru yang mengejutkan; ketika diberi manual tata bahasa untuk Kalamang, bahasa yang memiliki kurang dari 200 penutur di seluruh dunia, model ini dapat belajar menerjemahkan bahasa Inggris ke Kalamang pada tingkat yang serupa dengan orang yang belajar dari materi yang sama.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Tautan makalah

https://storage.googleapis.com/deepmind-media/gemini/…

Bacaan lanjutan

https://discuss.pytorch.kr/t/gn-google-i-o-2024/4371

https://x.com/OriolVinyalsML/status/1791521517211107515

Veo

Pengenalan

Model generasi video paling mumpuni dari Google DeepMind ini dapat menghasilkan video berkualitas tinggi dengan resolusi 1080p berdurasi lebih dari 1 menit, mendukung masked editing pada video, juga dapat menghasilkan video dari gambar input bersama teks, serta dapat memperpanjang klip video menjadi lebih dari 60 detik sambil menjaga konsistensi melalui latent diffusion transformer.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

Tautan terkait

https://deepmind.google/technologies/veo/

Bacaan lanjutan

https://discuss.pytorch.kr/t/veo-google-deepmind/4385

https://x.com/GoogleDeepMind/status/1790435824598716704

Chameleon: model fondasi early-fusion mixed-modal / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Pengantar makalah

Keluarga model mixed-modal berbasis token untuk menghasilkan gambar dan teks dalam urutan arbitrer; melaporkan performa state-of-the-art pada image captioning dan mengungguli Llama 2 pada tugas teks saja, serta juga kompetitif dengan Mixtral 8x7B dan Gemini-Pro; melampaui performa Gemini Pro dan GPT-4V pada evaluasi baru untuk generasi mixed-modal long-form.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Abstrak makalah (Abstract)

Kami memperkenalkan Chameleon, keluarga model mixed-modal berbasis token early-fusion yang mampu memahami dan menghasilkan gambar serta teks dalam urutan arbitrer apa pun. Dijelaskan pendekatan pelatihan yang stabil sejak awal, resep alignment, dan parameterisasi arsitektur yang disesuaikan untuk pengaturan mixed-modal berbasis token early-fusion. Model-model ini dievaluasi pada cakupan tugas yang komprehensif, termasuk visual question answering, image captioning, generasi teks, generasi gambar, dan generasi mixed-modal bentuk panjang. Chameleon menunjukkan kemampuan yang luas dan umum, termasuk performa state-of-the-art pada tugas image captioning, melampaui Llama-2 pada tugas khusus teks sambil tetap kompetitif dengan model seperti Mixtral 8x7B dan Gemini-Pro, serta melakukan generasi gambar non-trivial dalam satu model. Selain itu, menurut penilaian manusia pada evaluasi baru untuk generasi mixed-modal bentuk panjang, di mana prompt atau output berisi urutan campuran gambar dan teks, model ini menyamai atau melampaui performa model yang jauh lebih besar, termasuk Gemini Pro dan GPT-4V. Chameleon menandai langkah maju yang signifikan dalam pemodelan terpadu untuk dokumen multimodal secara utuh.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Tautan makalah

https://arxiv.org/abs/2405.09818

Baca lebih lanjut

https://x.com/AIatMeta/status/1791263344714014733

Apakah fine-tuning LLM dengan pengetahuan baru mendorong halusinasi? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Pengenalan makalah

Meneliti dampak fine-tuning pada pengetahuan baru terhadap kecenderungan halusinasi pada LLM; menggunakan pengaturan dengan contoh fine-tuning yang mencakup pengetahuan baru; menunjukkan bahwa LLM kesulitan memperoleh pengetahuan faktual baru melalui fine-tuning; dan juga menemukan bahwa semakin banyak pengetahuan baru yang dipelajari, semakin meningkat kecenderungan model untuk berhalusinasi.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Abstrak makalah (Abstract)

Ketika large language model diselaraskan melalui supervised fine-tuning, model dapat bertemu dengan informasi faktual baru yang tidak diperoleh melalui pre-training. Dalam kasus ini, sering diduga bahwa model dapat mempelajari perilaku berhalusinasi dengan menghasilkan respons yang salah secara faktual, karena model dilatih untuk menghasilkan fakta yang tidak berlandaskan pengetahuan yang sudah dimilikinya. Dalam penelitian ini, kami mempelajari dampak paparan terhadap pengetahuan baru tersebut pada kemampuan model yang telah di-fine-tuning untuk memanfaatkan pengetahuan yang sudah ada sebelumnya. Untuk itu, kami merancang pengaturan terkontrol yang berfokus pada closed-book QA, dengan memvariasikan proporsi contoh fine-tuning yang memperkenalkan pengetahuan baru. Kami menunjukkan bahwa large language model kesulitan memperoleh pengetahuan faktual baru melalui fine-tuning, karena contoh fine-tuning yang memperkenalkan pengetahuan baru dipelajari jauh lebih lambat dibandingkan contoh yang konsisten dengan pengetahuan model. Namun, kami juga menemukan bahwa ketika contoh dengan pengetahuan baru itu pada akhirnya dipelajari, kecenderungan model untuk berhalusinasi meningkat secara linear. Secara keseluruhan, hasil ini menyoroti risiko dalam memperkenalkan pengetahuan faktual baru melalui fine-tuning, dan mendukung pandangan bahwa large language model sebagian besar memperoleh pengetahuan faktual melalui pre-training, sedangkan fine-tuning mengajarkan model untuk menggunakannya dengan lebih efisien.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Tautan makalah

https://arxiv.org/abs/2405.05904

Bacaan lebih lanjut

https://x.com/arankomatsuzaki/status/1788859706187882960

Transfer Tokenizer Zero-Shot / Zero-Shot Tokenizer Transfer

Pengantar makalah

Makalah ini melatih hypernetwork yang menerima tokenizer sebagai input dan memprediksi embedding yang sesuai, mendemonstrasikan generalisasi ke tokenizer baru pada encoder dan decoder LLM, serta melaporkan bahwa metode ini mencapai kinerja yang mendekati model asli pada tugas multibahasa dan coding sambil mengurangi panjang urutan yang ditokenisasi.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Abstrak makalah (Abstract)

Model bahasa (LM) terikat pada tokenizer yang memetakan teks mentah ke rangkaian item kosakata (token). Sebagai contoh, LM yang terutama dilatih pada bahasa Inggris mungkin tetap bekerja dengan baik pada bahasa alami dan bahasa pemrograman lain, tetapi efisiensinya bisa menurun drastis karena tokenizer-nya berpusat pada bahasa Inggris. Untuk mengatasi hal ini, kita perlu dapat menukar tokenizer asli LM dengan tokenizer arbitrer secara langsung tanpa menurunkan kinerja. Karena itu, dalam karya ini kami mendefinisikan masalah baru bernama Zero-Shot Tokenizer Transfer (ZeTT). Tantangan inti dalam ZeTT adalah menemukan embedding untuk token dalam kosakata tokenizer baru. Karena heuristik sebelumnya untuk inisialisasi embedding sering kali hanya bekerja pada tingkat kebetulan dalam pengaturan ZeTT, kami mengusulkan solusi baru: melatih hypernetwork yang menerima tokenizer sebagai input dan memprediksi embedding yang sesuai. Kami menunjukkan secara empiris bahwa hypernetwork ini dapat digeneralisasi ke tokenizer baru baik pada encoder (misalnya XLM-R) maupun decoder LLM (misalnya Mistral-7B). Metode kami mendekati kinerja model asli pada tugas multibahasa dan coding, sambil secara signifikan mengurangi panjang urutan yang ditokenisasi. Kami juga menemukan bahwa kesenjangan yang tersisa dapat ditutup dengan cepat melalui continued training pada kurang dari 1B token. Terakhir, kami menunjukkan bahwa hypernetwork ZeTT yang dilatih untuk (L)LM dasar juga dapat diterapkan pada varian yang telah di-fine-tune tanpa pelatihan tambahan. Secara keseluruhan, hasil kami merupakan langkah besar menuju pemisahan LM dari tokenizer-nya.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Tautan makalah

https://arxiv.org/abs/2405.07883

Bacaan lebih lanjut

https://x.com/bminixhofer/status/1790267652587258343

WavCraft: Pengeditan dan Generasi Audio dengan model bahasa besar / WavCraft: Audio Editing and Generation with Large Language Models

Pengantar makalah

Makalah ini memanfaatkan LLM untuk menghubungkan model-model spesifik tugas dalam pembuatan dan pengeditan konten audio, menguraikan instruksi pengguna menjadi beberapa tugas dan menangani masing-masing tugas secara kolaboratif dengan modul yang sesuai, serta memungkinkan pengguna berinteraksi dan membuat konten audio tanpa perintah yang eksplisit.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Abstrak makalah (Abstract)

Kami memperkenalkan WavCraft, sebuah sistem kolektif yang memanfaatkan large language models (LLM) untuk menghubungkan beragam model spesifik tugas bagi pembuatan dan penyuntingan konten audio. Secara spesifik, WavCraft mendeskripsikan konten dari materi audio mentah dalam bahasa alami dan memberi prompt ke LLM dengan kondisi berdasarkan deskripsi audio dan permintaan pengguna. WavCraft memanfaatkan kemampuan in-context learning dari LLM untuk menguraikan instruksi pengguna menjadi beberapa tugas dan menangani setiap tugas secara kolaboratif dengan modul yang sesuai. Melalui dekomposisi tugas bersama serangkaian model spesifik tugas, WavCraft mengikuti instruksi input untuk membuat atau menyunting konten audio dengan lebih banyak detail dan penalaran, sehingga memudahkan kontrol pengguna. Selain itu, WavCraft dapat bekerja sama dengan pengguna melalui interaksi dialog dan bahkan menghasilkan konten audio tanpa perintah eksplisit dari pengguna. Hasil eksperimen menunjukkan bahwa WavCraft memberikan kinerja yang lebih baik dibandingkan metode yang ada, terutama saat menyesuaikan area lokal dari klip audio. Selain itu, WavCraft dapat mengikuti instruksi kompleks untuk menyunting dan membuat konten audio di atas rekaman input, sehingga membantu produser audio dalam rentang aplikasi yang lebih luas. Implementasi dan demo tersedia di sini (https://github.com/JinhuaLiang/WavCraft).

We introduce WavCraft, a collective system that leverages large language models (LLMs) to connect diverse task-specific models for audio content creation and editing. Specifically, WavCraft describes the content of raw audio materials in natural language and prompts the LLM conditioned on audio descriptions and user requests. WavCraft leverages the in-context learning ability of the LLM to decomposes users' instructions into several tasks and tackle each task collaboratively with the particular module. Through task decomposition along with a set of task-specific models, WavCraft follows the input instruction to create or edit audio content with more details and rationales, facilitating user control. In addition, WavCraft is able to cooperate with users via dialogue interaction and even produce the audio content without explicit user commands. Experiments demonstrate that WavCraft yields a better performance than existing methods, especially when adjusting the local regions of audio clips. Moreover, WavCraft can follow complex instructions to edit and create audio content on the top of input recordings, facilitating audio producers in a broader range of applications. Our implementation and demos are available at this https://github.com/JinhuaLiang/WavCraft.

Tautan makalah

https://arxiv.org/abs/2403.09527v3

Bacaan lanjutan

https://github.com/JinhuaLiang/WavCraft

Workflow RLHF: Dari reward modeling hingga RLHF online / RLHF Workflow: From Reward Modeling to Online RLHF

Pengantar makalah

Menyediakan resep yang mudah direproduksi untuk RLHF iteratif online, serta membahas wawasan teoretis, prinsip algoritmik, dan implementasi praktis dari RLHF iteratif online.

Provides an easily reproducible recipe for online iterative RLHF; discusses theoretical insights and algorithmic principles of online iterative RLHF and practical implementation.

Abstrak makalah (Abstract)

Laporan teknis ini memperkenalkan alur kerja Online Iterative Reinforcement Learning from Human Feedback (RLHF), yang dalam literatur large language model (LLM) terbaru secara luas dilaporkan mengungguli pendekatan offline dengan selisih yang besar. Namun, proyek RLHF open-source yang ada masih sebagian besar terbatas pada lingkungan pembelajaran offline. Dalam laporan teknis ini, kami bertujuan menjembatani kesenjangan tersebut dan memberikan resep terperinci yang mudah direproduksi untuk online iterative RLHF. Secara khusus, karena umpan balik manusia online biasanya tidak memungkinkan bagi komunitas open-source dengan sumber daya terbatas, kami memulai dengan membangun model preferensi menggunakan beragam dataset open-source, lalu menggunakan model preferensi proksi yang dibangun tersebut untuk mendekati umpan balik manusia. Setelah itu, kami membahas insight teoretis dan prinsip algoritmik di balik online iterative RLHF, lalu meninjau implementasi praktis secara terperinci. LLM yang kami latih, SFR-Iterative-DPO-LLaMA-3-8B-R, mencapai performa yang mengesankan pada benchmark chatbot LLM, termasuk AlpacaEval-2, Arena-Hard, dan MT-Bench, serta benchmark akademis lainnya seperti HumanEval dan TruthfulQA. Kami menunjukkan bahwa supervised fine-tuning (SFT) dan iterative RLHF dapat memperoleh performa mutakhir dengan dataset yang sepenuhnya open-source. Selain itu, model, dataset pilihan, dan buku panduan kode langkah demi langkah yang komprehensif telah kami sediakan untuk publik. Untuk informasi lebih lanjut, silakan lihat https://github.com/RLHFlow/RLHF-Reward-Modeling dan https://github.com/RLHFlow/Online-RLHF.

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Tautan makalah

https://arxiv.org/abs/2405.07863v1

Baca lebih lanjut

https://github.com/RLHFlow/RLHF-Reward-Modeling dan https://github.com/RLHFlow/Online-RLHF

https://x.com/CaimingXiong/status/1790379121719361776

Cache Hanya Sekali: Arsitektur Decoder-Decoder untuk Model Bahasa / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Pengenalan makalah

Arsitektur LLM decoder-decoder yang hanya melakukan cache pasangan key-value sekali dapat secara signifikan mengurangi penggunaan memori GPU tanpa mengorbankan kapabilitas, dengan menumpuk cross-decoder di atas self-decoder yang secara efisien mengodekan cache key-value global dan memungkinkan cross-encoder menggunakan kembali cache melalui cross-attention; pendekatan ini mencapai performa yang sebanding dengan Transformer dalam berbagai pengaturan saat memperbesar ukuran model dan jumlah token pelatihan.

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

Abstrak makalah(Abstract)

Kami memperkenalkan YOCO, arsitektur decoder-decoder untuk large language model yang hanya melakukan cache pasangan key-value satu kali. Arsitektur ini terdiri dari dua komponen, yaitu cross-decoder yang ditumpuk di atas self-decoder. Self-decoder secara efisien mengodekan cache key-value (KV) global yang digunakan kembali oleh cross-decoder melalui cross-attention. Model secara keseluruhan berperilaku seperti Transformer decoder-only, tetapi YOCO hanya melakukan cache sekali. Desain ini secara signifikan mengurangi kebutuhan memori GPU sambil tetap mempertahankan kemampuan attention global. Selain itu, alur komputasinya memungkinkan prefill hingga early exit tanpa mengubah output akhir, sehingga tahap prefill menjadi jauh lebih cepat. Hasil eksperimen menunjukkan bahwa YOCO mencapai performa yang lebih baik dibanding Transformer dalam berbagai pengaturan penskalaan ukuran model dan jumlah token pelatihan. YOCO juga diperluas hingga panjang konteks 1M dengan akurasi needle retrieval yang nyaris sempurna. Hasil profiling menunjukkan bahwa YOCO meningkatkan memori inferensi, latensi prefill, dan throughput secara sangat signifikan di berbagai panjang konteks dan ukuran model. Kode tersedia di https://aka.ms/YOCO.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Tautan makalah

https://arxiv.org/abs/2405.05254

Bacaan lanjutan

https://github.com/microsoft/unilm/tree/master/YOCO

https://x.com/arankomatsuzaki/status/1788435838474355098

CAT3D: Membuat apa pun menjadi 3D dengan model difusi multi-view / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Pengantar makalah

Makalah ini menyajikan metode untuk membuat apa pun dalam 3D dengan mensimulasikan proses pengambilan gambar di dunia nyata menggunakan model difusi multi-view; metode ini dapat menghasilkan novel view yang konsisten dari suatu scene yang dapat digunakan sebagai input bagi teknik rekonstruksi 3D untuk menghasilkan representasi 3D yang dirender secara real-time; scene dari CAT3D dapat dibuat dalam waktu kurang dari satu menit dan dilaporkan mengungguli metode yang ada pada tugas pembuatan scene 3D dari satu gambar maupun beberapa view.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Abstrak makalah (Abstract)

Kemajuan dalam rekonstruksi 3D telah memungkinkan penangkapan 3D berkualitas tinggi, tetapi untuk membuat scene 3D pengguna perlu mengumpulkan ratusan hingga ribuan gambar. Unity memperkenalkan CAT3D, sebuah metode untuk membuat apa pun dalam 3D dengan mensimulasikan proses pengambilan gambar di dunia nyata ini menggunakan model difusi multi-view. Dengan jumlah gambar input berapa pun dan sekumpulan viewpoint baru target, model Unity menghasilkan viewpoint baru dari scene yang sangat konsisten. View yang dihasilkan ini dapat digunakan sebagai input bagi teknik rekonstruksi 3D yang tangguh untuk menghasilkan representasi 3D yang dapat dirender secara real-time dari sudut pandang apa pun. CAT3D dapat membuat seluruh scene 3D hanya dalam waktu satu menit, dan menunjukkan performa yang lebih unggul dibanding metode yang ada untuk pembuatan scene 3D dari satu gambar maupun beberapa view. Untuk hasil dan demo interaktif, lihat halaman proyek di https://cat3d.github.io.

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Tulisan ini dirangkum menggunakan model GPT, sehingga mungkin ada bagian yang kurang tepat. Mohon lihat juga artikel asli di bagian bawah! Jika Anda menemukan isi yang terasa janggal atau keliru saat membaca, mohon beri tahu melalui komentar. 🤗

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh 🔥Komunitas Pengguna PyTorch Korea🇰🇷 ini bermanfaat bagi Anda? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email💌! (Default-nya Weekly, tetapi bisa diubah ke Daily.)

[2024/05/13 ~ 05/19] Makalah ML utama minggu ini (Top ML Papers of the Week)

GPT-4o

Pengenalan

Tautan terkait

Baca lebih lanjut

Gemini 1.5 Flash / Gemini 1.5 Flash

Pengenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lanjutan

Veo

Pengenalan

Tautan terkait

Bacaan lanjutan

Chameleon: model fondasi early-fusion mixed-modal / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

Apakah fine-tuning LLM dengan pengetahuan baru mendorong halusinasi? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Pengenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lebih lanjut

Transfer Tokenizer Zero-Shot / Zero-Shot Tokenizer Transfer

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lebih lanjut

WavCraft: Pengeditan dan Generasi Audio dengan model bahasa besar / WavCraft: Audio Editing and Generation with Large Language Models

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lanjutan

Workflow RLHF: Dari reward modeling hingga RLHF online / RLHF Workflow: From Reward Modeling to Online RLHF

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

Cache Hanya Sekali: Arsitektur Decoder-Decoder untuk Model Bahasa / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Pengenalan makalah

Abstrak makalah(Abstract)

Tautan makalah

Bacaan lanjutan

CAT3D: Membuat apa pun menjadi 3D dengan model difusi multi-view / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Bacaan lanjutan

Artikel asli

Bacaan terkait

Belum ada komentar.