3 poin oleh ninebow 2024-01-29 | Belum ada komentar. | Bagikan ke WhatsApp

Ikhtisar

  • Kami telah mencoba menerjemahkan secara otomatis artikel mingguan dari DAIR.AI tentang makalah-makalah ML.

  • Melihat makalah yang dipilih minggu ini, terlihat jelas besarnya perhatian pada area seperti Large Language Models (LLM), model multimodal, dan Visual Language Models. Makalah seperti "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models", dan "Red Teaming Visual Language Models" mencerminkan tren utama ini, serta menyajikan penelitian dan pengembangan mengenai model berkapasitas besar beserta efisiensinya, pembelajaran multimodal, dan peningkatan kemampuan pemrosesan data visual.

  • Tren ini muncul seiring meningkatnya pentingnya kemampuan memahami dan memproses data yang kompleks dalam teknologi kecerdasan buatan dalam beberapa tahun terakhir, khususnya di bidang Natural Language Processing (NLP) dan Computer Vision. Large language model mencatat kinerja tinggi pada berbagai tugas pemahaman bahasa, sementara model multimodal telah menjadi elemen penting dalam riset yang bertujuan mencapai pemahaman layaknya manusia dengan menggabungkan berbagai jenis data (teks, gambar, audio, dan lain-lain). Selain itu, visual language model memungkinkan pendekatan linguistik terhadap gambar dan konten visual, sehingga memainkan peran penting dalam membangun sistem AI yang lebih kaya dan interaktif.

  • Tren yang dapat dipahami melalui judul dan pengantar ini menunjukkan bahwa semakin banyak penelitian yang bertujuan bukan hanya meningkatkan kinerja model AI canggih, tetapi juga menetapkan standar baru untuk produktivitas dan efisiensi. Makalah yang membahas peningkatan efisiensi sumber daya pada model skala besar mencerminkan arus riset saat ini yang mengejar perkembangan AI berkelanjutan dari sisi konsumsi energi dan biaya komputasi. Ini juga menegaskan upaya kalangan akademik dan industri dalam menangani masalah-masalah yang wajib diselesaikan agar kecerdasan buatan dapat diadopsi lebih luas dalam aplikasi industri nyata dan masyarakat.


Analisis Mendalam untuk Apa Pun: Melepaskan Kekuatan Data Skala Besar Tanpa Label / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Pengantar makalah

  • Solusi estimasi kedalaman monokular yang tangguh dan mampu menangani gambar apa pun dalam situasi apa pun; secara otomatis memberi anotasi pada data skala besar tanpa label (hingga 62 juta) untuk mengurangi galat generalisasi, mengusulkan strategi efektif untuk memanfaatkan kekuatan data skala besar tanpa label, serta selain kemampuan generalisasi juga menetapkan state-of-the-art baru melalui fine-tuning dan bahkan menghasilkan ControlNet berkondisi kedalaman yang ditingkatkan.

    A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

Abstrak makalah (Abstract)

  • Penelitian ini memperkenalkan Depth Anything, solusi yang sangat praktis untuk estimasi kedalaman monokular yang tangguh. Tanpa mengejar modul teknis baru, penelitian ini bertujuan membangun foundation model yang sederhana namun kuat, yang dapat menangani gambar apa pun dalam kondisi apa pun. Untuk itu, penelitian ini memperbesar dataset dengan merancang data engine untuk mengumpulkan dan secara otomatis memberi anotasi pada data skala besar tanpa label (sekitar 62 juta), yang secara signifikan memperluas cakupan data dan dengan demikian mampu mengurangi galat generalisasi. Penelitian ini menyelidiki dua strategi yang sederhana namun efektif yang membuat peningkatan skala data menjadi menjanjikan. Pertama, target optimisasi yang lebih menantang dibuat dengan memanfaatkan alat augmentasi data. Hal ini mendorong model untuk secara aktif mencari pengetahuan visual tambahan dan memperoleh representasi yang tangguh. Kedua, dikembangkan supervisi bantu untuk memaksa model mewarisi prior semantik yang kaya dari encoder yang telah dipra-latih. Kemampuan zero-shot-nya dievaluasi secara luas, termasuk pada enam dataset publik dan foto yang diambil secara acak. Hasilnya menunjukkan kemampuan generalisasi yang mengesankan. Lebih lanjut, melalui fine-tuning dengan informasi kedalaman metrik dari NYUv2 dan KITTI, ditetapkan SOTA baru. Model kedalaman yang lebih baik juga menghasilkan ControlNet berkondisi kedalaman yang lebih baik. Detail lebih lanjut dapat dilihat di https://github.com/LiheYoung/Depth-Anything.

    This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

Tautan makalah

https://arxiv.org/abs/2401.10891v1

Bacaan lebih lanjut

https://x.com/_akhaliq/status/1749284669936275463


Fusi Pengetahuan pada Large Language Models / Knowledge Fusion of Large Language Models

Pengantar makalah

  • Mengusulkan FuseLLM, dengan ide inti mengeksternalisasi pengetahuan dari beberapa organisasi pembelajaran dan mentransfer kapabilitasnya ke organisasi pembelajaran target; memanfaatkan distribusi generatif dari organisasi pembelajaran sumber untuk mengeksternalisasi baik pengetahuan kolektif maupun keunggulan individual mereka, lalu mentransfernya ke organisasi pembelajaran target melalui pembelajaran berkelanjutan; menemukan bahwa FuseLLM dapat meningkatkan kinerja model target di berbagai kapabilitas seperti penalaran, akal sehat, dan generasi kode.
    > Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.

Abstrak Makalah (Abstract)

  • Melatih large language model (LLM) dari nol dapat menghasilkan model dengan fungsi dan kekuatan yang khas, tetapi memerlukan biaya besar dan dapat menimbulkan kapabilitas yang redundan. Sebagai alternatif, menggabungkan LLM pra-latih yang sudah ada menjadi model yang lebih kuat merupakan pendekatan yang hemat biaya dan menarik. Namun, karena arsitektur LLM ini beragam, mencampurkan bobotnya secara langsung tidaklah praktis. Dalam makalah ini, penulis memperkenalkan gagasan knowledge fusion untuk LLM, yang bertujuan menggabungkan kapabilitas LLM yang ada dan mentransfernya ke dalam satu LLM. Dengan memanfaatkan distribusi generatif dari LLM sumber, mereka mengeksternalisasi pengetahuan kolektif dan kekuatan uniknya, sehingga berpotensi meningkatkan kapabilitas model target melampaui LLM sumber individual mana pun. Unity memvalidasi pendekatan ini menggunakan tiga LLM populer dengan arsitektur berbeda—Llama-2, MPT, dan OpenLLaMA—di berbagai benchmark dan tugas. Hasilnya mengonfirmasi bahwa fusi LLM dapat meningkatkan kinerja model target di berbagai kapabilitas seperti penalaran, akal sehat, dan generasi kode. Kode, model weights, dan data tersedia secara publik di \url{https://github.com/fanqiwan/FuseLLM}.
    > While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.

Tautan Makalah

https://arxiv.org/abs/2401.10491

Baca lebih lanjut

https://github.com/fanqiwan/FuseLLM

https://x.com/omarsar0/status/1749267663900057620


MambaByte: Model Ruang Status Selektif Tanpa Token / MambaByte: Token-free Selective State Space Model

Pengenalan Makalah

  • Menyesuaikan Mamba SSM agar belajar langsung dari byte mentah. Byte menghasilkan urutan yang lebih panjang, yang membuat transformer autoregresif sulit diskalakan dengan baik. Karya ini melaporkan manfaat besar terkait inferensi yang lebih cepat dan bahkan mengungguli transformer subword.
    > Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.

Abstrak Makalah (Abstract)

  • Model bahasa tanpa token belajar langsung dari byte mentah dan menghilangkan bias tokenisasi subword. Namun, bekerja pada level byte menghasilkan urutan yang jauh lebih panjang, dan Transformer autoregresif standar tidak dapat diskalakan dengan baik dalam pengaturan seperti ini. Kami bereksperimen dengan MambaByte, adaptasi tanpa token dari model ruang status Mamba, yang dilatih secara autoregresif pada urutan byte. Hasil eksperimen kami menunjukkan efisiensi komputasi MambaByte yang jauh lebih tinggi dibandingkan model level-byte lainnya. Kami juga menemukan bahwa MambaByte mampu bersaing dengan, dan bahkan melampaui, Transformer subword state-of-the-art. Selain itu, berkat penskalaan linear terhadap panjang urutan, MambaByte menawarkan keuntungan inferensi cepat dibandingkan Transformer. Temuan ini menunjukkan kelayakan MambaByte untuk mewujudkan language modeling tanpa token.
    > Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.

Tautan Makalah

https://arxiv.org/abs/2401.13660

Baca lebih lanjut

https://x.com/omarsar0/status/1750366964759859633


Diffuse to Choose: Memperkaya Inpainting Berbasis Kondisi Gambar dalam Model Latent Diffusion untuk Virtual Try-All / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Pengenalan makalah

  • Model inpainting berbasis diffusion dengan conditioning gambar yang menyeimbangkan inferensi cepat dan fidelitas tinggi, sekaligus memungkinkan manipulasi semantik yang akurat pada konten adegan yang diberikan; performanya melampaui metode inpainting diffusion zero-shot yang ada, bahkan algoritme personalisasi diffusion few-shot seperti DreamPaint.
    > A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

Abstrak makalah (Abstract)

  • Seiring pertumbuhan belanja online, kemampuan pembeli untuk memvisualisasikan produk secara virtual di lingkungan mereka sendiri—fenomena yang kami sebut sebagai "Virtual Try-All"—menjadi semakin penting. Model diffusion terbaru secara inheren memiliki world model, sehingga cocok untuk tugas ini dalam konteks inpainting. Namun, model diffusion berbasis kondisi gambar tradisional sering gagal menangkap detail produk yang halus. Sebaliknya, model berbasis personalisasi seperti DreamPaint mampu mempertahankan detail item dengan baik, tetapi belum dioptimalkan untuk aplikasi real-time. Unity memperkenalkan "Diffuse to Choose", sebuah model inpainting berbasis diffusion dengan conditioning gambar yang baru, yang secara efisien menyeimbangkan inferensi cepat dengan pemertahanan detail berfidelitas tinggi dari item referensi yang diberikan, sambil memastikan manipulasi semantik yang akurat pada konten adegan yang diberikan. Pendekatan Unity didasarkan pada pengintegrasian fitur-fitur halus dari gambar referensi secara langsung ke latent feature map dari model diffusion utama, disertai perceptual loss untuk lebih menjaga detail item referensi. Unity melakukan pengujian ekstensif pada dataset internal maupun yang tersedia secara publik, dan menunjukkan bahwa Diffuse to Choose lebih unggul dibandingkan metode inpainting diffusion zero-shot yang ada maupun algoritme personalisasi diffusion few-shot seperti DreamPaint.
    > As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

Tautan makalah

https://arxiv.org/abs/2401.13795

Baca lebih lanjut

https://x.com/_akhaliq/status/1750737690553692570


WARM: Tentang Manfaat Model Reward dengan Rata-Rata Bobot / WARM: On the Benefits of Weight Averaged Reward Models

Pengenalan makalah

  • Memperkenalkan weighted averaged reward models (WARM), yang melibatkan fine-tuning beberapa reward model lalu merata-ratakannya di weight space; perataan bobot meningkatkan efisiensi dibandingkan prediction ensembling tradisional, serta meningkatkan kualitas dan alignment prediksi LLM.
    > Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

Abstrak makalah (Abstract)

  • Menyelaraskan large language model (LLM) dengan preferensi manusia melalui reinforcement learning (RLHF) dapat menyebabkan reward hacking, yakni ketika LLM mengeksploitasi kegagalan pada reward model (RM) untuk memperoleh imbalan yang tampak tinggi tanpa memenuhi tujuan dasarnya. Unity mengidentifikasi dua tantangan utama saat merancang RM untuk mengurangi reward hacking, yaitu pergeseran distribusi selama proses RL dan ketidakkonsistenan preferensi manusia. Sebagai solusinya, mereka mengusulkan Weight Averaged Reward Models (WARM), yang terlebih dahulu melakukan fine-tuning pada beberapa RM lalu merata-ratakannya di ruang bobot. Strategi ini didasarkan pada pengamatan bahwa bobot yang telah di-fine-tune tetap terhubung secara linear dalam mode ketika berbagi pre-training yang sama. Dengan merata-ratakan bobot, WARM meningkatkan efisiensi dibandingkan ensemble prediksi tradisional, sekaligus meningkatkan keandalan terhadap pergeseran distribusi dan ketahanan terhadap ketidaksesuaian preferensi. Hasil eksperimen pada tugas peringkasan menggunakan metode best-of-N dan RL menunjukkan bahwa WARM meningkatkan kualitas keseluruhan dan alignment prediksi LLM; misalnya, policy RL yang di-fine-tune dengan WARM menunjukkan win rate 79,4% dibanding policy RL yang di-fine-tune dengan satu RM.
    > Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

Tautan makalah

https://arxiv.org/abs/2401.12187

Baca lebih lanjut

https://x.com/ramealexandre/status/1749719471806157304


Survei tentang LLM yang Efisien Sumber Daya dan Model Fondasi Multimodal / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Pengenalan makalah

  • Survei tentang ML yang efisien sumber daya dan model fondasi multimodal, yang memberikan analisis komprehensif dan wawasan tentang riset efisiensi ML, termasuk arsitektur, algoritme, serta desain dan implementasi sistem praktis.
    > A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.

Abstrak makalah (Abstract)

  • Model fondasi berskala besar, termasuk large language model (LLM), vision transformer (ViT), diffusion, dan model multimodal berbasis LLM, sedang merevolusi seluruh siklus hidup machine learning, dari pelatihan hingga deployment. Namun, kemajuan besar dalam fleksibilitas dan performa yang ditawarkan model-model ini datang dengan biaya yang signifikan dalam hal sumber daya perangkat keras. Untuk mendukung pertumbuhan model-model besar ini dengan cara yang scalable dan berkelanjutan secara lingkungan, ada perhatian besar pada pengembangan strategi yang efisien sumber daya. Survei ini membahas secara mendalam pentingnya riset semacam itu, dengan menelaah baik aspek algoritmik maupun sistem. Survei ini menawarkan analisis komprehensif dan wawasan berharga yang dihimpun dari literatur yang ada, mencakup beragam topik mulai dari arsitektur model mutakhir dan algoritme pelatihan/serving hingga desain dan implementasi sistem praktis. Tujuan survei ini adalah memberikan pemahaman menyeluruh tentang bagaimana pendekatan saat ini mengatasi tantangan sumber daya yang ditimbulkan oleh model fondasi besar, serta berpotensi menginspirasi terobosan di masa depan dalam bidang ini.
    > Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.

Tautan makalah

https://arxiv.org/abs/2401.08092v1

Baca lebih lanjut

https://x.com/omarsar0/status/1749208653926654010


Red Teaming pada Visual Language Models / Red Teaming Visual Language Models

Pengenalan makalah

  • Pertama, makalah ini menyajikan dataset red teaming yang terdiri dari 10 subtugas (mis. penyesatan gambar, jailbreak multimodal, keadilan wajah, dll.), menemukan bahwa 10 VLM (Vision-Language Models) open-source terkemuka mengalami kesulitan red teaming pada tingkat yang berbeda-beda dan memiliki kesenjangan performa hingga 31% dibandingkan gpt-4v, serta menerapkan penyelarasan red teaming pada llava-v1.5 bersama SFT (Supervised Fine-tuning) menggunakan dataset red teaming yang diusulkan, yang meningkatkan performa model sebesar 10% pada set pengujian.
    > First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.

Abstrak Makalah

  • VLM (Vision-Language Models) memperluas kemampuan LLM (Large Language Models) untuk menerima input multimodal. Karena telah diverifikasi bahwa LLM dapat dibuat menghasilkan konten berbahaya atau tidak akurat melalui kasus uji tertentu (disebut Red Teaming), bagaimana VLM bekerja dalam skenario serupa, terutama dengan kombinasi input tekstual dan visual, masih menjadi pertanyaan. Untuk mengeksplorasi masalah ini, kami memperkenalkan dataset red teaming baru RTVLM, yang mencakup 10 subtugas (mis. penyesatan gambar, jailbreak multimodal, keadilan wajah, dll.) di bawah 4 aspek utama (faithfulness, privasi, keamanan, keadilan). RTVLM dari Criteo adalah dataset red teaming pertama yang melakukan benchmark VLM saat ini dalam 4 aspek tersebut. Analisis terperinci menunjukkan bahwa 10 VLM open-source terkemuka mengalami kesulitan red teaming pada tingkat yang berbeda-beda dan memiliki kesenjangan performa hingga 31% dibandingkan GPT-4V. Selain itu, dengan menerapkan secara sederhana penyelarasan red teaming pada LLaVA-v1.5 melalui supervised fine-tuning (SFT) menggunakan RTVLM, performa model meningkat sebesar 10% pada set uji RTVLM, 13% pada MM-Hal, dan melampaui model berbasis LLaVA lain yang menggunakan data alignment reguler tanpa penurunan yang terlihat pada MM-Bench. Hal ini mengungkap bahwa VLM open-source saat ini masih kekurangan penyelarasan red teaming. Kode dan dataset kami akan dirilis sebagai open-source.
    > VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.

Tautan Makalah

https://arxiv.org/abs/2401.12915

Baca Lebih Lanjut

https://x.com/omarsar0/status/1750170361843384790


Lumiere: Model Difusi Ruang-Waktu untuk Pembuatan Video / Lumiere: A Space-Time Diffusion Model for Video Generation

Pengantar Makalah

  • Model difusi ruang-waktu text-to-video untuk mensintesis video dengan gerakan yang realistis dan konsisten, memperkenalkan arsitektur space-time u-net untuk menghasilkan seluruh durasi temporal video sekaligus dalam satu pass, mencapai hasil text-to-video generation mutakhir, serta mendukung berbagai tugas pembuatan konten dan aplikasi penyuntingan video, termasuk image-to-video, video inpainting, dan stylized generation.
    > A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Abstrak Makalah

  • Memperkenalkan Lumiere, model difusi teks-ke-video yang dirancang untuk mensintesis video yang menampilkan gerakan realistis, beragam, dan konsisten, yang merupakan tantangan inti dalam sintesis video. Untuk itu, Unity memperkenalkan arsitektur Space-Time U-Net yang menghasilkan seluruh durasi temporal video sekaligus dalam satu pass model. Ini berbeda dari model video yang ada, yang mensintesis keyframe yang berjauhan lalu melakukan super-resolution temporal, yaitu pendekatan yang secara inheren sulit mencapai konsistensi temporal global. Dengan menerapkan downsampling dan upsampling baik secara spasial maupun (yang penting) temporal, serta memanfaatkan model difusi teks-ke-gambar yang telah di-pretrain, model ini mempelajari cara langsung menghasilkan video beresolusi rendah dengan frame rate penuh dengan memprosesnya pada berbagai skala ruang-waktu. Model ini mendemonstrasikan hasil generasi teks-ke-video mutakhir, dan menunjukkan desain yang dengan mudah mendukung beragam tugas pembuatan konten dan aplikasi penyuntingan video, termasuk image-to-video, video inpainting, dan generasi bergaya.
    > We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Tautan makalah

https://arxiv.org/abs/2401.12945

Baca lebih lanjut

https://discuss.pytorch.kr/t/lumiere-google/3357

https://x.com/GoogleAI/status/1751003814931689487


Medusa: Kerangka Akselerasi Inferensi LLM Sederhana dengan Beberapa Decoding Head / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Pengantar makalah

  • Kerangka sederhana untuk akselerasi inferensi LLM yang menggunakan beberapa decoding head untuk memprediksi beberapa token berikutnya secara paralel; paralelisasi secara signifikan mengurangi jumlah langkah decoding; dapat mencapai peningkatan kecepatan lebih dari 2,2x tanpa mengorbankan kualitas generasi, sementara Medusa-2 semakin meningkatkan percepatan menjadi 2,3~3,6x.
    > A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

Abstrak makalah (Abstract)

  • Proses inferensi pada Large Language Model (LLM) sering kali dibatasi karena tidak adanya paralelisme dalam proses decoding auto-regresif, sehingga sebagian besar operasi terikat oleh bandwidth memori akselerator. Untuk mengatasi masalah ini, metode seperti speculative decoding telah diusulkan, tetapi implementasinya terhambat oleh tantangan untuk memperoleh dan memelihara model draft terpisah. Dalam makalah ini, kami memperkenalkan Medusa, metode efisien yang meningkatkan inferensi LLM dengan menambahkan decoding head ekstra untuk memprediksi beberapa token berikutnya secara paralel. Medusa menggunakan mekanisme attention berbasis tree untuk membangun beberapa kandidat kelanjutan dan memverifikasinya secara simultan pada setiap langkah decoding. Dengan memanfaatkan pemrosesan paralel, Medusa hanya menimbulkan overhead minimal dari sisi latensi per langkah, sambil secara signifikan mengurangi jumlah langkah decoding yang diperlukan. Untuk memenuhi kebutuhan berbagai kasus penggunaan, Medusa memiliki dua tingkat prosedur fine-tuning: Medusa-1: Medusa di-fine-tune langsung di atas backbone LLM yang dibekukan, sehingga memungkinkan percepatan inferensi tanpa kehilangan kualitas. Medusa-2: Medusa di-fine-tune bersama backbone LLM, sehingga dapat meningkatkan akurasi prediksi head Medusa dan memperbesar percepatan, tetapi membutuhkan resep pelatihan khusus yang menjaga kemampuan model backbone. Selain itu, kami mengusulkan beberapa ekstensi yang meningkatkan atau memperluas kegunaan Medusa, termasuk self-distillation untuk menangani situasi ketika data pelatihan tidak tersedia dan skema acceptance umum untuk meningkatkan acceptance rate sambil mempertahankan kualitas generasi. Kami mengevaluasi Medusa pada model dengan berbagai ukuran dan prosedur pelatihan. Hasil eksperimen menunjukkan bahwa Medusa-1 dapat mencapai percepatan lebih dari 2,2x tanpa menurunkan kualitas generasi, sementara Medusa-2 lebih lanjut meningkatkan percepatan menjadi 2,3–3,6x.
    > The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.

Tautan makalah

https://arxiv.org/abs/2401.10774v1

Baca lebih lanjut

https://discuss.pytorch.kr/t/…

https://x.com/jiayq/status/1749461664393810350


AgentBoard: Dewan Evaluasi Analitis untuk Agen LLM Multi-turn / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Pengenalan makalah

  • Melalui benchmark komprehensif yang mencakup framework evaluasi open-source, evaluasi analitis dapat dilakukan untuk menilai kemampuan dan keterbatasan agen LM serta memahami perilaku agen, yang pada akhirnya membantu membangun agen LM yang lebih kuat dan tangguh.
    > A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.

Abstrak makalah (Abstract)

  • Mengevaluasi large language model (LLM) sebagai agen serbaguna sangat penting untuk memahami kemampuannya dan memudahkan integrasinya ke dalam aplikasi praktis. Namun, proses evaluasi menghadirkan tantangan yang besar. Hambatan utamanya adalah melakukan benchmark kinerja agen di berbagai skenario dalam kerangka kerja terpadu, khususnya dalam mempertahankan lingkungan yang dapat diamati sebagian dan memastikan interaksi multi-putaran. Selain itu, kerangka evaluasi saat ini sebagian besar berfokus pada tingkat keberhasilan akhir, sehingga hanya sedikit wawasan yang terungkap selama proses dan gagal memberikan pemahaman mendalam tentang kemampuan model. Untuk mengatasi tantangan ini, Unity memperkenalkan AgentBoard, benchmark komprehensif perintis sekaligus kerangka evaluasi open-source pendamping yang dirancang khusus untuk evaluasi analitis agen LLM. AgentBoard menawarkan metrik tingkat progres yang terperinci untuk menangkap perkembangan bertahap serta toolkit evaluasi komprehensif yang memungkinkan penilaian agen secara mudah untuk analisis multifaset melalui visualisasi interaktif. Hal ini tidak hanya memperjelas kapabilitas dan keterbatasan agen LLM, tetapi juga mendorong interpretabilitas kinerjanya ke garis depan. Pada akhirnya, AgentBoard menjadi langkah penting untuk mengungkap perilaku agen dan mempercepat pengembangan agen LLM yang lebih kuat.
    > Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

Tautan makalah

https://arxiv.org/abs/2401.13178v1

Baca lebih lanjut

https://x.com/ma_chang_nlp/status/1750369056539218082


Teks asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8


⚠️Iklan⚠️: Apakah artikel yang dirangkum oleh Komunitas Pengguna PyTorch Korea ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan artikel-artikel utama lewat email! Default-nya Weekly, tetapi bisa diubah ke Daily.

Belum ada komentar.

Belum ada komentar.