7 poin oleh ninebow 2024-01-01 | Belum ada komentar. | Bagikan ke WhatsApp

Ringkasan

  • Kami telah mencoba menerjemahkan secara otomatis artikel tentang makalah ML yang dipublikasikan setiap minggu oleh DAIR.AI.

  • Jika melihat makalah yang dipilih minggu ini, secara umum tampak bahwa riset yang berpusat pada large language model (LLM) seperti GPT-4 masih menjadi arus utama. Secara khusus, penelitian-penelitian ini berfokus pada pemanfaatan API baru GPT-4, kemampuan recall fakta pada LLM, serta bagaimana membuat LLM memiliki kemampuan penelusuran yang lebih baik dan lebih padat. Selain itu, ada juga topik tentang pemecahan masalah matematika berbasis language model dan bagaimana model-model ini dapat melakukan penalaran.

  • Munculnya tren ini mungkin karena LLM masih menjadi topik riset utama di bidang kecerdasan buatan. Model seperti GPT-4 terus memperluas potensi penerapannya di berbagai bidang berkat kemampuan pemahaman dan generasi bahasa yang unggul, dan penelitian untuk meningkatkan kemampuan ini serta memanfaatkannya dengan cara-cara baru terus dilakukan. Riset metodologi yang konkret untuk peningkatan performa nyata serta analisis kasus penerapan kini muncul sebagai area penelitian penting, dan makalah yang dipilih minggu ini tampaknya mencerminkan tren tersebut.

  • Di sisi lain, penelitian yang bertujuan mengevaluasi dan meningkatkan tingkat pemahaman serta kemampuan penalaran LLM juga tampak menjadi topik yang populer. Menjelajahi cara agar agen cerdas dapat berinteraksi dengan manusia secara lebih alami dan efektif melalui hal ini merupakan tugas yang sangat penting di bidang kecerdasan buatan. Upaya meneliti peningkatan efisiensi dan kemungkinan penerapan di kehidupan nyata melalui pendekatan ini diperkirakan akan menempati posisi penting dalam tren riset ke depan.


CogAgent: model bahasa visual untuk agen GUI / CogAgent: A Visual Language Model for GUI Agents

Pengenalan makalah

  • Menyediakan model bahasa visual berparameter 18 miliar yang dioptimalkan untuk pemahaman dan navigasi GUI, mendukung input resolusi tinggi (1120x1120), menunjukkan kemampuan pada tugas seperti visual question answering, visual grounding, dan agen GUI, serta mencapai state-of-the-art pada 5 benchmark kaya teks dan 4 benchmark VQA umum.
    > Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

Abstrak makalah (Abstract)

  • Orang-orang menghabiskan sangat banyak waktu di perangkat digital melalui graphical user interfaces (GUI), seperti layar komputer atau smartphone. Large language model (LLM) seperti ChatGPT dapat membantu tugas seperti menulis email, tetapi masih kesulitan memahami dan berinteraksi dengan GUI, sehingga potensi mereka untuk meningkatkan tingkat otomasi menjadi terbatas. Dalam makalah ini, diperkenalkan CogAgent, sebuah visual language model (VLM) berparameter 18 miliar yang dikhususkan untuk pemahaman dan navigasi GUI. Dengan memanfaatkan encoder gambar resolusi rendah dan resolusi tinggi sekaligus, CogAgent mendukung input pada resolusi 11201120, sehingga mampu mengenali elemen halaman kecil dan teks. Sebagai visual language model serbaguna, CogAgent mencapai performa terbaik di kelasnya pada lima benchmark kaya teks dan empat benchmark VQA umum (VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE). CogAgent, yang hanya menggunakan screenshot sebagai input, mengungguli Mind2Web dan AITW—pendekatan berbasis LLM yang menggunakan teks HTML hasil ekstraksi—baik pada tugas navigasi GUI PC maupun Android, dan mendorong state-of-the-art ke tingkat berikutnya. Model dan kodenya tersedia di https://github.com/THUDM/CogVLM .
    > People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120
    1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at https://github.com/THUDM/CogVLM .

Tautan makalah

https://arxiv.org/abs/2312.08914

Baca lebih lanjut

https://x.com/cenyk1230/status/1739916469272789222


Dari Google Gemini hingga OpenAI Q* (Q-Star): survei tentang perombakan lanskap riset generative artificial intelligence (AI) / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

Pengenalan makalah

  • Laporan ini meninjau lebih dari 300 makalah dan merangkum perkembangan riset yang perlu diperhatikan di bidang generative AI; cakupannya meliputi tantangan komputasi, skalabilitas, implikasi di dunia nyata, serta potensi generative AI untuk mendorong kemajuan di bidang seperti kesehatan, keuangan, dan pendidikan.
    > Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

Abstrak makalah (Abstract)

  • Survei komprehensif ini mengeksplorasi lanskap Artificial Intelligence (AI) generatif yang terus berkembang, dengan fokus khusus pada dampak transformatif dari Mixture of Experts (MoE), pembelajaran multimodal, dan kemajuan yang diperkirakan menuju Artificial General Intelligence (AGI). Laporan ini meninjau secara kritis kondisi saat ini dan arah masa depan Artificial Intelligence (AI) generatif, serta membahas bagaimana inovasi seperti Gemini milik Google dan proyek OpenAI Q* yang dinantikan sedang membentuk ulang prioritas riset dan aplikasi di berbagai domain, termasuk analisis dampaknya terhadap taksonomi riset AI generatif. Laporan ini mengevaluasi tantangan komputasi, skalabilitas, dan implikasi dunia nyata dari teknologi-teknologi ini, sambil menyoroti potensinya dalam mendorong kemajuan signifikan di bidang seperti layanan kesehatan, keuangan, dan pendidikan. Laporan ini juga membahas tantangan akademik baru yang muncul akibat menjamurnya preprint bertema AI maupun yang dihasilkan AI, serta menelaah dampaknya terhadap proses peer review dan komunikasi ilmiah. Studi ini menekankan pentingnya mengintegrasikan metode yang etis dan berpusat pada manusia dalam pengembangan AI, memastikan keselarasan dengan norma sosial dan kesejahteraan, serta menguraikan strategi riset AI masa depan yang berfokus pada penggunaan MoE, multimodalitas, dan AGI secara seimbang dan penuh tanggung jawab dalam AI generatif.
    > This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

Tautan makalah

https://arxiv.org/abs/2312.10868

Baca lebih lanjut

https://x.com/omarsar0/status/1740119485011390558


PromptBench: pustaka terpadu untuk evaluasi large language model / PromptBench: A Unified Library for Evaluation of Large Language Models

Pengantar makalah

  • Pustaka terpadu yang mendukung evaluasi dan analisis LLM secara komprehensif ini terdiri atas berbagai fungsi seperti konstruksi prompt, prompt engineering, pemuatan dataset dan model, serangan prompt adversarial, protokol evaluasi dinamis, serta alat analisis.
    > A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

Abstrak makalah (Abstract)

  • Evaluasi large language model (LLM) sangat penting untuk menilai performanya dan memitigasi potensi risiko keamanan. Dalam makalah ini, penulis memperkenalkan PromptBench, sebuah pustaka terpadu untuk mengevaluasi LLM. Pustaka ini terdiri atas beberapa komponen utama yang mudah digunakan dan diperluas oleh para peneliti: konstruksi prompt, prompt engineering, pemuatan dataset dan model, serangan prompt adversarial, protokol evaluasi dinamis, dan alat analisis. PromptBench dirancang sebagai codebase yang terbuka, umum, dan fleksibel untuk keperluan riset yang dapat memfasilitasi studi orisinal dalam membuat benchmark baru, menerapkan aplikasi downstream, dan merancang protokol evaluasi baru. Kodenya tersedia di https://github.com/microsoft/promptbench dan akan terus didukung.
    > The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: https://github.com/microsoft/promptbench and will be continuously supported.

Tautan makalah

https://arxiv.org/abs/2312.07910v1

Baca lebih lanjut

https://x.com/omarsar0/status/1739360426134028631


Memanfaatkan API GPT-4 baru / Exploiting Novel GPT-4 APIs

Pengantar makalah

  • Melakukan red-teaming pada tiga fitur yang diekspos di API GPT-4, yaitu fine-tuning, function calling, dan knowledge retrieval, serta menghasilkan temuan utama berikut: 1) fine-tuning dengan hanya 15 contoh berbahaya atau 100 contoh benign dapat menghapus pengaman inti GPT-4, 2) asisten GPT-4 dapat dibuat membocorkan skema function calling dan mengeksekusi pemanggilan fungsi arbitrer, 3) knowledge retrieval dapat dibajak dengan menyisipkan instruksi ke dalam dokumen retrieval.
    > Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

Abstrak Makalah(Abstract)

  • Serangan terhadap model bahasa biasanya mengasumsikan salah satu dari dua model ancaman yang ekstrem: akses white-box penuh ke bobot model, atau akses black-box yang terbatas pada API pembuatan teks. Namun, API di dunia nyata sering kali lebih fleksibel daripada sekadar pembuatan teks; API semacam ini mengekspos akses "gray-box" yang memunculkan vektor ancaman baru. Untuk mengeksplorasi hal ini, kami melakukan red-teaming terhadap tiga fitur baru yang diekspos di API GPT-4: fine-tuning, function calling, dan knowledge retrieval. Kami menemukan bahwa melakukan fine-tuning pada model dengan hanya 15 contoh berbahaya atau 100 contoh benign dapat menghapus pengaman inti dari GPT-4, sehingga memungkinkan berbagai keluaran berbahaya. Selain itu, kami juga menemukan bahwa GPT-4 Assistants dengan mudah membocorkan skema function calling dan dapat dibuat mengeksekusi pemanggilan fungsi arbitrer. Terakhir, kami menemukan bahwa knowledge retrieval dapat dibajak dengan menyisipkan instruksi ke dalam dokumen retrieval. Kerentanan ini menyoroti bahwa setiap penambahan pada fungsionalitas yang diekspos oleh API dapat menciptakan kerentanan baru.
    > Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Tautan Makalah

https://arxiv.org/abs/2312.14302

Bacaan Lanjutan

https://x.com/omarsar0/status/1739677995747450964


Recall Fakta pada LLM / Fact Recalling in LLMs

Pengantar Makalah

  • Menyelidiki bagaimana lapisan MLP mengimplementasikan lookup table untuk recall faktual; memperluas cakupan studi pada bagaimana MLP awal di Pythia 2.8b mencari tahu dari tiga cabang olahraga berbeda yang dimainkan oleh berbagai atlet; mengusulkan bahwa lapisan MLP awal berperan sebagai lookup table dan merekomendasikan untuk memandang recall pengetahuan faktual dalam model sebagai embedding multi-token.
    > Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

Tautan Makalah

https://www.alignmentforum.org/s/hpWHhjvjn67LJ4xXX/p/iGuwZTHWb6DFY3sKB

Bacaan Lanjutan

https://x.com/NeelNanda5/status/1738559368361349122


AI Generatif untuk Matematika: Bagian I -- MathPile: Korpus Pra-pelatihan untuk Matematika Berskala 1 Miliar Token / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Pengantar Makalah

  • Menyajikan korpus berfokus pada matematika yang beragam dan berkualitas tinggi, terdiri dari sekitar 9,5 miliar token, untuk melatih foundation model.
    > Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

Abstrak Makalah(Abstract)

  • Korpus skala besar berkualitas tinggi adalah landasan pembangunan foundation model. Dalam karya ini, kami memperkenalkan ${MathPile}$, korpus berfokus matematika yang beragam dan berkualitas tinggi dengan sekitar 9,5 miliar token. Sepanjang proses pembuatannya, kami berpegang pada prinsip 'lebih sedikit itu lebih baik', dengan keyakinan kuat bahwa kualitas data lebih unggul daripada kuantitas, bahkan pada tahap pra-pelatihan. Untuk menjamin kualitas tinggi korpus ini, kami melakukan pengumpulan dan pemrosesan data secara cermat melalui rangkaian prapemrosesan yang kompleks, termasuk prefiltering, identifikasi bahasa, pembersihan, filtering, dan deduplikasi. Selain itu, kami melakukan deteksi kontaminasi data pada test set benchmark downstream untuk menghilangkan duplikasi. Kami berharap penalaran matematis melalui teks dapat membantu meningkatkan kemampuan penalaran matematis model bahasa. Ke depannya, kami berencana meng-open-source berbagai versi $MathPile$ beserta skrip yang digunakan untuk pemrosesannya guna mendorong perkembangan lebih lanjut di bidang ini.
    > High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce ${MathPile}$, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our ${MathPile}$ can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

Tautan makalah

https://arxiv.org/abs/2312.17120

Baca selengkapnya

https://x.com/arankomatsuzaki/status/1740564961032556942


Yang Anda Butuhkan untuk Mengajukan Pertanyaan ke LLaMA-1/2, GPT-3.5/4 Hanyalah Instruksi yang Berprinsip / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Pengantar makalah

  • Memperkenalkan 26 prinsip panduan yang dirancang untuk menyederhanakan proses melakukan query dan prompting pada large language model, lalu menerapkan prinsip-prinsip ini dalam eksperimen ekstensif pada llama-1/2 (7b, 13b, 70b), gpt-3.5/4 untuk memverifikasi efektivitasnya terhadap desain instruksi dan prompt.
    > Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

Abstrak makalah(Abstract)

  • Makalah ini memperkenalkan 26 prinsip dasar yang dirancang untuk menyederhanakan proses melakukan query dan prompting pada large language model. Tujuan kami adalah menyederhanakan konsep dasar dalam merumuskan pertanyaan untuk large language model dengan berbagai skala, memeriksa kemampuannya, serta meningkatkan pemahaman pengguna terhadap perilaku large language model dengan berbagai skala saat diberi berbagai prompt. Untuk memverifikasi efektivitas prinsip yang diusulkan terhadap desain instruksi dan prompt, kami melakukan eksperimen ekstensif pada LLaMA-1/2 (7B, 13B, 70B) dan GPT-3.5/4. Kami berharap penelitian ini dapat memberikan panduan yang lebih baik bagi para peneliti yang meneliti prompting pada large language model. Halaman proyek tersedia di https://github.com/VILA-Lab/ATLAS.
    > This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at https://github.com/VILA-Lab/ATLAS.

Tautan makalah

https://arxiv.org/abs/2312.16171v1

Baca selengkapnya

https://x.com/_akhaliq/status/1739857456161759455


Survei tentang Penalaran dengan Foundation Model / A Survey of Reasoning with Foundation Models

Pengantar makalah

  • Menyediakan survei komprehensif tentang foundation model penting untuk penalaran, dengan menyoroti perkembangan terbaru dalam berbagai tugas, metode, benchmark, dan arah masa depan yang potensial; juga membahas bagaimana perkembangan lain seperti pembelajaran multimodal, agen otonom, dan super alignment mempercepat serta memperluas riset penalaran.
    > Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

Abstrak makalah(Abstract)

  • Penalaran, kemampuan krusial untuk memecahkan masalah kompleks, memainkan peran sentral dalam berbagai situasi dunia nyata seperti negosiasi, diagnosis medis, dan investigasi kriminal. Hal ini berfungsi sebagai metodologi fundamental dalam bidang Artificial General Intelligence (AGI). Seiring perkembangan foundation model yang terus berlanjut, minat untuk mengeksplorasi kemampuan foundation model dalam tugas penalaran juga semakin meningkat. Dalam makalah ini, kami memperkenalkan foundation model penting yang diusulkan atau dapat diadaptasi untuk penalaran, sekaligus menyoroti kemajuan terbaru dalam berbagai tugas, metode, dan benchmark penalaran. Selanjutnya, kami membahas potensi arah masa depan di balik kemunculan kemampuan penalaran dalam foundation model. Kami juga mendiskusikan relevansi multimodal learning, autonomous agents, dan super alignment dalam konteks penalaran. Dengan membahas arah riset masa depan ini, kami berharap dapat menginspirasi para peneliti dalam mengeksplorasi bidang ini, mendorong kemajuan lebih lanjut dalam penalaran dengan foundation model, dan berkontribusi pada pengembangan AGI.
    > Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

Tautan makalah

https://arxiv.org/abs/2312.11562v4

Baca lebih lanjut

https://x.com/omarsar0/status/1740729489661874632


Menjadikan large language model fondasi yang lebih baik untuk dense retrieval / Making Large Language Models A Better Foundation For Dense Retrieval

Pengantar makalah

  • Mengusulkan LLaRA untuk menyesuaikan LLM bagi dense retrieval. Metode ini terdiri dari dua tugas pretext, yaitu EBAE (embedding-based auto-encoding) dan EBAR (embedding-based auto-regression), yang masing-masing menggunakan text embedding dari LLM untuk merekonstruksi token kalimat input dan memprediksi token kalimat berikutnya; llama-2-7b menunjukkan peningkatan pada benchmark seperti MSMARCO dan BEIR.
    > Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

Abstrak makalah (Abstract)

  • Dense retrieval perlu mempelajari text embedding yang diskriminatif untuk merepresentasikan hubungan semantik antara kueri dan dokumen. Pendekatan ini dapat memperoleh manfaat dari penggunaan LLM (large language model), mengingat kemampuan LLM yang kuat dalam pemahaman semantik. Namun, LLM dipra-latih melalui tugas generasi teks, yang pola kerjanya sepenuhnya berbeda dari merepresentasikan teks sebagai embedding. Karena itu, penting untuk meneliti bagaimana mengadaptasi LLM secara tepat agar dapat diinisialisasi secara efektif sebagai backbone encoder untuk dense retrieval. Dalam makalah ini, kami mengusulkan pendekatan baru bernama LLaRA (LLM adapted for dense RetrievAl), yang berfungsi sebagai adaptasi pasca-hoc dari LLM untuk aplikasi dense retrieval. LLaRA terdiri dari dua tugas pretext: EBAE (Embedding-Based Auto-Encoding) dan EBAR (Embedding-Based Auto-Regression), di mana text embedding dari LLM digunakan untuk merekonstruksi token kalimat input dan memprediksi token kalimat berikutnya. LLaRA terbukti sederhana, ringan, dan sangat efektif. Metode ini diterapkan untuk mengadaptasi LLaMA-2-7B (base) pada korpus Wikipedia, dan secara signifikan meningkatkan performa fine-tuning model pada berbagai benchmark dense retrieval seperti MSMARCO dan BEIR. Model dan kode akan tersedia secara publik di repositori BGE.
    > Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

Tautan makalah

https://arxiv.org/abs/2312.15503v1


Gemini dan GPT-4V: Perbandingan Awal dan Kombinasi Model Vision-Language Melalui Kasus Kualitatif / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

Pengenalan makalah

  • Melalui beberapa kasus kualitatif, makalah ini melakukan perbandingan awal yang komprehensif serta kombinasi model vision-language seperti Gemini dan GPT-4V, dan menemukan bahwa GPT-4V memberikan jawaban yang akurat dan ringkas, sementara Gemini unggul dalam memberikan jawaban yang detail dan luas disertai gambar serta tautan yang relevan.
    > Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

Abstrak makalah (Abstract)

  • Bidang Multi-modal Large Language Models (MLLMs) yang berkembang pesat berada di garis depan dalam mengintegrasikan pemrosesan bahasa dan visual ke dalam kecerdasan buatan. Makalah ini menyajikan studi komparatif mendalam terhadap dua model perintis: Gemini dari Google dan GPT-4V(ision) dari OpenAI. Studi ini melibatkan evaluasi multi-aspek terhadap kedua model di berbagai dimensi utama seperti kemampuan vision-language, interaksi dengan manusia, pemahaman temporal, serta penilaian pada kecerdasan dan kecerdasan emosional. Inti analisis ini menggali kemampuan pemahaman visual yang khas dari masing-masing model. Kami melakukan serangkaian eksperimen terstruktur untuk mengevaluasi kinerja mereka dalam berbagai skenario aplikasi industri, sehingga memberikan perspektif yang komprehensif tentang kegunaan praktisnya. Kami tidak hanya melakukan perbandingan kinerja secara langsung, tetapi juga mencakup penyesuaian pada prompt dan skenario untuk memastikan analisis yang seimbang dan adil. Temuan kami menyoroti kekuatan unik dan ceruk masing-masing model. GPT-4V menonjol berkat jawaban yang akurat dan ringkas, sedangkan Gemini unggul dalam memberikan jawaban yang detail dan luas disertai gambar serta tautan yang relevan. Pemahaman ini tidak hanya menjelaskan keunggulan komparatif Gemini dan GPT-4V, tetapi juga menegaskan lanskap model fondasi multimodal yang terus berkembang, sehingga membuka jalan bagi kemajuan di bidang ini di masa depan. Setelah perbandingan, kami mencoba menggabungkan kedua model untuk memperoleh hasil yang lebih baik. Terakhir, kami ingin menyampaikan rasa terima kasih yang mendalam kepada tim di balik GPT-4V dan Gemini atas kontribusi perintis mereka pada bidang ini. Kami juga menyampaikan apresiasi kepada analisis kualitatif komprehensif yang dipaparkan dalam 'Dawn' oleh Yang dkk. Karya ini, dengan koleksi sampel gambar, prompt, dan hasil terkait GPT-4V yang luas, memberikan landasan dasar bagi analisis kami.
    > The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

Tautan makalah

https://arxiv.org/abs/2312.15011v1

Baca lebih lanjut

https://x.com/omarsar0/status/1741177994377330895


Artikel asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-1d3

Belum ada komentar.

Belum ada komentar.