[2023/12/11 ~ 12/17] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Ringkasan
-
Saya telah menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
-
Jika melihat makalah yang dipilih minggu ini, terlihat jelas bahwa penelitian tentang 'LLM (Large Language Models)' mendominasi. Secara spesifik, tampaknya telah dilakukan analisis mengenai pemanfaatan dan peningkatan performa LLM di berbagai topik, mulai dari penemuan di bidang matematika, masalah generalisasi, penerapan di bidang medis, hingga metode pembelajaran yang melampaui data manusia.
-
Tren ini mencerminkan bahwa perkembangan LLM di bidang kecerdasan buatan dalam beberapa tahun terakhir semakin mendapat perhatian. Khususnya, sejak kemunculan model bahasa besar seperti GPT-3 dari OpenAI, kemungkinan penerapan model-model ini di berbagai bidang telah berkembang pesat. Hal ini menunjukkan bahwa LLM dapat memainkan peran penting bukan hanya dalam pemrosesan teks sederhana, tetapi juga dalam penyelesaian masalah yang kompleks, dan dari makalah minggu ini terlihat bahwa pengaruhnya telah meluas hingga ke bidang-bidang tradisional seperti matematika dan kedokteran. Selain itu, tren yang menekankan transparansi dan keterbukaan menggarisbawahi pentingnya keandalan dan kolaborasi dalam penelitian serta penerapan.
-
Selain itu, makalah seperti 'Weak-to-strong Generalization' dan 'Beyond Human Data for LLMs' menunjukkan penelitian tentang kemampuan generalisasi dan metodologi pembelajaran LLM, yang dapat dipandang sebagai upaya untuk keluar dari lingkungan pembelajaran LLM yang saat ini masih terbatas dan mengembangkan mekanisme pembelajaran yang lebih kuat. Tren ini menunjukkan bahwa riset LLM bergerak melampaui sekadar peningkatan performa, menuju arah yang berupaya secara signifikan meningkatkan kemampuan generalisasi dan kegunaan model.
LLM untuk Penemuan di Bidang Ilmu Matematika / LLMs for Discoveries in Mathematical Sciences
Pengantar makalah
- Menggunakan LLM untuk mencari solusi baru dalam matematika dan ilmu komputer, serta mengusulkan funsearch yang menggabungkan LLM pra-latih dengan evaluator sistematis dan mengiterasikannya untuk mengembangkan program dengan skor rendah menjadi program dengan skor tinggi yang menemukan pengetahuan baru; salah satu temuan utama dari penelitian ini adalah bahwa perlindungan terhadap halusinasi LLM penting untuk menghasilkan penemuan matematika dan menyelesaikan masalah dunia nyata lainnya.
Uses llms to search for new solutions in mathematics & computer science; proposes funsearch which combines a pre-trained llm with a systematic evaluator and iterates over them to evolve low-scoring programs into high-scoring ones discovering new knowledge; one of the key findings in this work is that safeguarding against llm hallucinations is important to produce mathematical discoveries and other real-world problems.
Tautan makalah
https://www.nature.com/articles/s41586-023-06924-6
Baca lebih lanjut
https://x.com/GoogleDeepMind/status/1735332722208284797
Generalisasi lemah-ke-kuat / Weak-to-strong Generalization
Pengantar makalah
- Meneliti apakah supervisi dari model yang lemah dapat memunculkan seluruh kemampuan model yang lebih kuat, menemukan bahwa ketika model pra-latih yang kuat di-fine-tune secara naif pada label yang dihasilkan model lemah, model tersebut dapat berkinerja lebih baik daripada supervisor lemahnya, serta melaporkan bahwa dengan fine-tuning GPT-4 menggunakan supervisor setingkat GPT-2, performa yang mendekati level GPT-3.5 pada tugas NLP dapat dipulihkan.
Studies whether weak model supervision can elicit the full capabilities of stronger models; finds that when naively fine-tuning strong pretrained models on weak model generated labels they can perform better than their weak supervisors; reports that finetuning gpt-4 with a gpt-2-level supervisor it’s possible to recover close to gpt-3.5-level performance on nlp tasks.
Tautan makalah
https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
Baca lebih lanjut
https://x.com/OpenAI/status/1735349718765715913
Audiobox
Pengantar makalah
- Model terpadu berbasis flow-matching yang mampu menghasilkan berbagai modalitas audio, merancang prompting berbasis deskripsi dan berbasis contoh untuk meningkatkan kontrol serta menyatukan paradigma generasi ucapan dan suara, menyesuaikan objective infilling self-supervised agar dapat melakukan pra-pelatihan pada audio tak berlabel dalam jumlah besar, menunjukkan performa yang baik pada generasi ucapan dan suara serta membuka metode baru untuk menghasilkan audio dengan gaya vokal dan akustik yang baru.
A unified model based on flow-matching capable of generating various audio modalities; designs description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms; adapts a self-supervised infilling objective to pre-train on large quantities of unlabeled audio; performs well on speech and sound generation and unlocks new methods for generating audio with novel vocal and acoustic styles.
Tautan makalah
https://ai.meta.com/research/publications/…
Baca lebih lanjut
https://x.com/AIatMeta/status/1734257634008531453
Model Bahasa Matematis: Sebuah Survei / Mathematical Language Models: A Survey
Pengantar makalah
- Survei tentang perkembangan LLM pada tugas-tugas matematika, mencakup makalah dan sumber daya mengenai riset LLM seputar teknik prompting serta tugas seperti pemecahan soal cerita matematika dan pembuktian teorema.
A survey on the progress of llms on mathematical tasks; covers papers and resources on llm research around prompting techniques and tasks such as math word problem-solving and theorem proving.
Abstrak makalah
- Dalam beberapa tahun terakhir, telah ada kemajuan luar biasa dalam pemanfaatan Language Models (LM), yang mencakup Pre-trained Language Models (PLM) dan Large-scale Language Models (LLM), di ranah matematika. Makalah ini melakukan survei komprehensif terhadap mathematical LM, dengan mengategorikan secara sistematis upaya-upaya riset penting dari dua perspektif yang berbeda: tugas dan metodologi. Lanskap ini menunjukkan banyak mathematical LLM yang telah diusulkan, yang selanjutnya dibagi ke dalam instruction learning, metode berbasis alat, teknik CoT dasar, dan metodologi CoT lanjutan. Selain itu, survei ini juga mencakup kompilasi lebih dari 60 dataset matematika, termasuk dataset pelatihan, dataset benchmark, dan dataset augmentasi. Dengan membahas tantangan utama dan menguraikan arah masa depan dalam bidang mathematical LM, survei ini diposisikan sebagai sumber daya berharga yang siap memfasilitasi dan menginspirasi inovasi di masa depan bagi para peneliti yang berinvestasi untuk memajukan domain ini.
> In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
Tautan makalah
https://arxiv.org/abs/2312.07622
Baca lebih lanjut
https://x.com/omarsar0/status/1735323577392542084
LLM360: Perjalanan menuju LLM open-source yang sepenuhnya transparan / LLM360: Towards Fully Transparent Open-Source LLMs
Perkenalan makalah
- Mengusulkan LLM360 untuk mendukung riset AI yang terbuka dan kolaboratif dengan menjadikan proses pelatihan machine learning end-to-end transparan dan dapat direproduksi, serta merilis machine learning 7B parameter yang telah dipra-latih dari nol, Amber dan CrystalCoder, termasuk kode pelatihan, data, checkpoint antara, dan analisisnya.
> Proposes llm360 to support open and collaborative ai research by making the end-to-end llm training process transparent and reproducible; releases 7b parameter llms pre-trained from scratch, amber and crystalcoder, including their training code, data, intermediate checkpoints, and analyses.
Abstrak makalah
- Lonjakan terbaru dalam Large Language Models (LLM) open-source, seperti LLaMA, Falcon, dan Mistral, menyediakan beragam opsi bagi praktisi dan peneliti AI. Namun, sebagian besar LLM hanya merilis artefak parsial, seperti bobot model akhir atau kode inferensi, dan laporan teknis semakin membatasi cakupannya pada pilihan desain tingkat tinggi dan statistik permukaan. Pilihan-pilihan ini menghambat kemajuan di bidang ini dengan mengurangi transparansi terhadap pelatihan LLM dan memaksa tim untuk menemukan kembali banyak detail dalam proses pelatihan. Unity memperkenalkan LLM360, sebuah inisiatif untuk membuat LLM sepenuhnya open-source, yang mendorong agar seluruh kode dan data pelatihan, checkpoint model, serta hasil antara tersedia bagi komunitas. Tujuan LLM360 adalah mendukung riset AI yang terbuka dan kolaboratif dengan membuat proses pelatihan LLM end-to-end transparan dan dapat direproduksi oleh semua orang. Sebagai langkah pertama LLM360, Unity merilis dua LLM 7B parameter yang dipra-latih dari nol, Amber dan CrystalCoder, termasuk kode pelatihan, data, checkpoint antara, dan analisisnya (di https://www.llm360.ai). Unity berkomitmen untuk terus mendorong batas kemampuan LLM melalui upaya open-source ini. Model yang lebih besar dan lebih kuat sedang dikembangkan dan akan dirilis di masa mendatang.
> The recent surge in open-source Large Language Models (LLMs), such as LLaMA, Falcon, and Mistral, provides diverse options for AI practitioners and researchers. However, most LLMs have only released partial artifacts, such as the final model weights or inference code, and technical reports increasingly limit their scope to high-level design choices and surface statistics. These choices hinder progress in the field by degrading transparency into the training of LLMs and forcing teams to rediscover many details in the training process. We present LLM360, an initiative to fully open-source LLMs, which advocates for all training code and data, model checkpoints, and intermediate results to be made available to the community. The goal of LLM360 is to support open and collaborative AI research by making the end-to-end LLM training process transparent and reproducible by everyone. As a first step of LLM360, we release two 7B parameter LLMs pre-trained from scratch, Amber and CrystalCoder, including their training code, data, intermediate checkpoints, and analyses (at https://www.llm360.ai). We are committed to continually pushing the boundaries of LLMs through this open-source effort. More large-scale and stronger models are underway and will be released in the future.
Tautan makalah
https://arxiv.org/abs/2312.06550
Baca lebih lanjut
https://x.com/omarsar0/status/1734591071575744820
Survei tentang large language model di bidang medis: prinsip, aplikasi, dan tantangan / A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
Perkenalan makalah
- Survei komprehensif tentang machine learning di bidang medis (menganalisis lebih dari 300 makalah), mencakup gambaran umum tentang prinsip, penerapan, dan tantangan yang dihadapi machine learning di bidang medis.
> A comprehensive survey (analyzing 300+ papers) on llms in medicine; includes an overview of the principles, applications, and challenges faced by llms in medicine.
Abstrak makalah
- Large language model (LLM) seperti ChatGPT telah menarik perhatian besar berkat kemampuan pemahaman dan generasi bahasa manusia yang mengesankan. Karena itu, penerapan LLM di bidang medis untuk membantu dokter dan perawatan pasien muncul sebagai arah riset yang menjanjikan baik dalam kecerdasan buatan maupun kedokteran klinis. Untuk mencerminkan tren ini, survei ini memberikan gambaran menyeluruh tentang prinsip, aplikasi, dan tantangan yang dihadapi LLM di bidang medis. Secara khusus, survei ini bertujuan menjawab pertanyaan berikut: 1) Bagaimana LLM medis dapat dibangun? 2) Bagaimana performa downstream dari LLM medis? 3) Bagaimana LLM medis dapat dimanfaatkan dalam praktik klinis dunia nyata? 4) Tantangan apa yang muncul dari penggunaan LLM medis? 5) Bagaimana kita dapat membangun dan memanfaatkan LLM medis dengan lebih baik? Pada akhirnya, survei ini bertujuan memberikan wawasan tentang peluang dan tantangan LLM di bidang medis serta menjadi sumber daya berharga untuk membangun LLM medis yang praktis dan efektif. Daftar panduan praktis tentang LLM medis yang diperbarui secara berkala dapat ditemukan di https://github.com/AI-in-Health/MedLLMsPracticalGuide.
> Large language models (LLMs), such as ChatGPT, have received substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To reflect this trend, this survey provides a comprehensive overview of the principles, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) How can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? and 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guides on medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
Tautan makalah
https://arxiv.org/abs/2311.05112
Baca lebih lanjut
https://x.com/omarsar0/status/1734599425568231513
Melampaui Data Manusia: Menskalakan Self-Training untuk Pemecahan Masalah dengan Language Model / Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Pengantar makalah
- Mengusulkan pendekatan self-training dengan umpan balik yang dapat secara signifikan mengurangi ketergantungan pada data buatan manusia, serta meningkatkan performa machine learning pada tugas pemecahan masalah dengan menggabungkan data yang dihasilkan model dan fungsi reward.
> Proposes an approach for self-training with feedback that can substantially reduce dependence on human-generated data; the model-generated data combined with a reward function improves the performance of llms on problem-solving tasks.
Abstrak makalah
- Fine-tuning language model (LM) pada data buatan manusia masih menjadi praktik yang umum digunakan. Namun, performa model semacam ini sering kali dibatasi oleh jumlah dan keragaman data manusia berkualitas tinggi. Dalam makalah ini, penulis mengeksplorasi apakah kita bisa melampaui data manusia pada tugas-tugas yang memiliki akses ke scalar feedback, misalnya pada soal matematika yang kebenarannya dapat diverifikasi. Untuk itu, penulis meneliti metode self-training sederhana berbasis expectation-maximization yang disebut ReST $^{EM}$, dengan langkah-langkah: (1) menghasilkan sampel dari model dan memfilternya menggunakan umpan balik biner, (2) melakukan fine-tuning model pada sampel tersebut, dan (3) mengulangi proses ini beberapa kali. Pengujian pada benchmark penalaran MATH tingkat lanjut dan coding APPS menggunakan model PaLM-2 menunjukkan bahwa ReST $^{EM}$ diskalakan dengan baik seiring ukuran model dan secara signifikan melampaui fine-tuning yang hanya menggunakan data manusia. Secara keseluruhan, temuan ini menunjukkan bahwa self-training dengan umpan balik dapat secara signifikan mengurangi ketergantungan pada data buatan manusia.
> Fine-tuning language models(LMs) on human-generated data remains a prevalent practice. However, the performance of such models is often limited by the quantity and diversity of high-quality human data. In this paper, we explore whether we can go beyond human data on tasks where we have access to scalar feedback, for example, on math problems where one can verify correctness. To do so, we investigate a simple self-training method based on expectation-maximization, which we call ReST $^{EM}$, where we (1) generate samples from the model and filter them using binary feedback, (2) fine-tune the model on these samples, and (3) repeat this process a few times. Testing on advanced MATH reasoning and APPS coding benchmarks using PaLM-2 models, we find that ReST $^{EM}$ scales favorably with model size and significantly surpasses fine-tuning only on human data. Overall, our findings suggest self-training with feedback can substantially reduce dependence on human-generated data.
Tautan makalah
https://arxiv.org/abs/2312.06585
Baca lebih lanjut
https://x.com/omarsar0/status/1734953578274386002
Gaussian-SLAM
Pengantar makalah
- Metode SLAM RGBD neural yang mampu merekonstruksi adegan dunia nyata secara fotorealistis tanpa mengorbankan kecepatan dan efisiensi ini memperluas pendekatan Gaussian 3D klasik untuk representasi adegan guna mengatasi keterbatasan metode sebelumnya.
> A neural rgbd slam method capable of photorealistically reconstructing real-world scenes without compromising speed and efficiency; extends classical 3d gaussians for scene representation to overcome the limitations of the previous methods.
Tautan makalah
https://vladimiryugay.github.io/gaussian_slam/
Baca lebih lanjut
https://x.com/vlyug/status/1734683948440252480
Pearl: Agen reinforcement learning yang siap langsung digunakan di production / Pearl: A Production-ready Reinforcement Learning Agent
Pengenalan makalah
- Memperkenalkan paket perangkat lunak agen AI yang siap untuk production yang memungkinkan peneliti dan praktisi mengembangkan agen AI RL yang dapat beradaptasi dengan lingkungan dengan observabilitas terbatas, umpan balik yang jarang, dan stokastisitas tinggi.
> Introduces a new production-ready rl agent software package that enables researchers and practitioners to develop rl ai agents that adapt to environments with limited observability, sparse feedback, and high stochasticity.
Abstrak makalah
- Reinforcement learning (RL) menyediakan kerangka kerja serbaguna untuk mencapai tujuan jangka panjang. Sifat umumnya memungkinkan kita memformalkan berbagai macam masalah yang dihadapi sistem cerdas di dunia nyata, seperti menangani reward yang tertunda, mengatasi observabilitas parsial, menyelesaikan dilema eksplorasi dan eksploitasi, memanfaatkan data offline untuk meningkatkan performa online, serta memastikan batasan keselamatan terpenuhi. Meskipun komunitas riset RL telah membuat kemajuan besar dalam mengatasi masalah-masalah ini, pustaka RL open-source yang ada cenderung hanya berfokus pada sebagian sempit dari pipeline solusi RL dan membiarkan aspek lainnya sebagian besar tidak tertangani. Makalah ini memperkenalkan Pearl, paket perangkat lunak agen RL siap production yang secara eksplisit dirancang untuk mengakomodasi tantangan-tantangan ini secara modular. Selain menyajikan hasil benchmark awal, makalah ini juga menyoroti adopsi Pearl di industri untuk menunjukkan kesiapan penggunaan di lingkungan production. Pearl di-open-source-kan di Github pada github.com/facebookresearch/pearl dan situs resminya berada di pearlagent.github.io.
> Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
Tautan makalah
https://arxiv.org/abs/2312.03814
Baca lebih lanjut
https://x.com/ZheqingZhu/status/1732880717263352149
Quip / Quip
Pengenalan makalah
- Mengompresi bobot model terlatih ke format berpresisi rendah untuk mengurangi kebutuhan memori; pendekatan ini menggabungkan lattice codebooks dengan pemrosesan incoherence untuk membuat model terkuantisasi 2-bit; secara signifikan memperkecil kesenjangan antara LLM terkuantisasi 2-bit dan model 16-bit yang tidak dikuantisasi.
> Compresses trained model weights into a lower precision format to reduce memory requirements; the approach combines lattice codebooks with incoherence processing to create 2 bit quantized models; significantly closes the gap between 2 bit quantized llms and unquantized 16 bit models.
Tautan makalah
https://cornell-relaxml.github.io/quip-sharp/
Baca lebih lanjut
https://x.com/tsengalb99/status/1733222467953422702
Artikel asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c22
Belum ada komentar.