[2023/09/11 ~ 09/17] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Gambaran Umum
- Kami telah mencoba menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
- Makalah yang dipilih minggu ini sebagian besar berfokus pada topik LLM (Large Language Model). Yang unik, cara menangani LLM sangat beragam. Makalah-makalah ini menganalisis LLM dari berbagai sudut pandang, termasuk metode pelatihan model bahasa, potensi perkembangan LLM berbasis agen, penyempurnaan LLM dan kemampuan belajar mandirinya, serta serangkaian riset tentang LLM.
- Tren ini menunjukkan bahwa metode pelatihan model bahasa semakin dianggap penting di bidang kecerdasan buatan dan pembelajaran mesin, dan di antaranya LLM mendapat perhatian besar. Selain itu, beragamnya cara menangani LLM menyiratkan betapa luasnya teknologi ini dapat diterapkan, sekaligus menunjukkan potensinya.
Yang Dibutuhkan Hanyalah Buku Teks II: laporan teknis PHI-1.5 / Textbooks Are All You Need II: phi-1.5 technical report
Perkenalan makalah
- Model baru dengan 1,3 miliar parameter yang dilatih pada 30 miliar token, dengan dataset yang terdiri dari data sintetis "berkualitas buku teks", phi-1.5 mampu menyaingi atau melampaui model lain yang lebih besar pada tugas penalaran, yang mengindikasikan bahwa kualitas data memainkan peran yang lebih penting daripada yang diperkirakan sebelumnya. #llm #llm-alignment
A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.
Abstrak makalah
- Kami melanjutkan investigasi terhadap kekuatan model bahasa kecil berbasis Transformer, sebagaimana dimulai oleh $TinyStories$, model dengan 10 juta parameter yang mampu menghasilkan bahasa Inggris yang koheren, dan dilanjutkan oleh $phi-1$, model dengan 1,3 miliar parameter yang memiliki performa coding Python yang mendekati state-of-the-art. Pekerjaan yang disebut belakangan mengusulkan penggunaan Large Language Model (LLM) yang sudah ada untuk menghasilkan data "berkualitas buku teks" sebagai cara meningkatkan proses pembelajaran dibandingkan data web tradisional. Kali ini kami mengikuti pendekatan "Textbooks Are All You Need", dengan fokus pada penalaran common sense dalam bahasa alami, dan menciptakan model baru bernama \textbf{phi-1.5} dengan 1,3 miliar parameter, yang menunjukkan performa pada tugas bahasa alami setara dengan model yang 5x lebih besar, serta melampaui sebagian besar LLM non-frontier pada tugas penalaran yang lebih kompleks seperti matematika tingkat sekolah dasar dan coding dasar. Secara umum, $phi-1.5$ menunjukkan banyak karakteristik LLM yang jauh lebih besar, baik yang positif—seperti kemampuan untuk "berpikir langkah demi langkah" atau melakukan in-context learning tingkat dasar—maupun yang negatif, termasuk halusinasi serta potensi menghasilkan keluaran yang toksik dan bias. Namun yang menggembirakan, kami melihat adanya perbaikan pada aspek tersebut berkat tidak digunakannya data web. Kami membuka sumber \textbf{phi-1.5} untuk mendorong riset lanjutan pada topik-topik yang mendesak ini.
We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate
textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow theTextbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
Tautan makalah
https://arxiv.org/abs/2309.05463
Baca selengkapnya
https://x.com/omarsar0/status/1701590130270601422
Kebangkitan dan Potensi Agen Berbasis Large Language Model: Sebuah Survei / The Rise and Potential of Large Language Model Based Agents: A Survey
Perkenalan makalah
- Gambaran menyeluruh tentang agen berbasis LLM, mencakup mulai dari cara membangun agen-agen ini hingga cara memanfaatkannya secara positif. #survey-paper
A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.
Abstrak makalah
- Umat manusia telah lama mengejar kecerdasan buatan (AI) yang setara atau melampaui manusia, dan agen AI telah dianggap sebagai sarana yang menjanjikan untuk mencapai tujuan ini. Agen AI adalah entitas buatan yang merasakan lingkungan, membuat keputusan, dan mengambil tindakan. Sejak pertengahan abad ke-20, banyak upaya telah dilakukan untuk mengembangkan agen AI yang cerdas. Namun, upaya-upaya ini terutama berfokus pada kemajuan algoritme atau strategi pelatihan untuk meningkatkan kemampuan tertentu atau kinerja pada tugas tertentu. Pada kenyataannya, yang masih kurang bagi komunitas adalah model yang cukup umum dan kuat untuk menjadi titik awal dalam merancang agen AI yang dapat beradaptasi dengan beragam skenario. Large language model (LLM), karena kemampuannya yang serbaguna dan luar biasa, dianggap sebagai percikan potensial menuju Artificial General Intelligence (AGI) dan memberi harapan untuk membangun agen AI umum. Banyak upaya riset telah memanfaatkan LLM sebagai fondasi untuk membangun agen AI dan mencapai kemajuan yang signifikan. Pertama, konsep agen ditelusuri mulai dari asal-usul filosofisnya hingga perkembangannya dalam AI, lalu dijelaskan mengapa LLM menjadi landasan bagi agen AI. Berdasarkan hal itu, disajikan kerangka konseptual untuk agen berbasis LLM yang terdiri dari tiga komponen utama, yaitu otak, persepsi, dan tindakan, dan kerangka ini dapat disesuaikan untuk berbagai aplikasi. Selanjutnya, dibahas penerapan luas agen berbasis LLM dari tiga aspek: skenario agen tunggal, skenario multi-agen, dan kolaborasi antara manusia dan agen. Setelah itu, dibahas lebih dalam tentang masyarakat agen, dengan menelaah perilaku dan kepribadian agen berbasis LLM, fenomena sosial yang muncul ketika agen membentuk masyarakat, serta wawasan yang ditawarkannya bagi masyarakat manusia. Terakhir, dibahas berbagai topik utama dan masalah terbuka di bidang ini.
For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
Tautan makalah
https://arxiv.org/abs/2309.07864
Baca lebih lanjut
https://x.com/omarsar0/status/1702736490067890239
EvoDiff
Pengantar makalah
- Menggabungkan data skala evolusi dengan diffusion model untuk generasi protein yang dapat dikendalikan di ruang sekuens; ini memungkinkan pembuatan protein yang tidak dapat dijangkau oleh model berbasis struktur. #diffusion
Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.
Tautan makalah
https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1
Baca lebih lanjut
https://x.com/KevinKaichuang/status/1701953715312136302
RAIN: Model bahasa dapat menyelaraskan dirinya sendiri tanpa fine-tuning / RAIN: Your Language Models Can Align Themselves without Finetuning
Pengantar makalah
- Menemukan bahwa dengan mengintegrasikan mekanisme evaluasi diri dan rewind, LLM yang tidak selaras dapat langsung menghasilkan respons yang konsisten dengan preferensi manusia melalui self-boosting.
Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.
Abstrak makalah
- Model bahasa besar (LLM) sering kali menunjukkan ketidaksesuaian dengan preferensi manusia. Riset sebelumnya mengumpulkan data preferensi manusia lalu menyelaraskan model yang telah dipra-latih menggunakan reinforcement learning atau instruction tuning, yang disebut sebagai tahap fine-tuning. Sebaliknya, menyelaraskan LLM yang dibekukan tanpa data tambahan apa pun lebih menarik. Studi ini mengeksplorasi potensi pendekatan yang terakhir. Dengan mengintegrasikan evaluasi mandiri dan mekanisme rewind, peneliti menemukan bahwa LLM yang belum selaras dapat langsung menghasilkan respons yang konsisten dengan preferensi manusia melalui self-boosting. Unity memperkenalkan metode inferensi baru, Rewindable Auto-regressive INference (RAIN), yang memungkinkan LLM pra-latih mengevaluasi generasinya sendiri dan menggunakan hasil evaluasi tersebut untuk memandu rewind ke belakang serta generasi ke depan demi keamanan AI. Secara khusus, RAIN berjalan tanpa memerlukan data tambahan untuk penyelarasan model dan tidak membutuhkan pelatihan, perhitungan gradien, atau pembaruan parameter; selama fase evaluasi mandiri, model menerima panduan tentang preferensi manusia mana yang harus diselaraskan melalui prompt templat tetap, sehingga tidak perlu memodifikasi prompt awal. Hasil eksperimen yang dievaluasi oleh GPT-4 dan manusia menunjukkan efektivitas RAIN. Pada dataset HH, RAIN meningkatkan tingkat harmlessness LLaMA 30B dibandingkan inferensi vanilla dari 82% menjadi 97%, sambil mempertahankan tingkat helpfulness. Di bawah serangan adversarial utama
llm-attackspada Vicuna 33B, RAIN menetapkan baseline pertahanan baru dengan menurunkan tingkat keberhasilan serangan dari 94% menjadi 19%.Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
Tautan makalah
https://arxiv.org/abs/2309.07124
Baca lebih lanjut
https://x.com/omarsar0/status/1702131444041011395
Pembelajaran parkour robot / Robot Parkour Learning
Pengenalan makalah
- Memperkenalkan sistem untuk mempelajari kebijakan parkour berbasis visi end-to-end yang ditransfer ke robot berkaki empat menggunakan kamera kedalaman egosentrisnya; menunjukkan bahwa robot berbiaya rendah dapat secara otomatis memilih dan menjalankan keterampilan parkour di lingkungan dunia nyata.
Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.
Abstrak makalah
- Parkour adalah tantangan besar dalam lokomosi berkaki yang mengharuskan robot mengatasi berbagai rintangan dengan cepat di lingkungan yang kompleks. Metode yang ada dapat menghasilkan keterampilan lokomosi yang beragam tetapi buta, atau keterampilan berbasis visi yang terspesialisasi, dengan menggunakan data hewan referensi atau reward yang kompleks. Namun, parkour otonom mengharuskan robot mempelajari keterampilan yang dapat digeneralisasi, yang sekaligus berbasis visi dan beragam, agar dapat memahami dan bereaksi terhadap berbagai skenario. Dalam penelitian ini, kami mengusulkan sistem untuk mempelajari satu kebijakan parkour berbasis visi end-to-end yang mencakup beragam keterampilan parkour dengan menggunakan reward sederhana tanpa data gerakan referensi apa pun. Kami mengembangkan metode reinforcement learning yang terinspirasi oleh direct collocation untuk menghasilkan keterampilan parkour, termasuk memanjat rintangan tinggi, melompati celah besar, merangkak di bawah penghalang rendah, menyusup melalui celah sempit, dan berlari. Keterampilan-keterampilan ini kemudian kami distilasi ke dalam satu kebijakan parkour berbasis visi dan ditransfer ke robot quadrupedal menggunakan kamera kedalaman egosentrisnya. Kami menunjukkan bahwa sistem kami dapat memberdayakan dua robot berbiaya rendah yang berbeda untuk secara otonom memilih dan menjalankan keterampilan parkour yang tepat guna melintasi lingkungan dunia nyata yang menantang.
Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
Tautan makalah
https://arxiv.org/abs/2309.05665
Baca lebih lanjut
https://x.com/zipengfu/status/1701316023612219445
Survei tentang Halusinasi pada Model Foundation Besar / A Survey of Hallucination in Large Foundation Models
Pengantar makalah
- Mengklasifikasikan berbagai jenis fenomena halusinasi dan menyediakan kriteria evaluasi untuk menilai halusinasi beserta strategi mitigasinya. #survey-paper #foundation-model
Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.
Abstrak makalah
- Halusinasi dalam foundation model (FM) mengacu pada pembuatan konten yang menyimpang dari realitas faktual atau mencakup informasi yang dibuat-buat. Makalah survei ini memberikan gambaran luas tentang upaya-upaya terbaru yang bertujuan untuk mengidentifikasi, menjelaskan, dan mengatasi masalah halusinasi, dengan fokus khusus pada ``Large'' Foundation Models (LFM). Makalah ini mengklasifikasikan berbagai jenis fenomena halusinasi yang spesifik pada LFM dan menetapkan kriteria evaluasi untuk menilai tingkat halusinasi. Makalah ini juga meninjau strategi-strategi yang ada untuk memitigasi halusinasi pada LFM dan membahas arah potensial untuk penelitian di masa depan dalam bidang ini. Pada dasarnya, makalah ini menawarkan kajian komprehensif atas tantangan dan solusi yang berkaitan dengan halusinasi pada LFM.
Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
Tautan makalah
https://arxiv.org/abs/2309.05922
Baca lebih lanjut
https://x.com/omarsar0/status/1701970034711539839
Agents: Kerangka kerja open-source untuk agen bahasa otonom / Agents: An Open-source Framework for Autonomous Language Agents
Pengantar makalah
- Ini adalah pustaka open-source untuk membangun agen bahasa otonom, termasuk dukungan untuk fitur seperti perencanaan, memori, penggunaan alat, komunikasi multi-agen, dan banyak lagi.
An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.
Abstrak makalah
- Kemajuan terbaru pada large language model (LLM) memungkinkan peneliti dan pengembang membangun agen bahasa otonom yang dapat secara otomatis menyelesaikan berbagai tugas dan berinteraksi dengan lingkungan, manusia, dan agen lain menggunakan antarmuka bahasa alami. Kami memandang agen bahasa sebagai arah yang menjanjikan menuju kecerdasan umum buatan dan merilis Agents, sebuah library open-source dengan tujuan membuka kemajuan ini kepada khalayak nonspesialis yang lebih luas. Agents dirancang dengan cermat untuk mendukung fitur-fitur penting termasuk perencanaan, memori, penggunaan alat, komunikasi multi-agen, dan kontrol simbolik yang terperinci. Agents ramah pengguna karena memungkinkan nonspesialis membangun, menyesuaikan, menguji, menyetel, dan menerapkan agen bahasa otonom mutakhir tanpa banyak coding. Library ini juga ramah riset karena desainnya yang modular membuatnya mudah diperluas oleh peneliti. Agents tersedia di https://github.com/aiwaves-cn/agents.
Kemajuan terbaru pada large language model (LLM) memungkinkan peneliti dan pengembang membangun agen bahasa otonom yang dapat secara otomatis menyelesaikan berbagai tugas dan berinteraksi dengan lingkungan, manusia, dan agen lain menggunakan antarmuka bahasa alami. Kami memandang agen bahasa sebagai arah yang menjanjikan menuju kecerdasan umum buatan dan merilis Agents, sebuah library open-source dengan tujuan membuka kemajuan ini kepada khalayak nonspesialis yang lebih luas. Agents dirancang dengan cermat untuk mendukung fitur-fitur penting termasuk perencanaan, memori, penggunaan alat, komunikasi multi-agen, dan kontrol simbolik yang terperinci. Agents ramah pengguna karena memungkinkan nonspesialis membangun, menyesuaikan, menguji, menyetel, dan menerapkan agen bahasa otonom mutakhir tanpa banyak coding. Library ini juga ramah riset karena desainnya yang modular membuatnya mudah diperluas oleh peneliti. Agents tersedia di https://github.com/aiwaves-cn/agents.
Tautan makalah
https://arxiv.org/abs/2309.07870
Baca lebih lanjut
https://x.com/arankomatsuzaki/status/1702497897395396960
Radiology-Llama2: large language model kelas terbaik untuk radiologi / Radiology-Llama2: Best-in-Class Large Language Model for Radiology
Pengantar makalah
- Menyajikan llm berbasis Llama 2 yang disesuaikan untuk radiologi; model ini disetel pada dataset besar laporan radiologi untuk menghasilkan impression yang koheren dan berguna secara klinis dari temuan radiologi.
Menyajikan llm berbasis llama 2 yang disesuaikan untuk radiologi; model ini disetel pada dataset besar laporan radiologi untuk menghasilkan impression yang koheren dan berguna secara klinis dari temuan radiologi.
Abstrak makalah
- Makalah ini memperkenalkan Radiology-Llama2, large language model yang dikhususkan untuk radiologi melalui proses yang dikenal sebagai instruction tuning. Radiology-Llama2 didasarkan pada arsitektur Llama2 dan dilatih lebih lanjut pada dataset besar laporan radiologi untuk menghasilkan impression yang koheren dan berguna secara klinis dari temuan radiologis. Evaluasi kuantitatif menggunakan metrik ROUGE pada dataset MIMIC-CXR dan OpenI menunjukkan bahwa Radiology-Llama2 mencapai kinerja state-of-the-art dibandingkan model bahasa generatif lainnya, dengan skor Rouge-1 sebesar 0.4834 pada MIMIC-CXR dan 0.4185 pada OpenI. Penilaian tambahan oleh para ahli radiologi menyoroti kekuatan model ini dalam keterpahaman, koherensi, relevansi, keringkasan, dan kegunaan klinis. Karya ini menunjukkan potensi model bahasa terlokalisasi yang dirancang dan disetel untuk domain khusus seperti radiologi. Jika dievaluasi dan diterapkan dengan tepat, model seperti ini dapat mentransformasi bidang seperti radiologi dengan mengotomatisasi tugas-tugas rutin dan meningkatkan keahlian manusia.
Makalah ini memperkenalkan Radiology-Llama2, large language model yang dikhususkan untuk radiologi melalui proses yang dikenal sebagai instruction tuning. Radiology-Llama2 didasarkan pada arsitektur Llama2 dan dilatih lebih lanjut pada dataset besar laporan radiologi untuk menghasilkan impression yang koheren dan berguna secara klinis dari temuan radiologis. Evaluasi kuantitatif menggunakan metrik ROUGE pada dataset MIMIC-CXR dan OpenI menunjukkan bahwa Radiology-Llama2 mencapai kinerja state-of-the-art dibandingkan model bahasa generatif lainnya, dengan skor Rouge-1 sebesar 0.4834 pada MIMIC-CXR dan 0.4185 pada OpenI. Penilaian tambahan oleh para ahli radiologi menyoroti kekuatan model ini dalam keterpahaman, koherensi, relevansi, keringkasan, dan kegunaan klinis. Karya ini menunjukkan potensi model bahasa terlokalisasi yang dirancang dan disetel untuk domain khusus seperti radiologi. Jika dievaluasi dan diterapkan dengan tepat, model seperti ini dapat mentransformasi bidang seperti radiologi dengan mengotomatisasi tugas-tugas rutin dan meningkatkan keahlian manusia.
Tautan makalah
https://arxiv.org/abs/2309.06419
Baca lebih lanjut
https://x.com/omarsar0/status/1701774444052557965
Agen komunikatif untuk pengembangan perangkat lunak / Communicative Agents for Software Development
Pengantar makalah
- Memperkenalkan chatdev, perusahaan pengembangan perangkat lunak virtual berbasis chat yang mencerminkan model waterfall; menunjukkan efektivitas agen dalam pembuatan perangkat lunak, bahkan menyelesaikan seluruh proses pengembangan perangkat lunak dalam waktu kurang dari tujuh menit dengan biaya kurang dari satu dolar.
Memperkenalkan chatdev, perusahaan pengembangan perangkat lunak virtual berbasis chat yang mencerminkan model waterfall; menunjukkan efektivitas agen dalam pembuatan perangkat lunak, bahkan menyelesaikan seluruh proses pengembangan perangkat lunak dalam waktu kurang dari tujuh menit dengan biaya kurang dari satu dolar.
Abstrak makalah
- Rekayasa perangkat lunak adalah bidang yang dicirikan oleh proses pengambilan keputusan yang kompleks, yang sering kali bergantung pada intuisi yang halus dan konsultasi. Kemajuan terbaru dalam deep learning mulai merevolusi praktik rekayasa perangkat lunak melalui rancangan canggih yang diterapkan di berbagai tahap pengembangan perangkat lunak. Dalam makalah ini, penulis memperkenalkan paradigma inovatif yang memanfaatkan large language model (LLM) di seluruh proses pengembangan perangkat lunak, menyederhanakan dan menyatukan proses-proses utama melalui komunikasi bahasa alami, sehingga menghilangkan kebutuhan akan model khusus di setiap tahap. Inti dari paradigma ini adalah ChatDev, sebuah perusahaan pengembangan perangkat lunak virtual berbasis chat yang mencerminkan model waterfall yang sudah mapan, dengan membagi proses pengembangan secara cermat ke dalam empat tahap kronologis yang berbeda: perancangan, pengodean, pengujian, dan dokumentasi. Setiap tahap melibatkan tim agen seperti programmer, peninjau kode, dan insinyur pengujian, untuk mendorong dialog kolaboratif dan memfasilitasi alur kerja yang mulus. Rantai chat bertindak sebagai fasilitator dengan memecah setiap tahap menjadi subtugas atomik. Hal ini memungkinkannya menjalankan peran ganda, yakni mengusulkan dan memvalidasi solusi melalui komunikasi yang sadar konteks, sehingga penyelesaian subtugas tertentu menjadi efisien. Analisis instrumental terhadap ChatDev menyoroti efektivitasnya yang luar biasa dalam pembuatan perangkat lunak, memungkinkan seluruh proses pengembangan perangkat lunak diselesaikan dalam waktu kurang dari tujuh menit dengan biaya kurang dari satu dolar. Sistem ini tidak hanya mengidentifikasi dan mengurangi potensi kerentanan, tetapi juga memperbaiki potensi halusinasi sambil mempertahankan efisiensi dan efektivitas biaya yang sangat baik. Potensi ChatDev membuka kemungkinan baru untuk mengintegrasikan LLM ke dalam ranah pengembangan perangkat lunak.
Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
Tautan makalah
https://arxiv.org/abs/2307.07924v3
Baca lebih lanjut
https://x.com/KevinAFischer/status/1702355125418045860
MAmmoTH: Membangun model generalis matematika melalui hybrid instruction tuning / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Perkenalan makalah
- Serangkaian model machine learning open-source yang disesuaikan untuk pemecahan masalah matematika umum; model-model ini dilatih dengan dataset instruction tuning yang dikurasi dan mengungguli model open-source yang sudah ada pada beberapa dataset penalaran matematis. #mathglm
A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.
Abstrak makalah
- Memperkenalkan MAmmoTH, seri model bahasa besar (LLM) open-source yang secara khusus disesuaikan untuk pemecahan masalah matematika umum. Model MAmmoTH dilatih berdasarkan MathInstruct, dataset instruction tuning yang dikurasi dengan cermat. MathInstruct dikompilasi dari 13 dataset matematika dengan penalaran tingkat menengah, enam di antaranya mencakup penalaran yang baru dikurasi oleh tim peneliti. Solusi ini menghadirkan hibrida unik antara chain-of-thought (CoT) dan program-of-thought (PoT), serta mencakup beragam bidang matematika secara luas. Perpaduan CoT dan PoT tidak hanya membuka potensi penggunaan alat, tetapi juga memungkinkan proses berpikir yang berbeda untuk berbagai persoalan matematika. Hasilnya, seri MAmmoTH secara signifikan melampaui model open-source yang ada pada sembilan dataset penalaran matematika di semua skala, dengan peningkatan akurasi rata-rata sebesar 13% hingga 29%. Hebatnya, pada MATH, dataset setingkat kompetisi, model MAmmoTH-7B mencapai 35%, melampaui model open-source 7B terbaik (WizardMath) sebesar 25%, dan model MAmmoTH-34B mencapai akurasi 46% pada MATH, bahkan melampaui hasil CoT GPT-4. Penelitian ini menekankan pentingnya cakupan masalah yang beragam dan penggunaan penalaran hibrida dalam mengembangkan model generalis matematika yang unggul.
Kami memperkenalkan MAmmoTH, serangkaian model bahasa besar (LLM) open-source yang secara khusus dirancang untuk pemecahan masalah matematika umum. Model MAmmoTH dilatih pada MathInstruct, dataset instruction tuning kami yang dikurasi dengan sangat cermat. MathInstruct dikompilasi dari 13 dataset matematika dengan penalaran menengah, enam di antaranya memiliki penalaran yang baru kami kurasi. Dataset ini menghadirkan hibrida unik dari penalaran chain-of-thought (CoT) dan program-of-thought (PoT), sekaligus memastikan cakupan luas atas beragam bidang matematika. Hibrida CoT dan PoT tidak hanya membuka potensi penggunaan alat, tetapi juga memungkinkan proses berpikir yang berbeda untuk masalah matematika yang berbeda. Hasilnya, seri MAmmoTH secara signifikan mengungguli model open-source yang ada pada sembilan dataset penalaran matematika di semua skala, dengan peningkatan akurasi rata-rata antara 13% dan 29%. Secara luar biasa, model MAmmoTH-7B kami mencapai 35% pada MATH (dataset tingkat kompetisi), yang melampaui model open-source 7B terbaik (WizardMath) sebesar 25%, dan model MAmmoTH-34B mencapai akurasi 46% pada MATH, bahkan melampaui hasil CoT GPT-4. Karya kami menegaskan pentingnya cakupan masalah yang beragam dan penggunaan penalaran hibrida dalam mengembangkan model generalis matematika yang lebih unggul.
Tautan makalah
https://arxiv.org/abs/2309.05653
Baca lebih lanjut
https://x.com/xiangyue96/status/1701710215442309323
Sumber asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-461
Belum ada komentar.