3 poin oleh ninebow 2024-04-29 | Belum ada komentar. | Bagikan ke WhatsApp
  • Artikel tentang paper ML yang dirilis setiap minggu oleh DAIR.AI ini telah diterjemahkan secara otomatis.

  • Jika melihat paper yang diajukan minggu ini, sebagian besar tampaknya berfokus pada model bahasa generasi berikutnya (Large Language Models, LLMs) dan bidang penerapannya. Secara khusus, "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs", dan "Naturalized Execution Tuning (NExT)" membahas kemajuan serta metode optimasi LLMs, juga penelitian tentang bidang aplikasi baru. Ini mencerminkan semakin besarnya pentingnya dan potensi penerapan LLMs dalam bidang kecerdasan buatan belakangan ini.

  • Alasan mengapa perkembangan LLMs penting adalah karena model-model ini menunjukkan performa yang sangat baik bukan hanya dalam pemrosesan bahasa alami (Natural Language Processing, NLP), tetapi juga saat menjalankan berbagai tugas multimodal. Sebagai contoh, paper "Make Your LLM Fully Utilize the Context" mengeksplorasi cara mengekstrak dan menafsirkan informasi dengan lebih akurat dengan memanfaatkan konteks yang disediakan LLMs semaksimal mungkin. Selain itu, "Graph Machine Learning in the Era of LLMs" meneliti bagaimana pembelajaran data berbasis graf dapat ditingkatkan melalui LLMs, yang sangat membantu dalam memahami relasi dan pola yang kompleks.

  • Tren ini menunjukkan bahwa peran LLMs dalam bidang kecerdasan buatan tidak berhenti pada pemahaman dan generasi bahasa semata, tetapi juga meluas ke pemecahan masalah yang lebih luas dan berbagai bidang aplikasi. Hal ini dapat dilihat sebagai bagian dari upaya para peneliti untuk mengeksplorasi beragam aspek kecerdasan buatan, khususnya untuk mengembangkan model yang mampu memahami dan menggunakan bahasa manusia dengan lebih baik. Selain itu, tren penelitian ini mendukung prospek bahwa penggunaan LLMs di berbagai bidang akan terus meningkat ke depannya.

[IMG] [2024/04/22 ~ 04/28] Paper ML utama minggu ini (Top ML Papers of the Week)|1028x618


Laporan Teknis Phi-3: Model bahasa yang sangat mumpuni secara lokal di ponsel Anda / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Pengenalan paper

phi-3-mini, model bahasa baru dengan 3.8B parameter yang dilatih menggunakan 3,3 triliun token, dilaporkan mampu bersaing dengan Mixtral 8x7B dan GPT-3.5; memiliki panjang konteks default 4K, tetapi juga mencakup versi yang diperluas hingga 128K (phi-mini-128K); menggabungkan data web yang sangat difilter dan data sintetis untuk melatih model 3.8B; serta turut melaporkan hasil pada model 7B dan 14B (phi-3-small dan phi-3-medium) yang dilatih dengan 4.8T token.

A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).

Abstrak paper (Abstract)

Kami memperkenalkan phi-3-mini, model bahasa dengan 3,8 miliar parameter yang dilatih pada 3,3 triliun token. Performa keseluruhannya, yang diukur melalui benchmark akademik dan pengujian internal, menyaingi model seperti Mixtral 8x7B dan GPT-3.5 (misalnya, phi-3-mini mencapai 69% pada MMLU dan 8.38 pada MT-bench), meskipun ukurannya cukup kecil untuk dapat diterapkan di ponsel. Inovasi ini sepenuhnya terletak pada dataset pelatihan kami, yaitu versi yang diperbesar dari dataset yang digunakan untuk phi-2, yang terdiri atas data web yang sangat difilter dan data sintetis. Model ini juga diselaraskan lebih lanjut untuk ketahanan, keamanan, dan format chat. Kami juga menyediakan beberapa hasil awal penskalaan parameter dengan model 7B dan 14B yang dilatih menggunakan 4.8T token, yang disebut phi-3-small dan phi-3-medium; keduanya secara signifikan lebih mumpuni daripada phi-3-mini (misalnya, masing-masing 75% dan 78% pada MMLU, serta 8.7 dan 8.9 pada MT-bench).

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).

Tautan paper

https://arxiv.org/abs/2404.14219

Bacaan lanjutan

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1782780923806699716


OpenELM: Keluarga model bahasa efisien dengan framework pelatihan dan inferensi open source / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Pengenalan paper

Model bahasa terbuka baru yang menggunakan strategi penskalaan per lapisan untuk mengalokasikan parameter secara efisien serta meningkatkan efisiensi dan akurasi, tersedia dalam berbagai ukuran seperti 270M, 450M, 1.1B, dan 3B, serta mencapai peningkatan akurasi 2.36% dibandingkan OLMo sambil membutuhkan 2× lebih sedikit token pra-pelatihan.

A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.

Abstrak paper (Abstract)

Reproduktibilitas dan transparansi model bahasa berskala besar sangat penting untuk memajukan riset terbuka, memastikan keandalan hasil, serta memungkinkan investigasi terhadap bias data dan model, maupun potensi risikonya. Untuk itu, kami merilis OpenELM, model bahasa terbuka mutakhir. OpenELM menggunakan strategi penskalaan per lapisan untuk mengalokasikan parameter secara efisien di dalam setiap lapisan model transformer, sehingga meningkatkan akurasi. Sebagai contoh, dengan anggaran parameter sekitar 1 miliar, OpenELM menunjukkan peningkatan akurasi sebesar 2,36% dibandingkan OLMo sekaligus memerlukan token pra-pelatihan $2\times$ lebih sedikit. Berbeda dari praktik sebelumnya yang hanya menyediakan bobot model dan kode inferensi, serta melakukan pra-pelatihan pada dataset privat, rilis ini mencakup kerangka kerja lengkap untuk melatih dan mengevaluasi model bahasa pada dataset yang tersedia secara publik, termasuk log pelatihan, beberapa checkpoint, dan konfigurasi pra-pelatihan. Kami juga merilis kode untuk mengonversi model ke library MLX untuk inferensi dan fine-tuning di perangkat Apple. Rilis komprehensif ini bertujuan memberdayakan dan memperkuat komunitas riset terbuka, sekaligus membuka jalan bagi upaya riset terbuka di masa mendatang. Kode sumber beserta bobot model pra-latih dan recipe pelatihan tersedia di \url{https://github.com/apple/corenet}. Selain itu, model-model tersebut dapat ditemukan di HuggingFace: \url{https://huggingface.co/apple/OpenELM}.

Reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.

Tautan paper

https://arxiv.org/abs/2404.14619

Baca lebih lanjut

https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204

https://github.com/apple/corenet

https://huggingface.co/apple/OpenELM

https://x.com/rasbt/status/1783480053847736713


Snowflake Arctic

Pengantar paper

LLM open source (lisensi Apache 2.0) yang menggunakan arsitektur transformer hybrid Dense-MoE yang unik; diklaim memiliki performa setara dengan Llama3 70B pada metrik enterprise seperti coding (HumanEval+ dan MBPP+), SQL (Spider), dan mengikuti instruksi (IFEval), sambil menggunakan anggaran komputasi 17 kali lebih kecil daripada Llama3 70B; komputasi pelatihannya diperkirakan kurang dari 2 juta dolar AS (kurang dari 3K GPU-weeks).

An open-source LLM (Apache 2.0 license.) that uses a unique Dense-MoE Hybrid transformer architecture; performs on par with Llama3 70B in enterprise metrics like coding (HumanEval+ & MBPP+), SQL (Spider) and instruction following (IFEval); claims to use 17x less compute budget than Llama 3 70B; the training compute is roughly under $2 million (less than 3K GPU weeks).

Tautan paper

https://snowflake.com/blog/…

Baca lebih lanjut

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1783176059694821632


Membuat LLM Memanfaatkan Konteks Sepenuhnya / Make Your LLM Fully Utilize the Context

Pengantar paper

Makalah ini menyajikan pendekatan untuk mengatasi tantangan lost-in-the-middle yang umum terjadi pada LLM. Pendekatan ini menerapkan prosedur pelatihan "information-intensive" secara eksplisit pada Mistral-7B agar LLM dapat memanfaatkan konteks secara penuh. Model ini memanfaatkan 1) kesadaran informasi yang terperinci pada segmen pendek (∼128 token) di dalam konteks panjang sintetis (4K-32K token) dan 2) integrasi serta penalaran atas informasi dari dua atau lebih segmen pendek dalam dataset sintetis. Model hasilnya, FILM-7B (Fill-in-the-Middle), menunjukkan bahwa ia dapat mengambil informasi secara andal dari berbagai posisi dalam jendela konteks 32K miliknya.

Presents an approach to overcome the lost-in-the-middle challenge common in LLMs. It applies an explicit "information-intensive" training procedure on Mistral-7B to enable the LLM to fully utilize the context. It leverages a synthetic dataset where the answer requires fine-grained information awareness on a short segment (∼128 tokens) within a synthesized long context (4K−32K tokens), and 2) the integration and reasoning of information from two or more short segments. The resulting model, FILM-7B (Fill-in-the-Middle), shows that it can robustly retrieve information from different positions in its 32K context window.

Abstrak paper (Abstract)

Meskipun banyak large language model (LLM) modern dapat memproses input panjang, model-model ini masih kesulitan memanfaatkan sepenuhnya informasi dalam konteks panjang, yang dikenal sebagai tantangan lost-in-the-middle. Kami berhipotesis bahwa hal ini berasal dari kurangnya supervisi eksplisit selama pelatihan konteks panjang, sehingga gagal menekankan bahwa posisi mana pun dalam konteks panjang dapat menyimpan informasi penting. Berdasarkan intuisi ini, studi ini memperkenalkan pelatihan information-intensive (IN2), solusi murni berbasis data untuk mengatasi lost-in-the-middle. Secara spesifik, pelatihan IN2 memanfaatkan dataset tanya-jawab konteks panjang sintetis, di mana jawabannya memerlukan (1) kesadaran informasi yang terperinci pada segmen pendek (~128 token) di dalam konteks panjang sintetis (4K-32K token), dan (2) integrasi serta penalaran atas informasi dari dua atau lebih segmen pendek. Dengan menerapkan pelatihan information-intensive ini pada Mistral-7B, kami memperkenalkan FILM-7B (FILl-in-the-Middle). Untuk mengevaluasi secara menyeluruh kemampuan FILM-7B dalam memanfaatkan konteks panjang, kami merancang tiga tugas probing yang mencakup berbagai gaya konteks (dokumen, kode, dan konteks data terstruktur) serta pola pengambilan informasi (pengambilan maju, mundur, dan dua arah). Hasil probing menunjukkan bahwa FILM-7B dapat secara andal mengambil informasi dari berbagai posisi dalam jendela konteks 32K. Di luar tugas probing ini, FILM-7B secara signifikan meningkatkan kinerja pada tugas konteks panjang di dunia nyata (misalnya, skor F1 23.5->26.9 pada NarrativeQA), sambil mempertahankan kinerja yang sebanding pada tugas konteks pendek (misalnya, akurasi 59.3->59.2 pada MMLU). Tautan GitHub: https://github.com/microsoft/FILM.

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.

Tautan makalah

https://arxiv.org/abs/2404.16811

Baca lebih lanjut

https://github.com/microsoft/FILM

https://x.com/omarsar0/status/1783905514578980949


FineWeb

Pengenalan makalah

Dataset web skala besar yang berisi 15 triliun token untuk pelatihan language model; menyaring dan menghapus duplikasi CommonCrawl dari 2013 hingga 2024 dengan tujuan meningkatkan kualitas data.

A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.

Tautan makalah

https://huggingface.co/datasets/HuggingFaceFW/fineweb

Baca lebih lanjut

https://x.com/gui_penedo/status/1781953413938557276


Editor Gen AI / AI-powered Gene Editors

Pengenalan makalah

Sistem AI yang ditenagai LLM yang dilatih pada keragaman biologis dalam skala besar, mencapai penyuntingan presisi genom manusia melalui desain editor gen yang dapat diprogram.

Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.

Tautan makalah

https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1

Baca lebih lanjut

https://x.com/thisismadani/status/1782510590839406904


AutoCrawler: Agen Web dengan Pemahaman Progresif untuk Pembuatan Web Crawler / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

Pengenalan makalah

Menggabungkan LLM dan crawler dengan tujuan membantu crawler menangani lingkungan web yang beragam dan terus berubah dengan lebih efisien; agen web crawler memanfaatkan struktur hierarkis HTML untuk pemahaman progresif; menggunakan operasi top-down dan step-back, serta memanfaatkan struktur pohon DOM untuk menghasilkan crawler yang lengkap dan dapat dieksekusi.

Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.

Abstrak makalah

Otomatisasi web adalah teknik penting untuk menangani tugas web yang rumit dengan mengotomatisasi aksi web umum, meningkatkan efisiensi operasional, dan mengurangi kebutuhan akan intervensi manual. Metode tradisional, seperti wrapper, memiliki keterbatasan dalam adaptabilitas dan skalabilitas saat menghadapi situs web baru. Di sisi lain, agen generatif yang didukung large language model (LLM) menunjukkan performa dan reusabilitas yang buruk dalam skenario open-world. Dalam penelitian ini, kami memperkenalkan tugas pembuatan crawler untuk halaman web informasi vertikal serta paradigma yang menggabungkan LLM dengan crawler, yang membantu crawler menangani lingkungan web yang beragam dan terus berubah dengan lebih efisien. Kami mengusulkan AutoCrawler, kerangka kerja dua tahap yang memanfaatkan struktur hierarkis HTML untuk pemahaman progresif. Melalui operasi top-down dan step-back, AutoCrawler dapat belajar dari tindakan yang keliru dan terus memangkas HTML untuk menghasilkan aksi yang lebih baik. Kami melakukan eksperimen komprehensif dengan beberapa LLM dan menunjukkan efektivitas kerangka kerja kami. Sumber daya makalah ini dapat ditemukan di \url{https://github.com/EZ-hwh/AutoCrawler}

Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}

Tautan makalah

https://arxiv.org/abs/2404.12753

Baca lebih lanjut

https://github.com/EZ-hwh/AutoCrawler

https://x.com/omarsar0/status/1782462314983071757


Graph Machine Learning di era large language model (LLM) / Graph Machine Learning in the Era of Large Language Models (LLMs)

Pengenalan makalah

Memberikan tinjauan komprehensif tentang perkembangan terbaru Graph ML di era LLM; mencakup perkembangan terkini dalam Graph ML, bagaimana LLM dapat meningkatkan fitur graf, dan bagaimana LLM dapat mengatasi masalah seperti OOD dan heterogenitas graf.

Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.

Abstrak makalah (Abstract)

Graf memainkan peran penting dalam merepresentasikan hubungan yang kompleks di berbagai domain seperti jejaring sosial, knowledge graph, dan penemuan molekul. Seiring munculnya deep learning, Graph Neural Networks (GNN) telah menjadi landasan utama dalam Graph Machine Learning (Graph ML), yang memudahkan representasi dan pemrosesan struktur graf. Belakangan ini, LLM telah menunjukkan kemampuan yang belum pernah terjadi sebelumnya dalam tugas bahasa dan diadopsi secara luas dalam berbagai aplikasi seperti computer vision dan sistem rekomendasi. Keberhasilan luar biasa ini juga memicu minat untuk menerapkan LLM pada domain graf. Upaya yang terus meningkat dilakukan untuk mengeksplorasi potensi LLM dalam memajukan kemampuan generalisasi, transferabilitas, dan few-shot learning pada Graph ML. Sementara itu, graf, khususnya knowledge graph, kaya akan pengetahuan faktual yang andal, yang dapat dimanfaatkan untuk meningkatkan kemampuan penalaran LLM dan berpotensi mengurangi keterbatasannya seperti halusinasi dan kurangnya explainability. Mengingat pesatnya kemajuan arah riset ini, diperlukan tinjauan sistematis yang merangkum perkembangan terbaru Graph ML di era LLM untuk memberikan pemahaman mendalam kepada peneliti dan praktisi. Karena itu, dalam survei ini, pertama-tama dibahas perkembangan terbaru dalam Graph ML. Selanjutnya, dibahas bagaimana LLM dapat dimanfaatkan untuk meningkatkan kualitas fitur graf, mengurangi ketergantungan pada data berlabel, dan mengatasi tantangan seperti heterogenitas graf serta generalisasi out-of-distribution (OOD). Setelah itu, dibahas bagaimana graf dapat meningkatkan LLM, dengan menyoroti kemampuannya dalam meningkatkan pre-training dan inferensi LLM. Selain itu, berbagai aplikasi juga ditinjau dan arah masa depan yang potensial dalam bidang yang menjanjikan ini turut didiskusikan.

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.

Tautan makalah

https://arxiv.org/abs/2404.14928

Baca lebih lanjut

https://x.com/omarsar0/status/1783171591020392886


Survei tentang evolusi mandiri model bahasa skala besar / A Survey on Self-Evolution of Large Language Models

Pengenalan makalah

Memberikan survei komprehensif tentang pendekatan evolusi mandiri pada LLM.

Provides a comprehensive survey on self-evolution approaches in LLMs.

Abstrak makalah (Abstract)

Large language model (LLM) telah berkembang pesat di berbagai bidang dan aplikasi agen cerdas. Namun, LLM saat ini yang belajar dari supervisi manusia atau model eksternal membutuhkan biaya besar dan dapat menghadapi batas performa seiring meningkatnya kompleksitas serta keragaman tugas. Untuk mengatasi masalah ini, pendekatan self-evolution yang memungkinkan LLM secara otonom memperoleh, menyempurnakan, dan belajar dari pengalaman yang dihasilkan oleh model itu sendiri berkembang pesat. Paradigma pelatihan baru yang terinspirasi dari proses pembelajaran berbasis pengalaman pada manusia ini menawarkan potensi untuk menskalakan LLM menuju superintelligence. Dalam tulisan ini, diperkenalkan survei komprehensif mengenai pendekatan self-evolution pada LLM. Pertama, diajukan kerangka konseptual untuk self-evolution dan proses evolusinya digambarkan sebagai siklus iteratif yang terdiri dari empat tahap: akuisisi pengalaman, penyempurnaan pengalaman, pembaruan, dan evaluasi. Kedua, tujuan evolusi LLM dan agen berbasis LLM diklasifikasikan, kemudian literatur dirangkum serta taksonomi dan insight untuk tiap modul disajikan. Terakhir, tantangan yang ada diidentifikasi secara tepat dan arah masa depan untuk memperbaiki kerangka self-evolution diusulkan, sehingga memberi peneliti insight penting untuk mempercepat pengembangan LLM yang berevolusi sendiri.

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.

Tautan makalah

https://arxiv.org/abs/2404.14387

Baca lebih lanjut

https://x.com/omarsar0/status/1782777977526231440


NExT: Mengajarkan Large Language Model Bernalar tentang Eksekusi Kode / NExT: Teaching Large Language Models to Reason about Code Execution

Pengenalan makalah

Melatih LLM agar memiliki kemampuan memeriksa jejak eksekusi program dan menalar perilaku runtime melalui synthetic chain-of-thought, meningkatkan fix rate model PaLM 2 pada MBPP dan Human sebesar 26.1% dan 14.3%, serta menunjukkan bahwa model tersebut dapat melakukan generalisasi ke skenario yang belum diketahui.

Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.

Abstrak makalah (Abstract)

Kemampuan mendasar pengembang manusia adalah memahami dan menalar eksekusi program. Sebagai contoh, programmer dapat mensimulasikan eksekusi kode secara mental dalam bahasa alami untuk melakukan debug dan memperbaiki kode (alias rubber duck debugging). Namun, large language model (LLM) untuk kode biasanya dilatih pada bentuk tekstual permukaan dari program, sehingga mungkin kurang memiliki pemahaman semantik tentang bagaimana program dijalankan saat runtime. Untuk mengatasi masalah ini, kami mengusulkan NExT, metode untuk mengajarkan LLM agar memeriksa jejak eksekusi program (state variabel dari baris yang dieksekusi) dan menalar perilaku runtime melalui logika chain-of-thought (CoT). Secara khusus, NExT menggunakan self-training untuk melakukan bootstrap pada himpunan pelatihan sintetis berisi penalaran yang sadar eksekusi dan mengarah pada solusi tugas yang benar (misalnya, program yang telah diperbaiki) tanpa anotasi manual yang melelahkan. Hasil eksperimen pada tugas perbaikan program berbasis MBPP dan HumanEval menunjukkan bahwa NExT meningkatkan fix rate model PaLM 2 masing-masing sebesar 26.1% dan 14.3% secara absolut, dengan kualitas rationale yang meningkat signifikan sebagaimana diverifikasi oleh metrik otomatis dan penilai manusia. Model ini juga dapat melakukan generalisasi ke skenario ketika jejak program tidak tersedia pada saat pengujian.

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.

Tautan makalah

https://arxiv.org/abs/2404.14662

Baca lebih lanjut

https://x.com/AnsongNi/status/1783311827390070941


Artikel asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c


Tulisan ini dirangkum menggunakan model GPT, jadi mungkin ada bagian yang kurang tepat; silakan juga merujuk ke artikel asli di bagian bawah! Jika saat membaca Anda menemukan isi yang terasa janggal atau keliru, mohon beri tahu kami lewat komentar.

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh Komunitas Pengguna PyTorch Korea ini bermanfaat? Jika Anda bergabung sebagai anggota, kami akan mengirimkan tulisan-tulisan utama lewat email! (Default-nya mingguan, tetapi bisa diubah ke harian.)

Belum ada komentar.

Belum ada komentar.