03] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 poin oleh ninebow 2024-03-06 | Belum ada komentar. | Bagikan ke WhatsApp

Artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI telah diterjemahkan secara otomatis.
Melihat makalah yang dipilih minggu ini, tampaknya penelitian yang berfokus pada large language models (LLM) mendominasi. Dari judul-judul seperti "Genie", "Mistral Large", "The Era of 1-bit LLMs", "Dataset for LLMs", dan "PlanGPT", terlihat bahwa minat terhadap language modeling serta pendekatan untuk meningkatkannya atau memanfaatkan dataset baru sangat tinggi. Hal ini mungkin disebabkan oleh pesatnya perkembangan teknologi pemrosesan bahasa dalam beberapa tahun terakhir dan karena model bahasa berskala besar menunjukkan kinerja yang sangat baik dalam berbagai tugas pemrosesan bahasa alami.
Model bahasa, khususnya model besar seperti GPT-4, sedang diterapkan di berbagai industri dan bidang penelitian. Karena itu, kebutuhan untuk mengembangkan teknik baru yang dapat melatih model-model ini dengan lebih efisien, menerapkannya pada data yang lebih beragam, dan bahkan mempertahankan performa tinggi dengan jumlah bit yang lebih sedikit pun meningkat. Selain itu, judul seperti "On the Societal Impact of Open Foundation Models" menunjukkan bahwa ada penelitian mengenai dampak model bahasa terhadap masyarakat, yang berarti kesadaran terhadap perubahan sosial dan tanggung jawab yang ditimbulkan oleh kemajuan teknologi juga semakin meningkat, bukan hanya pada perkembangan teknisnya saja.
Sementara itu, judul yang kurang spesifik seperti "LearnAct" atau "EMO" juga menonjol. Makalah-makalah ini kemungkinan tidak terbatas pada model bahasa, melainkan berfokus pada aplikasi yang lebih luas atau perkembangan teoretis. Secara keseluruhan, minggu ini menegaskan bahwa pendekatan baru terhadap language modeling dan berbagai penelitian aplikasi yang memanfaatkannya telah menjadi tren utama, yang dapat dilihat sebagai cerminan dari antusiasme riset dan pengembangan terhadap beragam tantangan penting di bidang AI.

Genie: Lingkungan Interaktif Generatif / Genie: Generative Interactive Environments

Pengenalan makalah

Genie, sebuah foundation model yang dilatih menggunakan video internet dan mampu menghasilkan berbagai dunia 2D yang dapat dikendalikan aksinya ketika diberi image prompt, memiliki 11B parameter dan terdiri dari tokenisasi video spatiotemporal, model dinamis autoregresif, serta model aksi laten yang dapat diskalakan. Melalui ruang aksi laten, agen yang dilatih dapat meniru perilaku dari video yang belum pernah dilihat, sehingga menjanjikan untuk membangun agen yang lebih generalis.

A foundation model trained from internet videos and with the ability to generate a variety of action-controllable 2d worlds given an image prompt; genie has 11b parameters and consists of a spatiotemporal video tokenizer, an autoregressive dynamic model, and a scalable latent action model; the latent action space enables training agents to imitate behaviors from unseen video which is promising for building more generalist agents.

Abstrak makalah

Kami memperkenalkan Genie, lingkungan interaktif generatif pertama yang dilatih secara unsupervised dari video internet tanpa label. Model ini dapat diberi prompt untuk menghasilkan ragam dunia virtual tanpa batas yang dapat dikendalikan aksinya dan dideskripsikan melalui teks, gambar sintetis, foto, bahkan sketsa. Dengan 11B parameter, Genie dapat dianggap sebagai foundation world model. Model ini terdiri dari tokenisasi video spatiotemporal, model dinamika autoregresif, dan model aksi laten yang sederhana serta dapat diskalakan. Genie memungkinkan pengguna bertindak di lingkungan yang dihasilkan secara frame-by-frame meskipun dilatih tanpa label aksi ground-truth atau persyaratan spesifik domain lain yang biasanya ditemukan dalam literatur world model. Selain itu, ruang aksi laten hasil pembelajaran memungkinkan agen dilatih untuk meniru perilaku dari video yang belum pernah dilihat, sehingga membuka jalan bagi pelatihan agen generalis di masa depan.

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.

Tautan makalah

https://arxiv.org/abs/2402.15391

Baca selengkapnya

https://discuss.pytorch.kr/t/…

https://sites.google.com/view/genie-2024/home

https://x.com/_rockt/status/1762026090262872161

Mistral Large / Mistral Large

Pengenalan makalah

Fitur-fitur dari language engine baru dengan kemampuan multibahasa, penalaran, matematika, dan pembuatan kode yang kuat adalah sebagai berikut: 1) context window 32k token, 2) kemampuan multibahasa native, 3) kemampuan yang kuat pada benchmark penalaran, pengetahuan, matematika, dan coding, 4) dukungan native untuk function calling dan format JSON.

A new llm with strong multilingual, reasoning, maths, and code generation capabilities; features include: 1) 32k tokens context window, 2) native multilingual capacities, 3) strong abilities in reasoning, knowledge, maths, and coding benchmarks, and 4) function calling and json format natively supported.

Tautan makalah

https://mistral.ai/news/mistral-large/

Baca selengkapnya

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1762140818654064721

Era LLM 1-bit: Semua large language model ada di 1,58 bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Pengenalan makalah

Memperkenalkan varian LLM 1-bit berkinerja tinggi dan hemat biaya bernama BitNet b1.58, di mana semua parameternya berbentuk ternary {-1, 0, 1}. Dengan ukuran model dan token pelatihan yang sama, BitNet b1.58 dapat menandingi kompleksitas dan kinerja tugas LLM Transformer presisi penuh (yakni, fp16), sementara keunggulan LLM 1-bit ini adalah latensi, memori, throughput, dan konsumsi energi yang jauh lebih baik.

Introduces a high-performing and cost-effective 1-bit llm variant called bitnet b1.58 where every parameter is a ternary {-1, 0, 1}; given the same model size and training tokens, bitnet b1.58 can match the perplexity and task performance of a full precision transformer llm (i.e., fp16); the benefits of this 1-bit llm are significantly better latency, memory, throughout, and energy consumption.

Abstrak Makalah (Abstract)

Riset terbaru seperti BitNet sedang membuka jalan menuju era baru Large Language Model (LLM) 1-bit. Dalam karya ini, kami memperkenalkan varian LLM 1-bit, yaitu BitNet b1.58, di mana setiap parameter tunggal (atau bobot) pada LLM berbentuk ternary {-1, 0, 1}. Model ini menyamai LLM Transformer presisi penuh (yakni, FP16 atau BF16) dengan ukuran model dan token pelatihan yang sama, baik dari sisi perplexity maupun kinerja tugas akhir, sembari jauh lebih hemat biaya dalam hal latensi, memori, throughput, dan konsumsi energi. Lebih jauh lagi, LLM 1,58-bit mendefinisikan scaling law dan resep baru untuk melatih generasi baru LLM yang sekaligus berkinerja tinggi dan hemat biaya. Selain itu, pendekatan ini memungkinkan paradigma komputasi baru dan membuka jalan bagi perancangan hardware khusus yang dioptimalkan untuk LLM 1-bit.

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.

Tautan makalah

https://arxiv.org/abs/2402.17764

Baca selengkapnya

https://x.com/_akhaliq/status/1762729757454618720

Dataset untuk Large Language Model: Survei Komprehensif / Datasets for Large Language Models: A Comprehensive Survey

Pengenalan makalah

Ikhtisar komprehensif (180+ halaman) dan analisis dataset LLM.

A comprehensive overview (180+ pages) and analysis of llm datasets.

Abstrak makalah (Abstract)

Makalah ini memulai eksplorasi terhadap dataset Large Language Model (LLM), yang memainkan peran penting dalam kemajuan pesat LLM. Dataset berfungsi sebagai infrastruktur dasar yang dapat dianalogikan dengan sistem akar yang menopang dan memelihara perkembangan LLM. Karena itu, kajian atas dataset ini muncul sebagai topik penting dalam riset. Untuk mengatasi kurangnya gambaran menyeluruh dan analisis mendalam tentang dataset LLM saat ini, serta untuk memperoleh wawasan tentang kondisi terkini dan tren ke depan, survei ini mengonsolidasikan dan mengategorikan aspek-aspek fundamental dataset LLM dari lima perspektif: (1) korpus prapelatihan, (2) dataset fine-tuning instruksi, (3) dataset preferensi, (4) dataset evaluasi, (5) dataset pemrosesan bahasa alami (NLP) tradisional. Survei ini menyoroti tantangan yang sedang dihadapi dan menunjukkan kemungkinan arah untuk investigasi di masa mendatang. Selain itu, survei ini juga menyediakan tinjauan komprehensif atas sumber daya dataset yang tersedia saat ini, termasuk statistik dari 444 dataset yang mencakup 8 kategori bahasa dan 32 domain. Informasi dari 20 dimensi dimasukkan ke dalam statistik dataset. Total ukuran data yang disurvei melampaui 774.5 TB untuk korpus prapelatihan dan 700 juta instance untuk dataset lainnya. Kami bertujuan menyajikan keseluruhan lanskap dataset teks LLM agar dapat menjadi referensi komprehensif bagi para peneliti di bidang ini dan berkontribusi pada studi mendatang. Sumber daya terkait tersedia di https://github.com/lmmlzn/Awesome-LLMs-Datasets.

This paper embarks on an exploration into the Large Language Model (LLM) datasets, which play a crucial role in the remarkable advancements of LLMs. The datasets serve as the foundational infrastructure analogous to a root system that sustains and nurtures the development of LLMs. Consequently, examination of these datasets emerges as a critical topic in research. In order to address the current lack of a comprehensive overview and thorough analysis of LLM datasets, and to gain insights into their current status and future trends, this survey consolidates and categorizes the fundamental aspects of LLM datasets from five perspectives: (1) Pre-training Corpora; (2) Instruction Fine-tuning Datasets; (3) Preference Datasets; (4) Evaluation Datasets; (5) Traditional Natural Language Processing (NLP) Datasets. The survey sheds light on the prevailing challenges and points out potential avenues for future investigation. Additionally, a comprehensive review of the existing available dataset resources is also provided, including statistics from 444 datasets, covering 8 language categories and spanning 32 domains. Information from 20 dimensions is incorporated into the dataset statistics. The total data size surveyed surpasses 774.5 TB for pre-training corpora and 700M instances for other datasets. We aim to present the entire landscape of LLM text datasets, serving as a comprehensive reference for researchers in this field and contributing to future studies. Related resources are available at: https://github.com/lmmlzn/Awesome-LLMs-Datasets.

Tautan makalah

https://arxiv.org/abs/2402.18041

Baca lebih lanjut

https://github.com/lmmlzn/Awesome-LLMs-Datasets

https://x.com/omarsar0/status/1763233452852134001

Memperkuat Kemampuan Agen Large Language Model melalui Action Learning / Empowering Large Language Model Agents through Action Learning

Pengantar makalah

Mengeksplorasi open-action learning untuk agen bahasa melalui strategi pembelajaran iteratif yang membuat dan menyempurnakan aksi menggunakan fungsi Python; pada setiap iterasi, framework yang diusulkan (learnact) memperluas ruang aksi dan meningkatkan efektivitas aksi dengan merevisi dan memperbarui aksi yang tersedia berdasarkan umpan balik eksekusi; hasil pembelajaran di lingkungan perencanaan robot dan Alfworld menunjukkan peningkatan performa agen sebesar 32% di Alfworld dibandingkan react+reflexion.

Explores open-action learning for language agents through an iterative learning strategy that creates and improves actions using python functions; on each iteration, the proposed framework (learnact) expands the action space and enhances action effectiveness by revising and updating available actions based on execution feedback; the learnact framework was tested on robotic planning and alfworld environments; it improves agent performance by 32% in alfworld compared to react+reflexion.

Abstrak makalah (Abstract)

Minat terhadap agen Large Language Model (LLM) belakangan ini meningkat, tetapi kemampuan mereka untuk belajar melalui trial and error, yang merupakan elemen kunci dari perilaku cerdas, masih terbatas. Studi ini berargumen bahwa kemampuan untuk mempelajari tindakan baru dari pengalaman sangat penting untuk memajukan pembelajaran pada agen LLM. Sementara manusia secara alami memperluas ruang tindakan dan mengembangkan keterampilan melalui experiential learning, agen LLM biasanya beroperasi dalam ruang tindakan yang tetap sehingga potensi pertumbuhannya terbatas. Untuk mengatasi tantangan ini, studi ini mengeksplorasi open-action learning untuk agen bahasa. Diperkenalkan kerangka kerja LearnAct yang mencakup strategi pembelajaran iteratif untuk membuat dan meningkatkan tindakan dalam bentuk fungsi Python. Pada setiap iterasi, LLM merevisi dan memperbarui tindakan yang saat ini tersedia berdasarkan error yang teridentifikasi dari tugas pelatihan yang gagal, sehingga meningkatkan efektivitas tindakan. Evaluasi eksperimental di lingkungan Robotic Planning dan Alfworld menunjukkan bahwa setelah belajar dari beberapa instance tugas pelatihan, pendekatan open-action learning ini secara signifikan meningkatkan performa agen untuk jenis tugas tersebut (misalnya, 32% di AlfWorld dibandingkan dengan ReAct+Reflexion). Hasil ini menegaskan pentingnya experiential action learning dalam pengembangan agen LLM yang lebih cerdas.

Large Language Model (LLM) Agents have recently garnered increasing interest yet they are limited in their ability to learn from trial and error, a key element of intelligent behavior. In this work, we argue that the capacity to learn new actions from experience is fundamental to the advancement of learning in LLM agents. While humans naturally expand their action spaces and develop skills through experiential learning, LLM agents typically operate within fixed action spaces, limiting their potential for growth. To address these challenges, our study explores open-action learning for language agents. We introduce a framework LearnAct with an iterative learning strategy to create and improve actions in the form of Python functions. In each iteration, LLM revises and updates the currently available actions based on the errors identified in unsuccessful training tasks, thereby enhancing action effectiveness. Our experimental evaluations across Robotic Planning and Alfworld environments reveal that after learning on a few training task instances, our approach to open-action learning markedly improves agent performance for the type of task (by 32 percent in AlfWorld compared to ReAct+Reflexion, for instance) highlighting the importance of experiential action learning in the development of more intelligent LLM agents.

Tautan makalah

https://arxiv.org/abs/2402.15809

Baca lebih lanjut

https://x.com/omarsar0/status/1762533498492010761

EMO: Emote Portrait Alive - Menghasilkan Video Potret Ekspresif dengan Model Difusi Audio2Video dalam Kondisi Lemah / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Pengantar makalah

EMO, sebuah framework baru yang menghasilkan video ekspresif dengan memanfaatkan pendekatan sintesis langsung Audio-to-Video melalui model difusi Audio-to-Video tanpa memerlukan model 3D perantara atau facial landmark, dapat membuat video berbicara dan video bernyanyi yang meyakinkan dalam berbagai gaya sambil menunjukkan performa yang lebih unggul daripada metode sebelumnya dari sisi ekspresivitas dan realisme.

A new framework for generating expressive video by utilizing a direct audio-to-video synthesis approach; by leveraging an audio2video diffusion model it bypasses the need for intermediate 3d models or facial landmarks; emo can produce convincing speaking videos and singing videos in various styles while outperforming existing methods in terms of expressiveness and realism.

Abstrak makalah (Abstract)

Studi ini menangani tantangan untuk meningkatkan realisme dan ekspresivitas dalam pembuatan video talking head dengan berfokus pada hubungan yang dinamis dan bernuansa antara petunjuk audio dan gerakan wajah. Unity mengidentifikasi keterbatasan teknik tradisional yang sering gagal menangkap keseluruhan spektrum ekspresi manusia dan keunikan gaya wajah tiap individu. Untuk mengatasi masalah ini, Unity mengusulkan EMO, sebuah framework baru yang memanfaatkan pendekatan sintesis audio-ke-video langsung, tanpa memerlukan model 3D perantara atau facial landmark. Metode ini memastikan transisi frame yang mulus dan pelestarian identitas yang konsisten di seluruh video, sehingga menghasilkan animasi yang sangat ekspresif dan hidup. Hasil eksperimen menunjukkan bahwa EMO mampu menghasilkan tidak hanya video berbicara yang meyakinkan tetapi juga video bernyanyi dalam berbagai gaya, serta secara signifikan melampaui metodologi state-of-the-art yang ada dari sisi ekspresivitas dan realisme.

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

Tautan makalah

https://arxiv.org/abs/2402.17485

Baca lebih lanjut

https://x.com/_akhaliq/status/1762686465777999932

Dampak Sosial dari Open Foundation Models / On the Societal Impact of Open Foundation Models

Pengenalan makalah

Makalah posisi yang berfokus pada open foundation models beserta dampak, manfaat, dan risikonya ini mengusulkan kerangka penilaian risiko untuk menganalisis risiko, menjelaskan mengapa risiko marginal dari open foundation models rendah dalam beberapa kasus, dan menawarkan penilaian yang lebih berbasis bukti atas dampak sosial dari open foundation models.

A position paper with a focus on open foundation models and their impact, benefits, and risks; proposes a risk assessment framework for analyzing risk and explains why the marginal risk of open foundation models is low in some cases; it also offers a more grounded assessment of the societal impact of open foundation models.

Tautan makalah

https://crfm.stanford.edu/open-fms/

Baca lebih lanjut

https://x.com/sayashk/status/1762508812370551207

StarCoder 2 / StarCoder 2

Pengenalan makalah

Keluarga open LLMs untuk kode dengan tiga ukuran berbeda (3b, 7b, dan 15b); model 15b dilatih pada 14 triliun token dan 600+ bahasa pemrograman, dengan context window 16k token serta menggunakan tujuan fill-in-the-middle; performanya setara dengan model 33b+ pada banyak evaluasi seperti code completion, code reasoning, dan penalaran matematika dengan bantuan PAL.

A family of open llms for code with three different sizes (3b, 7b, and 15b); the 15b model was trained on 14 trillion tokens and 600+ programming languages with a context window of 16k token and employing a fill-in-the-middle objective; it matches 33b+ models on many evaluation like code completion, code reasoning, and math reasoning aided through pal.

Tautan makalah

https://huggingface.co/blog/starcoder2

Baca lebih lanjut

https://x.com/_philschmid/status/1762843489220296881

Large Language Models (LLMs) pada Data Tabular: Prediksi, Generasi, dan Pemahaman - Makalah Survei / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Pengenalan makalah

Membahas gambaran umum LLMs untuk tugas data tabular, termasuk teknik utama, metrik, dataset, model, dan pendekatan optimisasi, serta keterbatasan, ide-ide yang belum dieksplorasi, dan insight untuk arah riset ke depan.

An overview of llms for tabular data tasks including key techniques, metrics, datasets, models, and optimization approaches; it covers limitations and unexplored ideas with insights for future research directions.

Abstrak makalah (Abstract)

Terobosan terbaru dalam large language modeling telah memungkinkan eksplorasi yang ketat terhadap penerapannya pada beragam tugas terkait pemodelan data tabular, seperti prediksi, sintesis data tabular, tanya jawab, dan pemahaman tabel. Setiap tugas menghadirkan tantangan dan peluang yang unik. Namun, saat ini masih kurang tersedia tinjauan komprehensif yang merangkum dan membandingkan teknik utama, metrik, dataset, model, serta pendekatan optimisasi di domain riset ini. Survei ini bertujuan menutup kesenjangan tersebut dengan mengonsolidasikan kemajuan terbaru di bidang-bidang ini, serta menawarkan survei dan taksonomi menyeluruh atas dataset, metrik, dan metodologi yang digunakan. Makalah ini mengidentifikasi kekuatan, keterbatasan, wilayah yang belum dieksplorasi, dan celah dalam literatur yang ada, sambil memberikan beberapa insight untuk arah penelitian masa depan di bidang yang penting dan berkembang pesat ini. Makalah ini juga menyediakan referensi kode dan dataset yang relevan. Melalui tinjauan komprehensif ini, para penulis berharap dapat memberikan referensi yang relevan dan perspektif yang bernas kepada pembaca yang tertarik, serta memberdayakan mereka dengan alat dan pengetahuan yang diperlukan untuk menavigasi dan mengatasi tantangan yang ada di bidang ini secara efektif.

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.

Tautan makalah

https://arxiv.org/abs/2402.17944

Baca lebih lanjut

https://x.com/omarsar0/status/1763187964501254492

PlanGPT: Meningkatkan Perencanaan Kota dengan Model Bahasa yang Disesuaikan dan Retrieval yang Efisien / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Pengenalan makalah

Menunjukkan cara memanfaatkan LLM dan menggabungkan berbagai pendekatan seperti retrieval augmentation, fine-tuning, penggunaan tools, dan lainnya; framework yang diusulkan diterapkan pada perencanaan kota dan tata ruang, tetapi juga menawarkan banyak insight serta tips praktis yang bisa diterapkan ke domain lain.

Shows how to leverage llms and combine multiple approaches like retrieval augmentation, fine-tuning, tool usage, and more; the proposed framework is applied to urban and spatial planning but there are a lot of insights and practical tips that apply to other domains.

Abstrak makalah (Abstract)

Di bidang perencanaan kota, model bahasa besar serbaguna sering kali kesulitan memenuhi kebutuhan spesifik para perencana. Tugas seperti menghasilkan teks perencanaan kota, mengambil informasi terkait, dan mengevaluasi dokumen perencanaan menghadirkan tantangan yang unik. Untuk meningkatkan efisiensi para profesional perkotaan dan mengatasi hambatan ini, diperkenalkan PlanGPT, model bahasa besar khusus pertama yang disesuaikan untuk perencanaan kota dan tata ruang. Dikembangkan melalui kolaborasi dengan institusi seperti Chinese Academy of Urban Planning, PlanGPT memanfaatkan kerangka kerja pengambilan basis data lokal yang dikustomisasi, fine-tuning model dasar yang spesifik domain, dan kemampuan tooling tingkat lanjut. Pengujian empiris menunjukkan bahwa PlanGPT mencapai kinerja yang unggul, dengan memberikan respons berkualitas tinggi yang disesuaikan secara tepat dengan kompleksitas perencanaan kota.

In the field of urban planning, general-purpose large language models often struggle to meet the specific needs of planners. Tasks like generating urban planning texts, retrieving related information, and evaluating planning documents pose unique challenges. To enhance the efficiency of urban professionals and overcome these obstacles, we introduce PlanGPT, the first specialized Large Language Model tailored for urban and spatial planning. Developed through collaborative efforts with institutions like the Chinese Academy of Urban Planning, PlanGPT leverages a customized local database retrieval framework, domain-specific fine-tuning of base models, and advanced tooling capabilities. Empirical tests demonstrate that PlanGPT has achieved advanced performance, delivering responses of superior quality precisely tailored to the intricacies of urban planning.

Tulisan ini dirangkum menggunakan model GPT, sehingga mungkin ada bagian yang keliru; mohon lihat juga artikel asli di bagian bawah! Jika saat membaca Anda menemukan isi yang terasa janggal atau keliru, mohon beri tahu melalui komentar.

⚠️Iklan⚠️: Apakah tulisan yang dirangkum oleh Komunitas Pengguna PyTorch Korea ini bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan tulisan-tulisan utama melalui email! Default-nya Weekly, tetapi bisa diubah ke Daily.

[2024/02/26 ~ 03/03] Makalah ML Utama Minggu Ini (Top ML Papers of the Week)

Genie: Lingkungan Interaktif Generatif / Genie: Generative Interactive Environments

Pengenalan makalah

Abstrak makalah

Tautan makalah

Baca selengkapnya

Mistral Large / Mistral Large

Pengenalan makalah

Tautan makalah

Baca selengkapnya

Era LLM 1-bit: Semua large language model ada di 1,58 bit / The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Pengenalan makalah

Abstrak Makalah (Abstract)

Tautan makalah

Baca selengkapnya

Dataset untuk Large Language Model: Survei Komprehensif / Datasets for Large Language Models: A Comprehensive Survey

Pengenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

Memperkuat Kemampuan Agen Large Language Model melalui Action Learning / Empowering Large Language Model Agents through Action Learning

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

EMO: Emote Portrait Alive - Menghasilkan Video Potret Ekspresif dengan Model Difusi Audio2Video dalam Kondisi Lemah / EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Pengantar makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

Dampak Sosial dari Open Foundation Models / On the Societal Impact of Open Foundation Models

Pengenalan makalah

Tautan makalah

Baca lebih lanjut

StarCoder 2 / StarCoder 2

Pengenalan makalah

Tautan makalah

Baca lebih lanjut

Large Language Models (LLMs) pada Data Tabular: Prediksi, Generasi, dan Pemahaman - Makalah Survei / Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey

Pengenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca lebih lanjut

PlanGPT: Meningkatkan Perencanaan Kota dengan Model Bahasa yang Disesuaikan dan Retrieval yang Efisien / PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

Pengenalan makalah

Abstrak makalah (Abstract)

Tautan makalah

Baca selengkapnya

Artikel asli

Bacaan terkait

Belum ada komentar.