[2023/10/30 ~ 11/07] Paper ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Ikhtisar
-
Kami telah mencoba menerjemahkan secara otomatis artikel tentang paper ML yang dirilis setiap minggu oleh DAIR.AI.
-
Paper yang diajukan minggu ini berfokus pada model bahasa besar (Large Language Models, LLM) serta evaluasi kinerjanya. Secara khusus, dari paper seperti 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs', dan 'Enhancing LLMs by Emotion Stimuli', dapat dilihat bahwa berbagai pendekatan penerapan dan optimasi LLM sedang dibahas.
-
Tren ini mencerminkan bahwa pentingnya LLM dalam bidang kecerdasan buatan telah meningkat pesat dalam beberapa tahun terakhir. Khususnya, model-model terdepan seperti seri GPT dari OpenAI menunjukkan hasil yang mengesankan dalam berbagai tugas pemrosesan bahasa alami (NLP), sehingga para peneliti berfokus pada pengembangan lebih lanjut model-model ini atau penerapannya pada masalah baru. Seiring dengan itu, minat terhadap cara meningkatkan efisiensi model dan memperkaya input-output model dengan memanfaatkan elemen seperti emosi atau konteks situasional juga semakin tinggi.
-
Selain itu, pada paper seperti 'Next Generation AlphaFold', tampak adanya upaya untuk mengeksplorasi pendekatan inovatif dengan menerapkan metodologi machine learning ke bidang-bidang khusus seperti biologi struktural, dalam konteks selain LLM. Tren riset ini menunjukkan bahwa teknologi machine learning dan deep learning tidak hanya berkembang secara teoretis, tetapi juga menjadi aplikasi konkret di berbagai bidang seperti industri, sains, dan kedokteran.
Deep Learning untuk Prakiraan Harian dari Observasi yang Jarang / Deep Learning for Day Forecasts from Sparse Observations
Pengenalan paper
- Model cuaca neural mutakhir yang memperluas baik rentang lead time maupun variabel yang dapat diprediksi dengan baik oleh model berbasis observasi; belajar dari sensor data padat maupun sensor data jarang, dan membuat prediksi hingga 24 jam ke depan untuk curah hujan, angin, suhu, dan titik embun.
> A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.
Abstrak paper
- Jaringan saraf mendalam menawarkan paradigma alternatif untuk memodelkan kondisi cuaca. Kemampuan model neural untuk membuat prediksi dalam waktu kurang dari satu detik setelah data tersedia dan melakukannya dengan resolusi temporal dan spasial yang sangat tinggi, serta kemampuan untuk belajar langsung dari observasi atmosfer, hanyalah sebagian dari keunggulan unik model-model ini. Hingga saat ini, model neural yang dilatih menggunakan observasi atmosfer, yaitu data dengan fidelitas tertinggi dan latensi terendah, hanya mampu mencapai kinerja yang baik hingga lead time dua belas jam bila dibandingkan dengan model probabilistik Numerical Weather Prediction mutakhir, dan itu pun hanya untuk satu variabel, yaitu curah hujan. Dalam paper ini, kami memperkenalkan MetNet-3, yang secara signifikan memperluas baik rentang lead time maupun variabel yang dapat diprediksi dengan baik oleh model neural berbasis observasi. MetNet-3 belajar dari sensor data padat dan jarang, serta membuat prediksi hingga 24 jam ke depan untuk curah hujan, angin, suhu, dan titik embun. MetNet-3 memperkenalkan teknik densifikasi kunci yang secara implisit menangkap asimilasi data dan menghasilkan prakiraan yang padat secara spasial meskipun jaringan dilatih pada target yang sangat jarang. MetNet-3 memiliki resolusi temporal dan spasial yang tinggi, masing-masing hingga 2 menit dan 1 km, serta latensi operasional yang rendah. Kami menemukan bahwa MetNet-3 mampu mengungguli NWP anggota tunggal maupun multi-anggota terbaik seperti HRRR dan ENS di wilayah CONUS hingga 24 jam ke depan, sehingga menetapkan tonggak kinerja baru bagi model neural berbasis observasi. MetNet-3 saat ini sudah beroperasi, dan prakiraannya disajikan di Google Search bersama model-model lainnya.
> Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
Tautan paper
https://arxiv.org/abs/2306.06079
Baca lebih lanjut
https://x.com/GoogleAI/status/1719774923294687636
Mengevaluasi Model Bahasa Besar: Paper Survei Komprehensif / Evaluating Large Language Models: A Comprehensive Survey
Pengenalan paper
- Menyediakan survei komprehensif (lebih dari 100 halaman) tentang evaluasi LLM, termasuk diskusi mengenai berbagai jenis evaluasi, dataset, teknik, dan banyak lagi. #llm-survey #llm-evaluation
> A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.
Abstrak paper
- Model bahasa besar (LLM) telah menunjukkan kemampuan yang luar biasa di berbagai spektrum tugas. Model ini menarik perhatian besar dan telah diterapkan di banyak aplikasi downstream. Namun, seperti pedang bermata dua, LLM juga menghadirkan potensi risiko. Data pribadi dapat bocor, atau model dapat menghasilkan konten yang tidak pantas, berbahaya, atau menyesatkan. Selain itu, kemajuan pesat LLM juga memunculkan kekhawatiran tentang kemungkinan munculnya sistem supercerdas tanpa perlindungan yang memadai. Untuk memanfaatkan kemampuan LLM secara efektif sekaligus memastikan pengembangannya aman dan bermanfaat, sangat penting untuk melakukan evaluasi LLM yang ketat dan komprehensif. Survei ini berupaya memberikan perspektif menyeluruh tentang evaluasi LLM. Evaluasi LLM diklasifikasikan ke dalam tiga kelompok utama: evaluasi pengetahuan dan kapabilitas, evaluasi alignment, dan evaluasi keamanan. Selain tinjauan komprehensif terhadap metodologi evaluasi dan benchmark pada tiga aspek tersebut, survei ini juga merangkum kompendium evaluasi yang berkaitan dengan kinerja LLM di domain khusus, serta membahas pembangunan platform evaluasi komprehensif yang mencakup evaluasi LLM pada kapabilitas, alignment, keamanan, dan penerapan. Melalui ikhtisar komprehensif ini, diharapkan akan tumbuh lebih banyak minat riset terhadap evaluasi LLM, dengan tujuan akhir menjadikan evaluasi sebagai landasan dalam mengarahkan pengembangan LLM yang bertanggung jawab. Kami membayangkan hal ini akan mengarahkan evolusinya ke arah yang memaksimalkan manfaat sosial sambil meminimalkan potensi risiko. Daftar makalah terkait yang telah dikurasi tersedia secara publik di https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
> Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers.
Tautan makalah
https://arxiv.org/abs/2310.19736
Baca lebih lanjut
https://x.com/omarsar0/status/1719351676828602502
Pertarungan backbone: Perbandingan skala besar model pralatih di berbagai tugas computer vision / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
Pengantar makalah
- Kerangka benchmarking skala besar untuk beragam tugas computer vision; vision transformer (ViT) dan self-supervised learning (SSL) memang semakin populer, tetapi kami menemukan bahwa convolutional neural network yang dipralatih secara supervised pada set pelatihan besar memberikan performa terbaik pada sebagian besar tugas. #self-supervised #vision-transformer
> A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.
Abstrak makalah
- Sistem computer vision berbasis jaringan saraf umumnya dibangun di atas backbone, yaitu pengekstrak fitur yang telah dipra-latih atau diinisialisasi secara acak. Beberapa tahun lalu, opsi default-nya adalah convolutional neural network yang dilatih dengan ImageNet. Namun, belakangan ini muncul sangat banyak backbone yang dipra-latih menggunakan beragam algoritme dan dataset. Meskipun banyaknya pilihan ini telah meningkatkan performa berbagai sistem, praktisi tetap kesulitan membuat keputusan yang benar-benar terinformasi tentang backbone mana yang harus dipilih. Battle of the Backbones (BoB) membantu mempermudah pilihan ini dengan melakukan benchmarking terhadap beragam model pra-latih, termasuk vision-language model, model yang dilatih melalui self-supervised learning, dan backbone Stable Diffusion, pada berbagai tugas computer vision mulai dari klasifikasi, deteksi objek, generalisasi OOD, dan lainnya. Selain itu, BoB menyoroti arah yang menjanjikan bagi komunitas riset untuk memajukan computer vision dengan memperjelas kekuatan dan kelemahan pendekatan yang ada melalui analisis komprehensif atas lebih dari 1.500 training run. Meskipun vision transformer (ViT) dan self-supervised learning (SSL) makin populer, mereka menemukan bahwa convolutional neural network yang dipra-latih secara supervised pada set pelatihan besar masih memberikan performa terbaik pada sebagian besar tugas di antara model yang mereka pertimbangkan. Selain itu, dalam perbandingan yang setara pada arsitektur yang sama dan dataset pra-pelatihan berukuran serupa, mereka menemukan bahwa backbone SSL sangat kompetitif, yang menunjukkan bahwa pekerjaan mendatang perlu melakukan pra-pelatihan SSL dengan arsitektur yang lebih canggih dan dataset pra-pelatihan yang lebih besar. Hasil mentah eksperimen beserta kode yang memungkinkan peneliti menguji backbone mereka sendiri dipublikasikan di sini (https://github.com/hsouri/Battle-of-the-Backbones)
> Sistem computer vision berbasis jaringan saraf biasanya dibangun di atas backbone, yaitu pengekstrak fitur yang telah dipra-latih atau diinisialisasi secara acak. Beberapa tahun lalu, opsi default-nya adalah convolutional neural network yang dilatih dengan ImageNet. Namun, belakangan ini muncul sangat banyak backbone yang dipra-latih menggunakan beragam algoritme dan dataset. Meskipun melimpahnya pilihan ini telah meningkatkan performa beragam sistem, praktisi tetap sulit membuat keputusan yang benar-benar terinformasi tentang backbone mana yang harus dipilih. Battle of the Backbones (BoB) mempermudah pilihan ini dengan melakukan benchmarking pada serangkaian model pra-latih yang beragam, termasuk vision-language model, model yang dilatih melalui self-supervised learning, dan backbone Stable Diffusion, di berbagai tugas computer vision mulai dari klasifikasi, deteksi objek, generalisasi OOD, dan lainnya. Selain itu, BoB menyoroti arah yang menjanjikan bagi komunitas riset untuk memajukan computer vision dengan menjelaskan kekuatan dan kelemahan pendekatan yang ada melalui analisis komprehensif yang dilakukan pada lebih dari 1500 training run. Meskipun vision transformer (ViT) dan self-supervised learning (SSL) semakin populer, kami menemukan bahwa convolutional neural network yang dipra-latih secara supervised pada set pelatihan besar masih berkinerja terbaik pada sebagian besar tugas di antara model yang kami pertimbangkan. Lebih jauh lagi, dalam perbandingan yang setara pada arsitektur yang sama dan dataset pra-pelatihan berukuran serupa, kami menemukan bahwa backbone SSL sangat kompetitif, yang menunjukkan bahwa pekerjaan mendatang perlu melakukan pra-pelatihan SSL dengan arsitektur yang lebih maju dan dataset pra-pelatihan yang lebih besar. Kami merilis hasil mentah eksperimen kami beserta kode yang memungkinkan peneliti menguji backbone mereka sendiri di sini: https://github.com/hsouri/Battle-of-the-Backbones
Tautan makalah
https://arxiv.org/abs/2310.19909
Baca lebih lanjut
https://x.com/micahgoldblum/status/1719719308882801045
ChipNeMo: LLM yang Diadaptasi untuk Domain Desain Chip / ChipNeMo: Domain-Adapted LLMs for Chip Design
Pengenalan makalah
- Mengusulkan penggunaan LLM untuk desain chip industri dengan memanfaatkan teknik adaptasi domain; mengevaluasi berbagai aplikasi untuk desain chip seperti chatbot asisten, electronic design automation, dan peringkasan bug; adaptasi domain secara signifikan meningkatkan performa dibanding model serbaguna pada berbagai tugas desain; menggunakan LLM yang diadaptasi untuk domain dalam RAG semakin meningkatkan kualitas jawaban.
> Mengusulkan penggunaan LLM untuk desain chip industri dengan memanfaatkan teknik adaptasi domain; mengevaluasi berbagai aplikasi untuk desain chip seperti chatbot asisten, electronic design automation, dan peringkasan bug; adaptasi domain secara signifikan meningkatkan performa dibanding model serbaguna pada berbagai tugas desain; menggunakan LLM yang diadaptasi untuk domain dalam RAG semakin meningkatkan kualitas jawaban.
Abstrak makalah
- ChipNeMo bertujuan mengeksplorasi aplikasi large language model (LLM) untuk desain chip industri. Alih-alih langsung menerapkan LLM komersial siap pakai atau open source, pendekatan ini mengadopsi teknik adaptasi domain seperti tokenisasi kustom, pretraining lanjutan yang adaptif terhadap domain, supervised fine-tuning (SFT) dengan instruksi spesifik domain, serta model retrieval yang diadaptasi untuk domain tersebut. Metode-metode ini dievaluasi pada tiga aplikasi LLM terpilih untuk desain chip: chatbot asisten engineering, pembuatan skrip EDA, serta peringkasan dan analisis bug. Hasilnya menunjukkan bahwa penggunaan teknik adaptasi domain ini secara signifikan meningkatkan performa LLM dibanding model dasar serbaguna pada tiga aplikasi yang dievaluasi, sehingga ukuran model dapat diperkecil hingga 5x dengan performa yang setara atau lebih baik pada berbagai tugas desain. Temuan ini juga menunjukkan bahwa masih ada ruang perbaikan antara hasil saat ini dan hasil ideal. Unity berharap penelitian lanjutan mengenai pendekatan LLM yang sesuai domain dapat membantu menutup kesenjangan ini di masa depan.
> ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.
Tautan paper
https://arxiv.org/abs/2311.00176
Baca lebih lanjut
https://x.com/omarsar0/status/1720066328961159387
YaRN: Ekstensi jendela konteks yang efisien untuk large language model / YaRN: Efficient Context Window Extension of Large Language Models
Pengantar paper
- Mengusulkan metode yang efisien secara komputasi untuk memperluas jendela konteks llms melampaui jendela konteks saat pretraining; melakukan ekstrapolasi melampaui konteks terbatas dari dataset fine-tuning, dan model telah direproduksi hingga panjang konteks 128k. #yarn
> Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.
Abstrak paper
- Rotary Position Embeddings (RoPE) telah terbukti efektif dalam mengodekan informasi posisi pada language model berbasis transformer. Namun, model-model ini gagal melakukan generalisasi melampaui panjang sekuens yang digunakan saat pelatihan. Sebagai metode yang efisien secara komputasi untuk memperluas jendela konteks model semacam itu, diperkenalkan YaRN (Yet another RoPE extensioN method), yang membutuhkan token 10x lebih sedikit dan langkah pelatihan 2.5x lebih sedikit dibanding metode sebelumnya. Dengan YaRN, ditunjukkan bahwa model LLaMA dapat secara efektif memanfaatkan dan melakukan ekstrapolasi ke panjang konteks yang jauh lebih besar daripada yang dimungkinkan oleh pretraining aslinya, sekaligus melampaui state-of-the-art sebelumnya dalam perluasan jendela konteks. Selain itu, melalui YaRN juga ditunjukkan kemampuan untuk melakukan ekstrapolasi melampaui konteks terbatas dari dataset fine-tuning. Model yang di-fine-tuning menggunakan YaRN telah tersedia secara online dan direproduksi hingga panjang konteks 128k di https://github.com/jquesnelle/yarn
> Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
Tautan paper
https://arxiv.org/abs/2309.00071
Baca lebih lanjut
https://x.com/theemozilla/status/1720107186850877662
https://discuss.pytorch.kr/t/yarn-rope-llm-10-2-5-context-window-128k/…
Open DAC 2023 Dataset dan tantangan untuk penemuan sorben dalam direct air capture / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture
Pengantar paper
- Memperkenalkan dataset yang terdiri dari lebih dari 38 juta perhitungan density functional theory (DFT) pada lebih dari 8.800 material MOF yang mengandung CO2 dan/atau H2O teradsorpsi. Dataset ini mengidentifikasi properti untuk DAC secara langsung, melatih model ML mutakhir untuk mengaproksimasi perhitungan pada level DFT, dan dapat menjadi baseline penting bagi upaya masa depan untuk mengidentifikasi MOF untuk berbagai aplikasi, termasuk DAC.
> Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.
Abstrak paper
- Untuk menghadapi perubahan iklim global, metode baru untuk menghilangkan karbon dioksida sangat dibutuhkan. Direct air capture (DAC) adalah teknologi baru untuk menangkap karbon dioksida langsung dari udara sekitar. Metal-organic frameworks (MOF) telah banyak diteliti sebagai adsorben yang berpotensi dapat disesuaikan untuk DAC. Namun, menemukan adsorben MOF yang menjanjikan untuk DAC merupakan tantangan karena luasnya ruang kimia yang harus dieksplorasi dan kebutuhan untuk memahami material sebagai fungsi dari kelembapan dan suhu. Pure Storage mengeksplorasi pendekatan komputasional yang memanfaatkan inovasi terbaru dalam machine learning (ML), dan memperkenalkan dataset bernama Open DAC 2023 (ODAC23) yang terdiri dari lebih dari 38 juta perhitungan density functional theory (DFT) pada lebih dari 8.800 material MOF yang mengandung CO2 dan/atau H2O teradsorpsi. ODAC23 sejauh ini merupakan dataset terbesar yang saat ini tersedia untuk perhitungan adsorpsi MOF dengan akurasi level DFT. Selain menyelidiki sifat molekul yang teradsorpsi, dataset ini juga menyediakan informasi yang kaya tentang relaksasi struktural MOF, yang dapat berguna dalam banyak konteks di luar aplikasi spesifik untuk DAC. Sejumlah besar MOF dengan sifat yang menjanjikan untuk DAC diidentifikasi langsung dari ODAC23. Selain itu, berdasarkan dataset ini, mereka melatih model machine learning mutakhir untuk melakukan aproksimasi perhitungan pada level DFT. Dataset open-source ini dan model ML awal tersebut akan menjadi baseline penting bagi upaya masa depan untuk mengidentifikasi MOF untuk berbagai aplikasi, termasuk DAC.
> New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
Tautan paper
https://arxiv.org/abs/2311.00341
Baca lebih lanjut
https://x.com/AIatMeta/status/1720143486505341128
Kerangka Kerja Terpadu untuk Menerapkan, Menemukan, dan Mendorong Simetri dalam Machine Learning / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
Pengantar paper
- Menyajikan kerangka kerja metodologis yang terpadu untuk menerapkan, menemukan, dan mendorong simetri dalam machine learning, serta membahas bagaimana ide-ide ini dapat diterapkan pada model ML seperti multilayer perceptrons dan basis function regression.
> Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.
Abstrak paper
- Simetri hadir di seluruh alam dan terus memainkan peran yang semakin sentral dalam fisika dan machine learning. Simetri fundamental, seperti invariansi Poincar'{e}, memungkinkan hukum fisika yang ditemukan di laboratorium di Bumi diekstrapolasikan hingga ke penjuru alam semesta yang paling jauh. Simetri sangat penting untuk mencapai daya ekstrapolasi ini dalam aplikasi machine learning. Misalnya, invariansi translasi dalam klasifikasi gambar memungkinkan model dengan parameter lebih sedikit, seperti convolutional neural networks, dilatih pada dataset yang lebih kecil dan mencapai performa mutakhir. Dalam makalah ini, penulis menyediakan kerangka teoretis dan metodologis terpadu untuk memasukkan simetri ke dalam model machine learning dengan tiga cara: 1. menerapkan simetri yang telah diketahui saat melatih model; 2. menemukan simetri yang belum diketahui dari model atau dataset tertentu; dan 3. mendorong simetri selama pelatihan dengan mempelajari model yang mematahkan simetri dalam kelompok kandidat yang ditentukan pengguna ketika terdapat bukti yang cukup dalam data. Ketiga cara ini memungkinkan penguatan simetri saat melatih model machine learning. Penulis menunjukkan bahwa tugas-tugas ini dapat ditempatkan dalam kerangka matematika umum yang objek pusatnya adalah turunan Lie yang terkait dengan aksi grup Lie fiber-linear pada vector bundles. Penulis memperluas dan menyatukan beberapa hasil yang sudah ada dengan menunjukkan bahwa penerapan dan penemuan simetri adalah tugas aljabar linear yang bersifat dual terhadap struktur bilinear dari turunan Lie. Penulis juga mengusulkan cara baru untuk mendorong simetri dengan memperkenalkan kelas fungsi regularisasi konveks berbasis turunan Lie dan relaksasi nuclear norm untuk memberi penalti pada pelanggaran simetri selama pelatihan model machine learning. Penulis menjelaskan bagaimana gagasan-gagasan ini dapat diterapkan pada berbagai model machine learning, termasuk regresi fungsi basis, penemuan sistem dinamis, multilayer perceptrons, dan neural networks yang bekerja pada medan spasial seperti gambar.
> Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
Tautan makalah
https://arxiv.org/abs/2311.00212
Baca lebih lanjut
https://x.com/eigensteve/status/1720115655050227911
AlphaFold generasi berikutnya / Next Generation AlphaFold
Pengantar makalah
- Melaporkan kemajuan pada iterasi baru AlphaFold yang sangat memperluas cakupan penerapannya, menunjukkan kemampuan prediksi struktur gabungan untuk kompleks yang mencakup protein, asam nukleat, molekul kecil, ion, dan residu termodifikasi, serta menunjukkan akurasi yang lebih tinggi pada interaksi protein-asam nukleat dibandingkan prediktor spesialis.
> Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.
Tautan makalah
https://storage.googleapis.com/deepmind-media/DeepMind.com/…
Baca lebih lanjut
https://x.com/demishassabis/status/1719345831730368596
Model bahasa skala besar memahami dan dapat ditingkatkan oleh stimulus emosional / Large Language Models Understand and Can be Enhanced by Emotional Stimuli
Pengantar makalah
- Menggunakan berbagai AI seperti Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, dan GPT-4 untuk menjalankan eksperimen otomatis pada 45 tugas, mencakup tugas dalam aplikasi deterministik dan generatif yang merepresentasikan skenario evaluasi komprehensif, dan hasil eksperimen menunjukkan bahwa AI memiliki pemahaman tentang kecerdasan emosional.
> Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.
Abstrak makalah
- Kecerdasan emosional sangat memengaruhi perilaku dan interaksi kita sehari-hari. Model bahasa besar (LLM) menunjukkan kinerja yang mengesankan di berbagai tugas dan dipandang sebagai langkah maju menuju kecerdasan umum buatan, tetapi masih belum pasti apakah LLM benar-benar dapat memahami rangsangan emosional psikologis. Memahami dan merespons isyarat emosional memberi manusia keunggulan yang jelas dalam pemecahan masalah. Dalam makalah ini, penulis mengambil langkah pertama untuk mengeksplorasi kemampuan jaringan saraf buatan dalam memahami rangsangan emosional. Untuk itu, mereka terlebih dahulu melakukan eksperimen otomatis pada 45 tugas menggunakan berbagai LLM, termasuk Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, dan GPT-4. Tugas-tugas ini mencakup aplikasi deterministik dan generatif yang merepresentasikan skenario evaluasi yang komprehensif. Eksperimen otomatis menunjukkan bahwa LLM memiliki pemahaman tentang kecerdasan emosional, dan kinerjanya dapat ditingkatkan melalui emotional prompt (gabungan prompt asli dengan rangsangan emosional yang disebut "EmotionPrompt"), misalnya peningkatan kinerja relatif 8,00% pada Instruction Induction dan 115% pada BIG-Bench. Selain tugas deterministik yang dapat dievaluasi secara otomatis menggunakan metrik yang ada, mereka juga melakukan studi manusia dengan 106 partisipan untuk menilai kualitas tugas generatif menggunakan vanilla prompt dan emotional prompt. Hasil studi manusia menunjukkan bahwa emotional prompt secara signifikan meningkatkan hasil tugas generatif (peningkatan rata-rata 10,9% pada metrik performa, kebenaran, dan tanggung jawab). Artikel ini membahas secara mendalam mengapa EmotionPrompt efektif untuk LLM dan faktor-faktor yang dapat memengaruhi kinerjanya. Penulis meyakini bahwa EmotionPrompt membuka jalur baru untuk mengeksplorasi pengetahuan interdisipliner bagi interaksi manusia dan LLM.
Kecerdasan emosional sangat memengaruhi perilaku dan interaksi kita sehari-hari. Meskipun Large Language Models (LLMs) semakin dipandang sebagai langkah menuju kecerdasan umum buatan, dengan kinerja yang mengesankan dalam banyak tugas, masih belum pasti apakah LLM dapat benar-benar memahami rangsangan emosional psikologis. Memahami dan merespons isyarat emosional memberi manusia keunggulan yang khas dalam pemecahan masalah. Dalam makalah ini, kami mengambil langkah pertama untuk mengeksplorasi kemampuan LLM dalam memahami rangsangan emosional. Untuk tujuan ini, kami terlebih dahulu melakukan eksperimen otomatis pada 45 tugas menggunakan berbagai LLM, termasuk Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, dan GPT-4. Tugas kami mencakup aplikasi deterministik dan generatif yang merepresentasikan skenario evaluasi yang komprehensif. Eksperimen otomatis kami menunjukkan bahwa LLM memiliki pemahaman tentang kecerdasan emosional, dan kinerjanya dapat ditingkatkan dengan emotional prompt (yang kami sebut "EmotionPrompt", yang menggabungkan prompt asli dengan rangsangan emosional), misalnya peningkatan kinerja relatif 8,00% pada Instruction Induction dan 115% pada BIG-Bench. Selain tugas-tugas deterministik yang dapat dievaluasi secara otomatis menggunakan metrik yang ada, kami melakukan studi manusia dengan 106 partisipan untuk menilai kualitas tugas generatif menggunakan vanilla prompt maupun emotional prompt. Hasil studi manusia kami menunjukkan bahwa EmotionPrompt secara signifikan meningkatkan kinerja tugas generatif (peningkatan rata-rata 10,9% dalam hal metrik performa, kebenaran, dan tanggung jawab). Kami memberikan pembahasan mendalam mengenai mengapa EmotionPrompt bekerja untuk LLM dan faktor-faktor yang dapat memengaruhi kinerjanya. Kami berpendapat bahwa EmotionPrompt menandai jalur baru untuk mengeksplorasi pengetahuan interdisipliner bagi interaksi manusia-LLM.
Tautan makalah
https://arxiv.org/abs/2307.11760
Baca lebih lanjut
https://x.com/emollick/status/1720135672764285176
FP8-LM: Pelatihan model bahasa besar FP8 / FP8-LM: Training FP8 Large Language Models
Pengenalan makalah
- Menemukan bahwa saat melatih FP8 LLM, sebagian besar variabel, seperti gradien dan status optimizer, dalam pelatihan LLM dapat menggunakan format data presisi rendah tanpa mengorbankan akurasi model dan tanpa memerlukan perubahan pada hiperparameter.
Menemukan bahwa ketika melatih fp8 llms, sebagian besar variabel, seperti gradien dan status optimizer, dalam pelatihan llm dapat menggunakan format data presisi rendah tanpa mengorbankan akurasi model dan tanpa memerlukan perubahan pada hiperparameter.
Abstrak makalah
- Makalah ini membahas format data low-bit FP8 untuk pelatihan model bahasa besar (LLM) yang efisien. Insight utama kami adalah bahwa sebagian besar variabel dalam pelatihan LLM, seperti gradien dan status optimizer, dapat menggunakan format data presisi rendah tanpa menurunkan akurasi model dan tanpa perlu mengubah hyper-parameter. Secara khusus, Unity mengusulkan framework mixed-precision otomatis FP8 baru untuk melatih LLM. Framework ini menyediakan tiga tingkat pemanfaatan FP8 untuk menyederhanakan mixed-precision dan pelatihan paralel terdistribusi untuk LLM. Framework ini mengintegrasikan gradien 8-bit, status optimizer, dan pembelajaran terdistribusi secara bertahap. Hasil eksperimen menunjukkan bahwa saat melatih model GPT-175B pada platform GPU H100, framework pelatihan mixed-precision FP8 milik Unity tidak hanya mengurangi penggunaan memori aktual sebesar 42%, tetapi juga berjalan 64% lebih cepat daripada framework BF16 yang banyak diadopsi (misalnya Megatron-LM), melampaui kecepatan Nvidia Transformer Engine sebesar 17%. Karena itu, biaya pelatihan model foundation berskala besar dapat dikurangi secara signifikan. Selain itu, metodologi pelatihan mixed-precision FP8 milik Unity bersifat umum. Metode ini dapat diterapkan dengan mulus pada tugas lain seperti instruction tuning LLM dan reinforcement learning dengan umpan balik manusia, sehingga dapat menghemat biaya fine-tuning. Framework pelatihan presisi rendah FP8 milik Unity tersedia sebagai open source di {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
> Dalam makalah ini, kami mengeksplorasi format data low-bit FP8 untuk pelatihan model bahasa besar (LLM) yang efisien. Insight utama kami adalah bahwa sebagian besar variabel, seperti gradien dan status optimizer, dalam pelatihan LLM dapat menggunakan format data presisi rendah tanpa mengorbankan akurasi model dan tanpa memerlukan perubahan pada hyper-parameter. Secara khusus, kami mengusulkan framework mixed-precision otomatis FP8 baru untuk pelatihan LLM. Framework ini menawarkan tiga tingkat pemanfaatan FP8 untuk menyederhanakan mixed-precision dan pelatihan paralel terdistribusi untuk LLM. Framework ini secara bertahap menggabungkan gradien 8-bit, status optimizer, dan pembelajaran terdistribusi secara inkremental. Hasil eksperimen menunjukkan bahwa selama pelatihan model GPT-175B pada platform GPU H100, framework pelatihan mixed-precision FP8 kami tidak hanya mencapai pengurangan luar biasa sebesar 42% dalam penggunaan memori nyata, tetapi juga berjalan 64% lebih cepat daripada framework BF16 yang diadopsi luas (yaitu Megatron-LM), melampaui kecepatan Nvidia Transformer Engine sebesar 17%. Hal ini sangat mengurangi biaya pelatihan untuk model foundation berskala besar. Selain itu, metodologi pelatihan mixed-precision FP8 kami bersifat generik. Metode ini dapat diterapkan dengan mulus pada tugas lain seperti instruction tuning LLM dan reinforcement learning dengan umpan balik manusia, sehingga menghemat biaya fine-tuning. Framework pelatihan presisi rendah FP8 kami tersedia sebagai open source di {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Tautan makalah
https://arxiv.org/abs/2310.18313
Baca lebih lanjut
https://x.com/arankomatsuzaki/status/1718813303223222765
Artikel asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-2e0
Belum ada komentar.