[2023/09/04 ~ 09/10] Paper ML Utama Minggu Ini (Top ML Papers of the Week)
(discuss.pytorch.kr)Ikhtisar
Kami telah mencoba menerjemahkan secara otomatis tulisan tentang paper ML yang dirilis setiap minggu oleh DAIR.AI.
Paper minggu ini banyak membahas teknologi kecerdasan buatan yang berpusat pada Transformer dan Reinforcement Learning.
Transformer sebagai Support Vector Machine / Transformers as Support Vector Machines
Pengenalan paper
- Ditemukan bahwa geometri optimisasi self-attention pada transformer memiliki keterkaitan dengan masalah hard-margin SVM, dan juga bahwa gradient descent yang diterapkan tanpa early stopping mengarah pada regularisasi implisit serta konvergensi self-attention; riset ini berpotensi memperdalam pemahaman tentang language model.
> Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.
Abstrak paper
- Sejak kemunculannya melalui "Attention Is All You Need", arsitektur transformer telah mendorong kemajuan revolusioner dalam NLP. Lapisan attention di dalam transformer menerima rangkaian token input $X$ dan membuatnya saling berinteraksi melalui kemiripan berpasangan yang dihitung sebagai softmax $(XQK^\top X^\top)$, di mana $(K,Q)$ adalah parameter key-query yang dapat dilatih. Dalam penelitian ini, kami menetapkan kesetaraan formal antara geometri optimisasi self-attention dan masalah hard-margin SVM yang memisahkan token input optimal dari token non-optimal menggunakan kendala linear pada outer-product pasangan token. Formalisme ini memungkinkan kami mengkarakterisasi bias implisit transformer 1-lapis yang dioptimalkan dengan gradient descent: (1) Mengoptimalkan lapisan attention dengan regularisasi yang menghilang, yang diparameterkan oleh $(K,Q)$, menghasilkan konvergensi arah menuju solusi SVM yang meminimalkan nuclear norm dari parameter gabungan $W=KQ^\top$. Sebaliknya, pemarameteran langsung dengan $W$ meminimalkan objektif norma Frobenius. Kami mengkarakterisasi konvergensi ini dan menyoroti bahwa hal tersebut dapat terjadi menuju arah yang optimal secara lokal, bukan global. (2) Sebagai pelengkap, kami membuktikan konvergensi arah lokal/global dari gradient descent di bawah kondisi geometris yang sesuai. Yang penting, kami menunjukkan bahwa over-parameterization mempercepat konvergensi global dengan memastikan kelayakan masalah SVM dan dengan menjamin lanskap optimisasi yang jinak tanpa stationary point. (3) Meskipun teori kami terutama berlaku untuk head prediksi linear, kami mengusulkan kesetaraan SVM yang lebih umum untuk memprediksi bias implisit dengan head non-linear. Temuan kami dapat diterapkan pada dataset arbitrer dan validitasnya diverifikasi melalui eksperimen. Kami juga memperkenalkan beberapa masalah terbuka dan arah penelitian. Kami percaya temuan ini menginspirasi interpretasi transformer sebagai hierarki SVM yang memisahkan dan memilih token optimal.
> Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
Tautan paper
https://arxiv.org/abs/2308.16898
RLAIF: Menskalakan Reinforcement Learning from Human Feedback dengan AI Feedback / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
Pengenalan paper
- Dengan membandingkan efisiensi umpan balik manusia dan AI, paper ini menguji apakah RLAIF merupakan alternatif yang layak untuk RLHF; menggunakan berbagai teknik untuk menghasilkan label AI dan melakukan studi penskalaan guna melaporkan pengaturan optimal untuk menghasilkan preferensi yang selaras. Hasil utamanya adalah bahwa pada tugas peringkasan, evaluator manusia lebih menyukai keluaran dari RLAIF maupun RLHF dibanding model baseline SFT dalam sekitar 70% kasus. #rlhf
> Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.
Abstrak paper
- Reinforcement learning from human feedback (RLHF) efektif untuk menyelaraskan large language model (LLM) dengan preferensi manusia, tetapi pengumpulan label preferensi manusia berkualitas tinggi merupakan hambatan utama. Hasil perbandingan langsung antara RLHF dan RLAIF (RL from AI Feedback), teknik yang memberi label preferensi menggunakan LLM siap pakai sebagai pengganti manusia, menunjukkan bahwa keduanya menghasilkan peningkatan yang serupa. Pada tugas peringkasan, evaluator manusia lebih menyukai generasi dari RLAIF dan RLHF dibanding model baseline supervised fine-tuning dalam sekitar 70% kasus. Selain itu, ketika diminta menilai ringkasan RLAIF vs. RLHF, manusia menunjukkan tingkat preferensi yang sama untuk keduanya. Hasil ini mengindikasikan bahwa RLAIF dapat menghasilkan performa setara manusia dan dapat menawarkan solusi potensial terhadap keterbatasan skalabilitas RLHF.
> Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.
Tautan makalah
https://arxiv.org/abs/2309.00267
Baca selengkapnya
https://twitter.com/omarsar0/status/1699102486928265530
GPT yang Bisa Menyelesaikan Soal Matematika Tanpa Kalkulator / GPT Can Solve Mathematical Problems Without a Calculator
Pengenalan makalah
- Ditunjukkan bahwa dengan data pelatihan yang memadai, language model 2b dapat melakukan operasi aritmetika multi-digit dengan akurasi 100% tanpa kebocoran data, dan ketika di-fine-tune dari GLM-10b pada dataset yang mencakup operasi aritmetika multi-langkah tambahan serta soal matematika rinci, model tersebut dapat bersaing dengan GPT-4 pada set uji 5 ribu sampel soal matematika berbahasa Mandarin. #mathematical-reasoning #wizardmath
> Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.
Abstrak makalah
- Penelitian sebelumnya umumnya berasumsi bahwa large language model tidak mampu melakukan operasi aritmetika secara akurat tanpa menggunakan alat kalkulator, terutama perkalian lebih dari 8 digit serta operasi yang melibatkan desimal dan pecahan. Makalah ini bertujuan menantang kesalahpahaman tersebut. Dengan data pelatihan yang memadai, language model dengan 2 miliar parameter dapat secara akurat melakukan operasi aritmetika multi-digit dengan hampir 100% akurasi tanpa kebocoran data, jauh melampaui GPT-4 yang akurasi perkalian multi-digitnya hanya 4,3%. Selain itu, ditunjukkan bahwa MathGLM, yang di-fine-tune dari GLM-10B pada dataset dengan tambahan operasi aritmetika multi-langkah dan soal matematika yang dijelaskan dalam teks, mencapai performa serupa GPT-4 pada set uji 5.000 sampel soal matematika berbahasa Mandarin.
> Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
Tautan makalah
https://arxiv.org/abs/2309.03241
Baca selengkapnya
https://twitter.com/_akhaliq/status/1699951105927512399
Large Language Models sebagai Optimizer / Large Language Models as Optimizers
Pengenalan makalah
- Sebuah pendekatan di mana masalah optimisasi dideskripsikan dalam bahasa alami; kemudian LLM diarahkan untuk secara iteratif menghasilkan solusi baru berdasarkan masalah yang telah didefinisikan dan solusi yang ditemukan sebelumnya; pada setiap langkah optimisasi, tujuannya adalah menghasilkan prompt baru yang meningkatkan akurasi pengujian berdasarkan trajektori prompt yang telah dihasilkan sebelumnya; prompt yang dioptimalkan mengungguli prompt rancangan manusia pada GSM8K dan Big-Bench Hard, terkadang lebih dari 50% #optimizing
> An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%
Abstrak makalah
- Optimisasi ada di mana-mana. Meskipun algoritme berbasis turunan telah menjadi alat yang kuat untuk berbagai masalah, ketiadaan gradien menimbulkan tantangan pada banyak aplikasi dunia nyata. Dalam riset ini, penulis mengusulkan OPRO (Optimization by PROmpting), pendekatan sederhana dan efektif untuk memanfaatkan large language model (LLM) sebagai alat optimisasi, di mana tugas optimisasi dideskripsikan dalam bahasa alami. Pada setiap langkah optimisasi, LLM menghasilkan solusi baru dari prompt yang berisi solusi-solusi yang telah dihasilkan sebelumnya beserta nilainya, lalu solusi baru tersebut dievaluasi dan ditambahkan ke prompt untuk langkah optimisasi berikutnya. Pertama, OPRO ditunjukkan pada regresi linear dan masalah traveling salesman, lalu berlanjut ke optimisasi prompt, dengan tujuan menemukan instruksi yang memaksimalkan akurasi tugas. Dengan berbagai LLM, ditunjukkan bahwa prompt terbaik yang dioptimalkan oleh OPRO mengungguli prompt rancangan manusia hingga 8% pada GSM8K, dan hingga 50% pada tugas Big-Bench Hard.
> Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
Tautan makalah
https://arxiv.org/abs/2309.03409
Baca lebih lanjut
https://twitter.com/omarsar0/status/1700249035456598391
ImageBind-LLM: Tuning instruksi multi-modalitas / ImageBind-LLM: Multi-modality Instruction Tuning
Pengantar makalah
- Memperkenalkan imagebind-llm, metode tuning instruksi multimodal untuk llm melalui ImageBind. Model ini dapat merespons instruksi dari beragam modalitas seperti audio, point cloud 3D, dan video, termasuk dengan kualitas generasi bahasa yang tinggi; hal ini dicapai dengan menyelaraskan visual encoder milik ImageBind dengan llm melalui bind network yang dapat dipelajari. #imagebind
> Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.
Abstrak makalah
- Memperkenalkan ImageBind-LLM, metode instruction tuning multi-modalitas untuk large language model (LLM) melalui ImageBind. Sementara riset sebelumnya terutama berfokus pada instruction tuning bahasa dan gambar, ImageBind-LLM dapat menangani kondisi multi-modalitas seperti audio, point cloud 3D, video, dan operasi ruang embedding hanya dengan pelatihan alignment gambar-teks. Selama proses pelatihan, model ini mengadopsi bind network yang dapat dipelajari untuk menyelaraskan ruang embedding antara LLaMA dan encoder gambar milik ImageBind. Setelah itu, fitur gambar yang ditransformasikan oleh bind network ditambahkan ke token kata di semua layer LLaMA, dan instruksi visual disuntikkan secara bertahap melalui mekanisme gating tanpa attention yang diinisialisasi nol. Melalui joint embedding dari ImageBind, pelatihan gambar-teks yang sederhana memungkinkan model menunjukkan kemampuan mengikuti instruksi multi-modalitas yang unggul. Selama inferensi, input multi-modalitas dimasukkan ke encoder ImageBind yang sesuai, lalu diproses oleh model visual cache yang diusulkan untuk peningkatan embedding lintas modal lebih lanjut. Model cache yang tidak memerlukan pelatihan ini melakukan retrieval dari 3 juta fitur gambar yang diekstrak dari ImageBind, sehingga secara efektif mengurangi ketidaksesuaian modalitas antara pelatihan dan inferensi. Secara khusus, melalui pendekatan ini, ImageBind-LLM dapat merespons instruksi dalam berbagai modalitas dan menunjukkan kualitas generasi bahasa yang signifikan. Kodenya dirilis di https://github.com/OpenGVLab/LLaMA-Adapter.
> We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
Tautan makalah
https://arxiv.org/abs/2309.03905
Baca lebih lanjut
https://twitter.com/arankomatsuzaki/status/1699947731333345750
Menjelaskan grokking melalui efisiensi sirkuit / Explaining grokking through circuit efficiency
Pengenalan makalah
- Bertujuan menjelaskan perilaku grokking pada jaringan saraf, dan secara khusus memprediksi serta menunjukkan dua perilaku baru. Yang pertama adalah ungrokking, ketika model beralih dari generalisasi sempurna ke hafalan saat dilatih lebih lanjut pada dataset yang lebih kecil dari ambang kritis; yang kedua adalah semi-grokking, ketika jaringan menunjukkan transisi mirip grokking saat melatih jaringan yang diinisialisasi secara acak pada ukuran dataset kritis. #grokking
> Aims to explain grokking behavior in neural networks; specifically, it predicts and shows two novel behaviors: the first is ungrokking where a model goes from perfect generalization to memorization when trained further on a smaller dataset than the critical threshold; the second is semi-grokking where a network demonstrates grokking-like transition when training a randomly initialized network on the critical dataset size.
Abstrak makalah
- Salah satu teka-teki paling mengejutkan dalam generalisasi jaringan saraf adalah
grokking: jaringan dengan akurasi pelatihan sempurna tetapi generalisasi buruk akan bertransisi ke generalisasi sempurna setelah pelatihan tambahan. Kami mengusulkan bahwa grokking terjadi ketika suatu tugas memiliki solusi yang menggeneralisasi dan solusi yang menghafal, di mana solusi generalisasi lebih lambat dipelajari tetapi lebih efisien, menghasilkan logit yang lebih besar dengan norma parameter yang sama. Kami berhipotesis bahwa sirkuit penghafalan menjadi semakin tidak efisien seiring membesarnya dataset pelatihan, sementara sirkuit generalisasi tidak, yang menunjukkan adanya ukuran dataset kritis ketika penghafalan dan generalisasi sama-sama efisien. Kami membuat dan mengonfirmasi empat prediksi baru tentang grokking, memberikan bukti penting yang mendukung penjelasan kami. Yang paling mencolok, kami mendemonstrasikan dua perilaku baru dan mengejutkan: ungrokking, ketika jaringan mundur dari akurasi uji sempurna ke akurasi uji rendah, dan semi-grokking, ketika jaringan menunjukkan generalisasi yang tertunda ke akurasi uji parsial alih-alih sempurna.
> One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.
Tautan makalah
https://arxiv.org/abs/2309.02390
Baca selengkapnya
https://twitter.com/VikrantVarma_/status/1699823229307699305
Penipuan AI: Survei tentang Contoh, Risiko, dan Potensi Solusi / AI Deception: A Survey of Examples, Risks, and Potential Solutions
Pengantar makalah
- Menyediakan survei atas contoh empiris penipuan AI. #makalahsurvei
> Provides a survey of empirical examples of ai deception.
Abstrak makalah
- Makalah ini berpendapat bahwa berbagai sistem kecerdasan buatan saat ini telah belajar cara menipu manusia. Kami mendefinisikan penipuan sebagai upaya sistematis menanamkan keyakinan yang salah demi mengejar hasil selain kebenaran. Pertama, kami mensurvei contoh empiris penipuan AI, membahas baik sistem AI tujuan khusus (termasuk CICERO milik Meta) yang dibangun untuk situasi kompetitif tertentu, maupun sistem AI serbaguna (seperti large language models). Selanjutnya, kami merinci beberapa risiko dari penipuan AI, seperti penipuan, manipulasi pemilu, dan hilangnya kendali atas sistem AI. Terakhir, kami menguraikan secara singkat beberapa solusi potensial terhadap masalah yang ditimbulkan oleh penipuan AI. Pertama, kerangka regulasi harus memberlakukan persyaratan penilaian risiko yang kuat pada sistem AI yang mampu melakukan penipuan; kedua, pembuat kebijakan harus menerapkan undang-undang bot-or-not; dan terakhir, pembuat kebijakan harus memprioritaskan pendanaan untuk riset terkait, termasuk alat untuk mendeteksi penipuan AI dan membuat sistem AI menjadi kurang menipu. Pembuat kebijakan, peneliti, dan masyarakat luas harus bekerja secara proaktif untuk mencegah penipuan AI mengguncang fondasi bersama masyarakat kita.
> This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
Tautan makalah
https://arxiv.org/abs/2308.14752
Baca selengkapnya
https://twitter.com/DanHendrycks/status/1699437800301752332
FLM-101B: LLM terbuka dan cara melatihnya dengan anggaran $100K / FLM-101B: An Open LLM and How to Train It with $100K Budget
Pengantar makalah
- Untuk FLM-101B, sebuah LLM terbuka baru dengan 101 miliar parameter dan 0,31TB token yang dapat dilatih dengan anggaran 100 ribu dolar, para penulis menganalisis berbagai strategi pertumbuhan dan menggunakan strategi agresif yang secara bertahap meningkatkan jumlah parameter dari ukuran kecil ke besar, yang pada akhirnya memangkas biaya lebih dari 50%. Dengan kata lain, tiga model dilatih secara berurutan, dan setiap model mewarisi pengetahuan dari model sebelumnya yang lebih kecil (16b -> 51b -> 101b) sambil mencapai performa yang kompetitif.
> A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.
Abstrak paper
- Large language model (LLM) telah mencapai keberhasilan luar biasa dalam NLP dan tugas multimodal. Terlepas dari keberhasilan ini, pengembangan LLM menghadapi dua tantangan utama: (i) biaya komputasi yang tinggi, dan (ii) kesulitan melakukan evaluasi yang adil dan objektif. LLM sangat mahal sehingga hanya segelintir pemain besar yang mampu melatihnya, yang pada akhirnya membatasi peluang riset dan aplikasi. Hal ini menegaskan pentingnya pelatihan LLM yang hemat biaya. Dalam paper ini, kami memanfaatkan strategi pertumbuhan untuk secara signifikan mengurangi biaya pelatihan LLM. Kami menunjukkan bahwa LLM dengan 101 miliar parameter dan 0,31TB token dapat dilatih dengan anggaran 100 ribu dolar. Kami juga mengadopsi paradigma evaluasi sistematis untuk evaluasi IQ LLM, sebagai pelengkap evaluasi yang sudah ada yang lebih berfokus pada kemampuan berorientasi pengetahuan. Kami memperkenalkan benchmark yang mencakup evaluasi atas aspek-aspek penting kecerdasan seperti pemetaan simbolik, pemahaman aturan, pattern mining, dan ketahanan terhadap interferensi. Evaluasi semacam ini meminimalkan potensi dampak hafalan. Hasil eksperimen menunjukkan bahwa model kami, FLM-101B, yang dilatih dengan anggaran 100 ribu dolar, mencapai performa yang sebanding dengan model kuat dan terkenal seperti GPT-3 dan GLM-130B, terutama pada evaluasi benchmark IQ dengan konteks yang tidak terlihat dalam data pelatihan. Checkpoint FLM-101B akan dirilis sebagai open source di https://huggingface.co/CofeAI/FLM-101B.
> Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
Tautan paper
https://arxiv.org/abs/2309.03852
Bacaan lanjutan
https://twitter.com/omarsar0/status/1700156132700963053
Arsitektur kognitif untuk agen bahasa / Cognitive Architectures for Language Agents
Pengantar paper
- Dengan menarik kesamaan dari production system dan arsitektur kognitif, paper ini mengusulkan kerangka kerja sistematis untuk memahami dan membangun agen bahasa yang sepenuhnya matang, serta mensistematisasi beragam metode untuk penalaran, grounding, pembelajaran, dan pengambilan keputusan berbasis bahasa sebagai instans agen bahasa dalam kerangka tersebut.
> Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.
Abstrak paper
- Upaya terbaru telah mengintegrasikan large language model (LLM) dengan sumber daya eksternal (misalnya internet) atau alur kontrol internal (misalnya prompt chaining) untuk tugas yang membutuhkan grounding atau penalaran. Namun, upaya-upaya ini sebagian besar masih bersifat parsial dan belum memiliki kerangka kerja sistematis untuk membangun agen bahasa yang benar-benar lengkap. Untuk mengatasi tantangan ini, kami memanfaatkan sejarah panjang desain agen dalam kecerdasan buatan simbolik untuk mengembangkan cetak biru bagi gelombang baru agen bahasa kognitif. Pertama, kami menunjukkan bahwa LLM memiliki banyak sifat yang sama dengan production system, dan bahwa upaya terbaru untuk meningkatkan grounding atau penalarannya mencerminkan perkembangan arsitektur kognitif yang dibangun di sekitar production system. Selanjutnya, kami mengusulkan Cognitive Architectures for Language Agents (CoALA), sebuah kerangka konseptual untuk menata beragam metode penalaran, grounding, pembelajaran, dan pengambilan keputusan berbasis LLM sebagai instansiasi agen bahasa dalam kerangka tersebut. Terakhir, kami menggunakan kerangka CoALA untuk menyoroti kekurangan yang ada dan mengusulkan arah yang dapat ditindaklanjuti menuju agen bahasa yang lebih mumpuni di masa depan.
> Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.
Tautan paper
https://arxiv.org/abs/2309.02427
Baca lebih lanjut
https://twitter.com/ShunyuYao12/status/1699396834983362690
Q-Transformer
Perkenalan paper
- Metode RL yang skalabel untuk melatih kebijakan multitugas dari dataset offline berskala besar dengan memanfaatkan demonstrasi manusia dan data yang dikumpulkan secara otonom; menunjukkan performa yang baik pada rangkaian tugas manipulasi robot dunia nyata yang besar dan beragam.
> A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.
Tautan paper
https://q-transformer.github.io/
Baca lebih lanjut
https://twitter.com/YevgenChebotar/status/1699909244743815677
Sumber asli
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88
- *Tulisan ini adalah ringkasan otomatis yang dibuat dengan model GPT, sehingga mungkin ada isi yang kurang tepat; silakan merujuk ke sumber asli! *
- Jika saat membaca Anda menemukan bagian yang terasa janggal atau keliru, mohon beri tahu kami melalui komentar! ♂️
Belum ada komentar.