5 poin oleh ninebow 2023-10-02 | 2 komentar | Bagikan ke WhatsApp

Ikhtisar

  • Saya telah menerjemahkan secara otomatis artikel tentang makalah ML yang dirilis setiap minggu oleh DAIR.AI.
  • Makalah minggu ini tampaknya sebagian besar berfokus pada LLM (Large Language Models). Di antaranya ada berbagai topik seperti peningkatan algoritme efisiensi proses LLM di beragam lingkungan, Graph Neural Prompting untuk LLM, serta penerapan proses penalaran logis.
  • Di antara makalah yang dipilih minggu ini, makalah seperti 'Boolformer' dan 'Vision Transformers Need Registers' juga menunjukkan tren riset yang memadukan dengan bidang AI lainnya.
  • Dari sini kita dapat melihat bahwa perkembangan teknologi AI bukan hanya soal menggali tiap bidang secara terpisah, tetapi juga merupakan bagian penting dari upaya menggabungkan berbagai bidang untuk mencari pendekatan dan solusi baru.

Kutukan Pembalikan / The Reversal Curse

Pengenalan makalah

  • Ditemukan fakta bahwa jaringan saraf tiruan yang dilatih pada kalimat berbentuk 'a adalah b' tidak secara otomatis melakukan generalisasi ke arah sebaliknya, yaitu 'b adalah a', yang disebut kutukan pembalikan; efek ini ditunjukkan melalui fine-tuning jaringan saraf tiruan pada kalimat fiktif dan pembuktian efeknya di berbagai ukuran model dan keluarga model. #llm-reasoning
    > Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.

Tautan makalah

https://owainevans.github.io/reversal_curse.pdf

Baca lebih lanjut

https://x.com/OwainEvans_UK/status/1705285631520407821

Penskalaan Konteks Panjang yang Efektif pada Foundation Model / Effective Long-Context Scaling of Foundation Models

Pengenalan makalah

  • Mengusulkan varian 70b yang sudah dapat melampaui performa keseluruhan gpt-3.5-turbo-16k pada serangkaian tugas konteks panjang. Ini mencakup prosedur instruction tuning yang hemat biaya dan tidak memerlukan data instruksi panjang beranotasi manusia. #1b-context-window #100k-context-window
    > Propose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.

Abstrak makalah

  • Kami memperkenalkan serangkaian LLM konteks panjang yang mendukung context window efektif hingga 32.768 token. Seri model kami dibangun melalui continual pretraining dari Llama 2 dengan urutan pelatihan yang lebih panjang dan pada dataset tempat teks panjang di-upsample. Kami melakukan evaluasi ekstensif pada language modeling, tugas probing konteks sintetis, dan berbagai benchmark riset. Pada benchmark riset, model kami mencapai peningkatan yang konsisten pada sebagian besar tugas reguler dan peningkatan yang signifikan pada tugas konteks panjang dibandingkan Llama 2. Secara khusus, melalui prosedur instruction tuning yang hemat biaya dan tidak memerlukan data instruksi panjang beranotasi manusia, varian 70B sudah mampu melampaui performa keseluruhan gpt-3.5-turbo-16k pada rangkaian tugas konteks panjang. Bersamaan dengan hasil ini, kami menyajikan analisis mendalam terhadap masing-masing komponen metode kami. Kami menelaah position encoding pada Llama dan membahas keterbatasannya dalam memodelkan dependensi panjang. Kami juga meninjau dampak berbagai pilihan desain dalam proses pretraining, termasuk campuran data dan kurikulum pelatihan untuk panjang urutan — eksperimen ablasi kami menunjukkan bahwa banyaknya teks panjang dalam dataset pretraining bukanlah kunci untuk mencapai performa kuat, dan kami memverifikasi secara empiris bahwa continual pretraining untuk konteks panjang lebih efisien dan memberikan efektivitas yang serupa dibandingkan pretraining dari nol dengan urutan panjang.
    > We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.

Tautan makalah

https://arxiv.org/abs/2309.16039

Baca lebih lanjut

https://x.com/omarsar0/status/1707780482178400261

Graph Neural Prompting dengan Large Language Models

Pengenalan makalah

  • Mengusulkan metode plug-and-play untuk membantu LLM pralatih mempelajari pengetahuan yang bermanfaat dari knowledge graph (KG); mencakup berbagai desain seperti encoder graph neural network standar, modul pooling lintas modalitas, domain projector, dan objective prediksi tautan self-supervised. #knowledge-graph
    > Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.

Abstrak makalah

  • Large Language Models (LLM) telah menunjukkan kemampuan generalisasi yang luar biasa dengan performa unggul dalam berbagai tugas pemodelan bahasa. Namun, model ini masih memiliki keterbatasan bawaan dalam menangkap dan mengembalikan pengetahuan yang terlandas secara presisi. Penelitian sebelumnya telah mengeksplorasi pemanfaatan knowledge graph untuk meningkatkan pemodelan bahasa melalui pelatihan bersama dan arsitektur model yang disesuaikan, tetapi menerapkannya pada LLM sulit dilakukan karena jumlah parameternya yang besar dan biaya komputasi yang tinggi. Selain itu, cara memanfaatkan LLM yang telah dipra-latih dan menghindari pelatihan model kustom dari nol masih menjadi pertanyaan terbuka. Dalam penelitian ini, penulis mengusulkan Graph Neural Prompting (GNP), metode plug-and-play baru untuk membantu LLM yang telah dipra-latih mempelajari pengetahuan yang bermanfaat dari KG. GNP mencakup berbagai desain, termasuk encoder graph neural network standar, modul pooling lintas-modalitas, proyektor domain, dan objective prediksi tautan self-supervised. Eksperimen ekstensif pada berbagai dataset menunjukkan keunggulan GNP pada tugas penalaran commonsense maupun biomedis di berbagai ukuran dan pengaturan LLM.
    > Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.

Tautan makalah

https://arxiv.org/abs/2309.15427

Baca lebih lanjut

https://x.com/omarsar0/status/1707211751354212382

Vision Transformers Need Registers / Vision Transformers Need Registers

Pengantar makalah

  • Mengidentifikasi artefak pada feature map jaringan vision transformer yang dialihfungsikan untuk komputasi internal, dan mengusulkan solusi berupa penyediaan token tambahan pada urutan input untuk menjalankan peran tersebut. Solusi ini memperbaiki masalah, membuat feature dan attention map lebih mulus, serta menetapkan hasil state-of-the-art baru pada tugas prediksi visual padat. #vision-transformer #transformer
    > Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.

Abstrak makalah

  • Transformer belakangan ini muncul sebagai alat yang kuat untuk mempelajari representasi visual. Dalam makalah ini, penulis mengidentifikasi dan mengkarakterisasi artefak pada feature map dari jaringan ViT yang diawasi maupun self-supervised. Artefak tersebut berkaitan dengan token bernorma tinggi yang muncul selama inferensi terutama di area latar belakang gambar yang minim informasi, yang kemudian dialihfungsikan untuk komputasi internal. Penulis mengusulkan solusi yang sederhana namun efektif, yaitu menyediakan token tambahan pada urutan input Vision Transformer untuk menjalankan peran tersebut. Ditunjukkan bahwa solusi ini sepenuhnya memperbaiki masalah itu pada model supervised maupun self-supervised, menetapkan state-of-the-art baru untuk model visual self-supervised pada tugas prediksi visual padat, memungkinkan metode penemuan objek dengan model yang lebih besar, dan yang paling penting menghasilkan feature map serta attention map yang lebih mulus untuk pemrosesan visual downstream.
    > Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.

Tautan makalah

https://arxiv.org/abs/2309.16588

Baca lebih lanjut

https://x.com/TimDarcet/status/1707769575981424866

Boolformer: Regresi Simbolik Fungsi Logika dengan Transformers / Boolformer: Symbolic Regression of Logic Functions with Transformers

Pengantar makalah

  • Menyajikan arsitektur transformer pertama yang dilatih untuk melakukan regresi simbolik end-to-end pada fungsi boolean; model ini dapat memprediksi formula ringkas untuk fungsi yang kompleks dan dapat diterapkan pada pemodelan dinamika jaringan regulasi gen. #transformer
    > Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.

Abstrak makalah

  • Dalam penelitian ini, kami memperkenalkan Boolformer, arsitektur Transformer pertama yang dilatih untuk melakukan symbolic regression fungsi Boolean secara end-to-end. Pertama, kami menunjukkan bahwa model ini dapat memprediksi formula ringkas untuk fungsi kompleks yang tidak terlihat selama pelatihan ketika diberikan tabel kebenaran yang bersih. Lalu, kami mendemonstrasikan kemampuannya untuk menemukan ekspresi perkiraan ketika diberikan observasi yang tidak lengkap dan penuh noise. Kami mengevaluasi Boolformer pada kumpulan luas dataset klasifikasi biner dunia nyata, yang menunjukkan potensinya sebagai alternatif yang dapat diinterpretasikan terhadap metode machine learning klasik. Terakhir, kami menerapkannya pada tugas yang banyak ditemui, yaitu memodelkan dinamika jaringan regulasi gen. Dengan menggunakan benchmark terbaru, kami menunjukkan bahwa Boolformer dapat bersaing dengan genetic algorithm state-of-the-art dengan peningkatan kecepatan hingga beberapa orde magnitudo. Kode dan model tersedia untuk publik.
    > In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.

Tautan makalah

https://arxiv.org/abs/2309.12207

Baca lebih lanjut

https://x.com/stephanedascoli/status/1706235856778834015

Menyelaraskan Model Multimodal Besar dengan RLHF yang Ditingkatkan Secara Faktual / Aligning Large Multimodal Models with Factually Augmented RLHF

Pengantar makalah

  • Menerapkan RLHF yang ditingkatkan secara faktual untuk menyelaraskan model multimodal berskala besar. Pendekatan ini mengurangi reward hacking dalam RLHF dan meningkatkan performa pada dataset llava-bench hingga mencapai 94% tingkat performa GPT-4 yang hanya berbasis teks. #llm-alignment #multimodal #rlhf
    > Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.

Abstrak makalah

  • Large Multimodal Models (LMM) dibangun lintas modalitas, dan ketidakselarasan antara dua modalitas dapat mengakibatkan "halusinasi", yaitu menghasilkan keluaran teks yang tidak berlandaskan informasi multimodal dalam konteks. Untuk mengatasi masalah ketidakselarasan multimodal, kami mengadaptasi Reinforcement Learning from Human Feedback (RLHF) dari domain teks ke tugas penyelarasan vision-language, di mana anotator manusia diminta membandingkan dua respons dan mengidentifikasi mana yang lebih berhalusinasi, lalu model vision-language dilatih untuk memaksimalkan reward manusia yang disimulasikan. Kami mengusulkan algoritma penyelarasan baru bernama Factually Augmented RLHF, yang memperkaya model reward dengan informasi faktual tambahan seperti caption gambar dan opsi pilihan ganda ground-truth, sehingga mengurangi fenomena reward hacking dalam RLHF dan semakin meningkatkan performa. Kami juga memperkaya data pelatihan yang dihasilkan GPT-4 (untuk vision instruction tuning) dengan pasangan gambar-teks yang sebelumnya ditulis manusia untuk meningkatkan kapabilitas umum model kami. Untuk mengevaluasi pendekatan yang diusulkan dalam skenario dunia nyata, kami mengembangkan benchmark evaluasi baru MMHAL-BENCH dengan fokus khusus pada pemberian penalti terhadap halusinasi. Sebagai LMM pertama yang dilatih dengan RLHF, pendekatan kami mencapai peningkatan yang menonjol pada dataset LLaVA-Bench dengan tingkat performa 94% dari GPT-4 berbasis teks saja (sementara metode terbaik sebelumnya hanya dapat mencapai tingkat 87%), serta peningkatan 60% pada MMHAL-BENCH dibanding baseline lainnya. Kode, model, dan data kami tersedia sebagai open source di https://llava-rlhf.github.io.
    > Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.

Tautan makalah

https://arxiv.org/abs/2309.14525

Baca lebih lanjut

https://x.com/arankomatsuzaki/status/1706839311306621182

Penyelarasan Model Bahasa Skala Besar: Sebuah Survei / Large Language Model Alignment: A Survey

Pengantar makalah

  • Ini adalah laporan survei komprehensif tentang penyelarasan LLM yang mencakup topik penyelarasan eksternal, penyelarasan internal, interpretabilitas mekanistik, serangan terhadap LLM yang telah diselaraskan, evaluasi penyelarasan, arah masa depan, dan diskusi. #survey-paper #llm-alignment
    > A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.

Abstrak makalah

  • Dalam beberapa tahun terakhir, model bahasa skala besar (LLM) telah menunjukkan kemajuan yang luar biasa. Kemajuan ini, meskipun menarik perhatian besar, juga sekaligus memunculkan berbagai kekhawatiran. Potensi model-model ini tidak diragukan lagi sangat besar; namun, model tersebut dapat menghasilkan teks yang tidak akurat, menyesatkan, atau bahkan berbahaya. Oleh karena itu, menjadi sangat penting untuk menggunakan teknik penyelarasan agar model-model ini menunjukkan perilaku yang selaras dengan nilai-nilai manusia. Survei ini berupaya memberikan penelusuran yang luas terhadap metodologi penyelarasan yang dirancang untuk LLM, bersamaan dengan penelitian kapabilitas yang sudah ada di bidang ini. Dengan mengadopsi sudut pandang AI alignment, kami mengategorikan metode yang umum digunakan dan usulan baru untuk penyelarasan LLM ke dalam penyelarasan eksternal dan internal. Kami juga menelaah isu-isu penting termasuk interpretabilitas model dan potensi kerentanan terhadap serangan adversarial. Untuk menilai penyelarasan LLM, kami menyajikan berbagai benchmark dan metodologi evaluasi. Setelah membahas keadaan terkini penelitian penyelarasan untuk LLM, kami akhirnya memaparkan visi ke depan dengan mempertimbangkan jalur penelitian menjanjikan yang terbentang di masa depan. Aspirasi kami terhadap survei ini melampaui sekadar mendorong minat riset di ranah ini. Kami juga membayangkan menjembatani kesenjangan antara komunitas riset AI alignment dan para peneliti yang berfokus pada eksplorasi kapabilitas LLM demi LLM yang mumpuni sekaligus aman.
    > Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.

Tautan makalah

https://arxiv.org/abs/2309.15025

Bacaan lanjutan

https://x.com/omarsar0/status/1706845285064818905

Laporan Teknis Qwen / Qwen Technical Report

Pengantar makalah

  • Mengusulkan serangkaian LLM yang menunjukkan kekuatan RLHF pada tugas-tugas yang melibatkan penggunaan alat dan kemampuan perencanaan untuk membangun agen bahasa. #qwen-vl #rlhf
    > Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.

Abstrak makalah

  • Large language model (LLM) telah merevolusi bidang kecerdasan buatan, memungkinkan tugas pemrosesan bahasa alami yang sebelumnya dianggap sebagai ranah eksklusif manusia. Dalam tulisan ini, kami memperkenalkan Qwen, produk pertama dari seri large language model. Qwen adalah seri model bahasa komprehensif yang mencakup berbagai model dengan jumlah parameter yang beragam. Ini mencakup Qwen, model bahasa dasar yang telah dipra-latih, serta Qwen-Chat, model chat yang di-fine-tune dengan teknik penyelarasan manusia. Model bahasa dasar secara konsisten menunjukkan performa unggul di berbagai tugas downstream, dan model chat, khususnya yang dilatih menggunakan Reinforcement Learning from Human Feedback (RLHF), sangat kompetitif. Model chat memiliki kemampuan penggunaan alat dan perencanaan tingkat lanjut untuk membangun aplikasi agen, serta menunjukkan performa mengesankan bahkan ketika dibandingkan dengan model yang lebih besar pada tugas kompleks seperti memanfaatkan code interpreter. Selain itu, mereka juga mengembangkan model khusus coding, yaitu Code-Qwen dan Code-Qwen-Chat, serta model khusus matematika, Math-Qwen-Chat, yang dibangun di atas model bahasa dasar. Model-model ini menunjukkan peningkatan performa yang signifikan dibandingkan model open-source, dan hanya sedikit tertinggal dari model proprietary.
    > Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.

Tautan makalah

https://arxiv.org/abs/2309.16609

Bacaan lanjutan

https://x.com/omarsar0/status/1707776749042364729

MentalLLaMA: Analisis kesehatan mental yang dapat diinterpretasikan di media sosial menggunakan large language model / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models

Pengantar makalah

  • Seri llm open-source untuk analisis kesehatan mental yang dapat diinterpretasikan dengan kemampuan mengikuti instruksi; juga mengusulkan dataset instruksi kesehatan mental yang dapat diinterpretasikan, multitugas dan multisumber di media sosial dengan 105 ribu sampel data. #medical #llm-for-clinical-task #llama
    > An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.

Abstrak makalah

  • Dengan berkembangnya teknologi web, teks media sosial menjadi sumber yang kaya untuk analisis kesehatan mental otomatis. Metode diskriminatif yang ada memiliki masalah interpretabilitas yang rendah, sehingga belakangan ini model bahasa besar diteliti untuk analisis kesehatan mental yang dapat diinterpretasikan di media sosial, dengan tujuan memberikan penjelasan terperinci bersama prediksi. Hasilnya menunjukkan bahwa ChatGPT dapat menghasilkan penjelasan yang mendekati manusia untuk klasifikasi yang benar. Namun, LLM masih mencapai kinerja klasifikasi yang belum memuaskan dalam pendekatan zero-shot/few-shot. Fine-tuning spesifik domain adalah solusi yang efektif, tetapi menghadapi dua tantangan: 1) kurangnya data pelatihan berkualitas tinggi. 2) belum dirilis LLM open-source untuk analisis kesehatan mental yang dapat diinterpretasikan yang dapat menurunkan biaya fine-tuning. Untuk mengatasi masalah ini, Facebook membangun dataset pertama untuk instruksi kesehatan mental yang dapat diinterpretasikan (IMHI) di media sosial, yang bersifat multi-task dan multi-source, dengan 105 ribu sampel data. Data mentah media sosial dikumpulkan dari 10 sumber yang sudah ada dan mencakup 8 tugas analisis kesehatan mental. Dengan menggunakan prompt few-shot yang ditulis pakar dan label yang dikumpulkan, mereka memberi prompt ke ChatGPT dan memperoleh penjelasan dari responsnya. Untuk memastikan keandalan penjelasan, mereka melakukan evaluasi otomatis dan manusia yang ketat terhadap akurasi, konsistensi, dan kualitas data yang dihasilkan. Berdasarkan dataset IMHI dan model fondasi LLaMA2, mereka melatih MentalLLaMA, seri LLM open-source pertama untuk analisis kesehatan mental yang dapat diinterpretasikan dengan kemampuan mengikuti instruksi. Mereka juga mengevaluasi kinerja MentalLLaMA pada benchmark evaluasi IMHI yang terdiri dari 10 test set, dengan memeriksa ketepatan prediksi dan kualitas penjelasannya. Hasilnya menunjukkan bahwa MentalLLaMA mendekati metode diskriminatif state-of-the-art dalam akurasi dan menghasilkan penjelasan berkualitas tinggi.
    > With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.

Tautan makalah

https://arxiv.org/abs/2309.13567

Baca selengkapnya

https://x.com/SAnaniadou/status/1707668936634794442

Meningkatkan penalaran chain-of-thought zero-shot pada model bahasa besar melalui logika / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic

Pengantar makalah

  • Kerangka neurosimbolik baru untuk meningkatkan penalaran chain-of-thought zero-shot pada LLM; memanfaatkan prinsip logika simbolik untuk memverifikasi dan merevisi proses penalaran guna meningkatkan kemampuan penalaran LLM. #chain-of-thought
    > A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.

Abstrak makalah

  • Perkembangan terbaru model bahasa skala besar telah menunjukkan kemampuan generalisasi yang luar biasa di berbagai domain. Namun, kemampuan penalarannya masih memiliki ruang yang cukup besar untuk ditingkatkan, terutama saat menghadapi skenario yang memerlukan penalaran multilangkah. Meskipun model bahasa skala besar memiliki pengetahuan yang luas, perilakunya, khususnya dalam hal penalaran, sering kali gagal memanfaatkan pengetahuan ini secara efektif untuk membangun paradigma berpikir yang koheren. Model bahasa generatif terkadang juga menunjukkan halusinasi karena prosedur penalarannya tidak dibatasi oleh prinsip-prinsip logis. Untuk meningkatkan kemampuan penalaran zero-shot chain-of-thought pada model bahasa skala besar, kami mengusulkan Logical Chain-of-Thought (LogiCoT), sebuah kerangka neurosimbolik yang memanfaatkan prinsip-prinsip logika simbolik untuk memverifikasi dan merevisi proses penalaran sesuai kebutuhan. Evaluasi eksperimental yang dilakukan pada tugas bahasa di berbagai domain, termasuk aritmetika, akal sehat, simbolik, inferensi kausal, dan masalah sosial, menunjukkan efektivitas paradigma penalaran yang ditingkatkan oleh logika.
    > Perkembangan terbaru model bahasa skala besar telah menunjukkan kemampuan generalisasi yang luar biasa di berbagai domain. Namun, kemampuan penalarannya masih memiliki ruang yang cukup besar untuk ditingkatkan, terutama saat menghadapi skenario yang memerlukan penalaran multilangkah. Meskipun model bahasa skala besar memiliki pengetahuan yang luas, perilakunya, khususnya dalam hal penalaran, sering kali gagal memanfaatkan pengetahuan ini secara efektif untuk membangun paradigma berpikir yang koheren. Model bahasa generatif terkadang menunjukkan halusinasi karena prosedur penalarannya tidak dibatasi oleh prinsip-prinsip logis. Untuk meningkatkan kemampuan penalaran zero-shot chain-of-thought pada model bahasa skala besar, kami mengusulkan Logical Chain-of-Thought (LogiCoT), sebuah kerangka neurosimbolik yang memanfaatkan prinsip-prinsip logika simbolik untuk memverifikasi dan merevisi proses penalaran sesuai kebutuhan. Evaluasi eksperimental yang dilakukan pada tugas bahasa di berbagai domain, termasuk aritmetika, akal sehat, simbolik, inferensi kausal, dan masalah sosial, menunjukkan efektivitas paradigma penalaran yang ditingkatkan oleh logika.

Tautan makalah

https://arxiv.org/abs/2309.13339

Baca lebih lanjut

https://x.com/omarsar0/status/1706711389803287019

Sumber asli

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24

2 komentar

 
alstjr7375 2023-10-02

Wow.. saya sangat menikmati membaca tulisan yang dibuat dengan penuh perhatian ini.

 
ninebow 2023-10-03

Terima kasih ^^;