2024] Top ML Papers Minggu Ini

(discuss.pytorch.kr)

2 poin oleh ninebow 2024-02-19 | Belum ada komentar. | Bagikan ke WhatsApp

Ikhtisar

Kami telah mencoba menerjemahkan secara otomatis tulisan tentang makalah-makalah ML yang setiap minggu dipublikasikan di DAIR.AI.
Makalah yang dipilih minggu ini mencerminkan tren terbaru dalam bidang pemrosesan bahasa alami, jaringan saraf dalam, dan pembelajaran penguatan. Selain itu, makalah-makalah terkait teknologi Natural Language Processing (NLP) juga mendapat perhatian minggu ini. Selain itu, istilah "World Model" dan "neural network trainability" tampaknya berkaitan dengan aspek teoretis dari pembelajaran penguatan atau jaringan saraf dalam.
Dalam beberapa waktu terakhir, bidang kecerdasan buatan menunjukkan minat besar terhadap perkembangan model bahasa skala besar. Hal ini karena setelah model seperti GPT-3 menunjukkan kinerja yang luar biasa pada berbagai tugas berbasis bahasa, teknologi NLP menjadi topik penting baik dalam penelitian teoretis maupun aplikasi praktis. Model bahasa besar dapat digunakan pada beragam tugas NLP seperti terjemahan, ringkasan, tanya jawab, dan penulisan kreatif, sehingga penelitian untuk memahami dan menyempurnakan model-model tersebut sangat aktif.
Selain itu, konsep seperti "neural network trainability" dan "World Model" mengindikasikan riset mengenai teknologi baru untuk melatih jaringan saraf secara lebih efektif dan memodelkan lingkungan yang lebih kompleks. Di bidang pembelajaran penguatan, fokusnya adalah mengembangkan kemampuan agen untuk menyelesaikan masalah yang lebih kompleks lewat model lingkungan yang lebih canggih, yang juga menjadi tren penting dalam penelitian AI modern.
Tulisan ini disusun menggunakan model GPT, jadi kemungkinan ada bagian yang keliru. Mohon cek juga teks aslinya di bagian bawah! Jika saat membacanya Anda menemukan bagian yang terasa janggal atau salah, mohon beritahu di kolom komentar.

Sora dari OpenAI

Pengenalan makalah

Sebuah model AI text-to-video yang dapat membuat video hingga durasi satu menit berisi adegan realistis dan penuh imajinasi berdasarkan instruksi teks; mampu menghasilkan adegan kompleks dengan beberapa karakter, berbagai jenis gerakan, dan latar belakang, serta memahami hubungan antar unsur; kemampuan lain termasuk membuat beberapa shot dalam satu video dengan konsistensi karakter dan gaya visual.

A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

Tautan makalah

https://openai.com/research/…

Baca selengkapnya

https://discuss.pytorch.kr/t/gn-openai-sora-ai/3519

https://x.com/OpenAI/status/1758192957386342435

Gemini 1.5 / Gemini 1.5

Pengenalan makalah

Sebuah model campuran ahli multimodal yang efisien secara komputasi dengan fokus pada kemampuan seperti recall dan reasoning terhadap konten format panjang; dapat melakukan reasoning pada dokumen panjang yang berpotensi berisi jutaan token, termasuk video dan audio berjam-jam; meningkatkan kinerja state-of-the-art pada long-document QA, long-video QA, dan long-context ASR. Gemini 1.5 pro memiliki performa yang setara atau lebih baik dibanding Gemini 1.0 ultra di berbagai benchmark standar dan mencapai retrieval hampir sempurna (>99%) hingga setidaknya 10 juta token, kemajuan signifikan dibanding LLM konteks panjang lainnya.

A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

Tautan makalah

https://storage.googleapis.com/deepmind-media/gemini/…

Baca selengkapnya

https://discuss.pytorch.kr/t/gn-gemini-1-5/3518

https://x.com/omarsar0/status/1758151923612483839

V-JEPA

Pengenalan makalah

Kumpulan model visi yang dilatih berdasarkan tujuan prediksi fitur menggunakan 2 juta video; bergantung pada pembelajaran mandiri dan tidak menggunakan encoder gambar pra-latih, teks, contoh negatif, rekonstruksi, atau sumber pengawasan lain; mengklaim mencapai representasi visual serbaguna yang berkinerja baik pada tugas berbasis gerakan dan penampilan, tanpa adaptasi parameter model.

A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

Abstrak Makalah (Abstract)

Paper ini membahas prediksi fitur sebagai tujuan berdiri sendiri untuk pembelajaran tak berlabel dari video dan memperkenalkan V-JEPA, yaitu kumpulan model visi yang dilatih hanya menggunakan tujuan prediksi fitur, tanpa encoder gambar pra-latih, teks, contoh negatif, rekonstruksi, atau sumber supervisi lain. Model-model ini dilatih pada 2 juta video yang dikumpulkan dari dataset publik dan dievaluasi pada tugas-tugas gambar dan video downstream. Hasilnya menunjukkan bahwa dengan mempelajari prediksi fitur video, kita dapat memperoleh representasi visual yang serbaguna dengan performa baik pada tugas berbasis gerak maupun penampilan tanpa perlu menyesuaikan parameter model; misalnya, model terbesar yang hanya dilatih pada video, ViT-H/16, dengan backbone yang dibekukan, mencapai akurasi 81.9% pada Kinetics-400, 72.2% pada Something-Something-v2, dan 77.9% pada ImageNet1K.

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

Tautan Paper

https://ai.meta.com/research/publications/…

Baca Lebih Lanjut

https://ai.meta.com/blog/…

https://github.com/facebookresearch/jepa

https://x.com/AIatMeta/status/1758176023588577326

LWM(Large World Model): Model Dunia untuk Video dan Bahasa dengan RingAttention pada Panjang Satu Juta Token / World Model on Million-Length Video And Language With RingAttention

Pengantar Paper

Model multimodal konteks 1M yang serbaguna yang dilatih pada video panjang dan buku menggunakan RingAttention, mengatur tolok ukur baru pada tugas retrieval sulit dan pemahaman video panjang, menggunakan masked sequence packing untuk mencampur berbagai panjang urutan, pembobotan loss, serta dataset QA yang dihasilkan model untuk chat urutan panjang, dan merilis sebagai sumber-terbuka keluarga model 7B parameter yang dapat memproses teks dan video panjang lebih dari 1M token.

A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.

Abstrak (Abstract)

Model bahasa saat ini masih kurang dalam memahami aspek dunia yang sulit dijelaskan dengan kata-kata dan berjuang dengan tugas-tugas rumit bersifat panjang. Urutan video menyediakan informasi temporal berharga yang tidak dimiliki oleh bahasa dan gambar statis, sehingga menjadikannya menarik untuk dimodelkan bersama dengan bahasa. Model semacam ini dapat mengembangkan pemahaman baik terhadap pengetahuan tekstual manusia maupun dunia fisik, yang memungkinkan kemampuan AI yang lebih luas untuk membantu manusia. Namun, mempelajari model dari jutaan urutan video dan bahasa menghadapi tantangan karena keterbatasan memori, kompleksitas komputasi, dan dataset yang terbatas. Untuk mengatasi tantangan ini, mereka mengkurasi dataset besar berisi beragam video dan buku, memanfaatkan teknik RingAttention untuk melatih urutan panjang secara skalabel, dan secara bertahap meningkatkan ukuran konteks dari 4K hingga 1 juta token. Paper ini memberikan kontribusi berikut: (a) Jaringan saraf dengan ukuran konteks terbesar: Melatih salah satu transformer dengan ukuran konteks terbesar pada urutan video dan bahasa yang panjang, menetapkan benchmark baru pada tugas retrieval yang sulit dan pemahaman video panjang. (b) Solusi untuk mengatasi tantangan pelatihan vision-language, termasuk penggunaan masked sequence packing untuk mencampurkan panjang urutan yang berbeda, loss weighting untuk menyeimbangkan bahasa dan visi, serta dataset QA yang dihasilkan model untuk chat urutan panjang. (c) Implementasi sangat teroptimisasi dengan RingAttention, masked sequence packing, dan fitur kunci lain untuk pelatihan urutan multimodal berukuran jutaan. (d) Membuka-source sepenuhnya keluarga model 7B parameter yang mampu memproses dokumen teks panjang (LWM-Text, LWM-Text-Chat) dan video (LWM, LWM-Chat) dengan lebih dari 1M token. Karya ini membuka jalan untuk pelatihan pada dataset raksasa video dan bahasa berurutan panjang guna mengembangkan pemahaman terhadap pengetahuan manusia dan dunia multimodal, serta kemampuan yang lebih luas.

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop an understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Tautan Makalah

https://arxiv.org/abs/2402.08268

Baca Lebih Lanjut

https://largeworldmodel.github.io/

https://huggingface.co/LargeWorldModel

https://x.com/haoliuhl/status/1757828392362389999

Batas keterlatihan jaringan saraf bersifat fraktal / The boundary of neural network trainability is fractal

Pengenalan Makalah

Menemukan bahwa batas antara konfigurasi hiperparameter jaringan saraf yang dapat dilatih dan yang tidak dapat dilatih bersifat fraktal; mengamati lanskap hiperparameter fraktal untuk setiap konfigurasi jaringan saraf dan deep linear networks; serta menemukan bahwa hiperparameter berperforma terbaik berada di ujung stabilitas.

Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

Abstrak (Abstract)

Misalnya, beberapa fraktal yang terkait dengan himpunan Mandelbrot dan Julia kuadrat dihitung dengan cara mengiterasi suatu fungsi, serta mengidentifikasi batas antara hiperparameter di mana deret hasilnya divergen atau tetap terbatas. Pelatihan jaringan saraf juga demikian; ini melibatkan penerapan fungsi pembaruan secara berulang (misalnya langkah berulang gradient descent), dapat menghasilkan perilaku konvergen atau divergen, dan bisa sangat sensitif terhadap perubahan kecil pada hiperparameter. Terinspirasi dari kemiripan ini, kami secara eksperimental memeriksa batas antara hiperparameter jaringan saraf yang mengarah pada pelatihan stabil dan pelatihan divergen. Kami menemukan bahwa batas ini bersifat fraktal dalam skala lebih dari sepuluh dekade di semua konfigurasi yang diuji.

Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

Tautan Makalah

https://arxiv.org/abs/2402.06184

Baca Selengkapnya

https://x.com/jaschasd/status/1756930242965606582

OS-Copilot: Menuju Agen Komputer Generalis dengan Self-Improvement / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Pengantar Makalah

Sebuah kerangka kerja untuk membangun agen komputer generalis yang berinteraksi dengan elemen-elemen kunci sistem operasi seperti Linux atau macOS; juga mengusulkan agen berwujud yang dapat memperbaiki diri sendiri untuk mengotomatisasi tugas komputer umum; agen ini menunjukkan performa 35% lebih baik dibanding metode sebelumnya pada benchmark GAIA untuk asisten AI umum.

a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

Abstrak (Abstract)

Interaksi otonom dengan komputer merupakan tantangan lama dengan potensi besar, dan penyebaran model bahasa besar (LLM) belakangan ini telah secara nyata mempercepat kemajuan dalam pembangunan agen digital. Namun sebagian besar agen ini dirancang untuk berinteraksi dengan domain yang sempit, seperti perangkat lunak atau situs web tertentu. Fokus sempit ini membatasi penerapan pada tugas komputer umum. Untuk tujuan ini, kami memperkenalkan OS-Copilot, sebuah kerangka kerja untuk membangun agen generalis yang mampu berinteraksi dengan elemen komprehensif dalam sistem operasi (OS), termasuk web, terminal kode, file, multimedia, dan berbagai aplikasi pihak ketiga. Kami menggunakan OS-Copilot untuk membuat FRIDAY, agen berwujud yang dapat memperbaiki diri sendiri untuk mengotomatisasi tugas komputer umum. Pada GAIA, benchmark asisten AI umum, FRIDAY mengungguli metode sebelumnya sebesar 35%, menunjukkan generalisasi yang kuat terhadap aplikasi yang belum terlihat melalui keterampilan yang terakumulasi dari tugas-tugas sebelumnya. Kami juga menyajikan bukti numerik dan kuantitatif bahwa FRIDAY mempelajari cara mengontrol dan memperbaiki diri pada Excel dan PowerPoint dengan supervisi minimal. Kerangka kerja OS-Copilot dan temuan empiris kami menyediakan infrastruktur serta wawasan untuk penelitian masa depan menuju agen komputer yang lebih andal dan serbaguna.

Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

Tautan Makalah

https://arxiv.org/abs/2402.07456

Baca Selengkapnya

https://x.com/omarsar0/status/1757443594976206885

TestGen-LLM: Peningkatan Pengujian Unit Otomatis menggunakan Model Bahasa Besar di Meta / Automated Unit Test Improvement using Large Language Models at Meta

Pengantar Makalah

Setelah evaluasi pada produk Reels dan Stories di Instagram, dilaporkan bahwa 75% kasus uji TestGen-LLM dibangun dengan benar, 57% lulus secara andal, dan terjadi peningkatan coverage sebesar 25%.

Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

Abstrak (Abstract)

Makalah ini menjelaskan alat TestGen-LLM milik Meta yang menggunakan LLM untuk secara otomatis meningkatkan pengujian yang sebelumnya dibuat secara manual. TestGen-LLM memverifikasi bahwa kelas uji yang dihasilkannya berhasil melewati serangkaian filter yang menjamin perbaikan terukur dibandingkan suite uji asli, sehingga mengeliminasi masalah yang disebabkan oleh halusinasi LLM. Kami menjelaskan penerapan TestGen-LLM pada test-a-thon Meta untuk platform Instagram dan Facebook. Dalam evaluasi pada produk Reels dan Stories Instagram, 75% kasus uji TestGen-LLM berhasil dibangun dengan benar, 57% lolos secara andal, dan 25% meningkatkan cakupan. Pada test-a-thon Instagram dan Facebook milik Meta, solusi ini meningkatkan 11.5% dari seluruh kelas yang diterapkan, dan 73% rekomendasi yang disarankan diterima untuk deployment produksi oleh insinyur perangkat lunak Meta. Kami percaya ini adalah laporan pertama tentang penerapan kode yang dihasilkan LLM berskala industri dengan jaminan peningkatan kode semacam ini.

This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

Tautan makalah

https://arxiv.org/abs/2402.09171

Baca selengkapnya

https://x.com/nathanbenaich/status/1758036247115608317

ChemLLM: Model Bahasa Besar untuk Bidang Kimia / ChemLLM: A Chemical Large Language Model

Pengenalan makalah

Ini adalah LLM khusus yang dilatih untuk tugas-tugas terkait kimia; diklaim unggul dari GPT-3.5 pada tugas utama seperti konversi nama, caption molekul, dan prediksi reaksi, dan bahkan mengungguli GPT-4 pada dua tugas tersebut.

A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

Abstrak (Abstract)

Model bahasa besar (LLM) telah mencapai kemajuan yang mengesankan di bidang kimia, termasuk prediksi sifat molekul, generasi molekul, dan desain protokol eksperimen. Namun, komunitas ini kekurangan model berbasis percakapan yang secara khusus dirancang untuk kimia. Masalah ini muncul karena sebagian besar data kimia dan pengetahuan ilmiah umumnya tersimpan dalam basis data terstruktur, dan penggunaan langsung data terstruktur ini melemahkan kemampuan model untuk mempertahankan dialog yang koheren. Untuk mengatasi masalah ini, kami mengembangkan metode konstruksi instruksi berbasis templat baru yang mengubah pengetahuan terstruktur menjadi dialog biasa, sehingga sesuai untuk pelatihan model bahasa. Dengan memanfaatkan pendekatan ini, kami mengembangkan ChemLLM, model bahasa besar pertama yang didedikasikan untuk kimia, yang mampu melakukan berbagai tugas di seluruh disiplin kimia melalui interaksi percakapan yang lancar. ChemLLM mengungguli GPT-3.5 pada ketiga tugas utama kimia, yaitu konversi nama, keterangan molekul, dan prediksi reaksi, dan melampaui GPT-4 pada dua di antaranya. Menariknya, ChemLLM juga menunjukkan adaptabilitas luar biasa terhadap tugas matematika dan fisika terkait meskipun dilatih terutama pada korpus berfokus kimia. Selain itu, ChemLLM menunjukkan keahlian dalam tugas NLP khusus kimia, seperti terjemahan literatur dan pemrograman cheminformatik. ChemLLM membuka jalan baru untuk eksplorasi dalam penelitian kimia, dan pendekatan kami dalam mengintegrasikan pengetahuan kimia terstruktur ke dalam sistem percakapan menghadirkan batasan baru untuk pengembangan LLM di berbagai bidang ilmiah. Kode, dataset, dan bobot model tersedia secara publik di hf.co/AI4Chem/ChemLLM-7B-Chat.

Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.

Tautan Paper

https://arxiv.org/abs/2402.06852

Bacaan Lebih Lanjut

https://hf.co/AI4Chem/ChemLLM-7B-Chat

https://x.com/omarsar0/status/1757246740539773165

Model Bahasa Besar: Kertas Tinjauan / Large Language Models: A Survey

Pengenalan Paper

Meninjau tiga keluarga LLM populer (GPT, Llama, PaLM) dan karakteristik, kontribusi, serta keterbatasannya; merangkum kemampuan dan teknik yang dikembangkan untuk membangun dan meningkatkan LLM; juga membahas dataset populer untuk pelatihan, penyetelan halus, dan evaluasi LLM, serta metrik evaluasi LLM; dan diakhiri dengan tantangan yang belum terpecahkan serta arah penelitian masa depan.

Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

Abstrak (Abstract)

Model Bahasa Besar (LLM) telah menarik banyak perhatian berkat kinerja unggulnya pada berbagai tugas bahasa alami sejak rilis ChatGPT pada November 2022. Kemampuan pemahaman dan generasi bahasa serbaguna LLM diperoleh melalui pelatihan miliaran parameter model pada data teks dalam jumlah besar, sebagaimana diprediksi oleh hukum skala \cite{kaplan2020scaling,hoffmann2022training}. Bidang penelitian LLM, meski sangat baru, berkembang dengan sangat cepat dalam banyak hal. Dalam makalah ini, kami meninjau beberapa LLM paling menonjol, termasuk tiga keluarga LLM paling populer (GPT, LLaMA, PaLM), serta membahas karakteristik, kontribusi, dan keterbatasannya. Kami juga menyajikan gambaran umum teknik yang dikembangkan untuk membangun dan memperkuat LLM. Setelah itu, kami meninjau dataset populer yang disiapkan untuk pelatihan, fine-tuning, dan evaluasi LLM, meninjau metrik evaluasi LLM yang banyak digunakan, serta membandingkan kinerja beberapa LLM populer pada serangkaian benchmark representatif. Akhirnya, kami menyimpulkan makalah ini dengan membahas tantangan yang belum terselesaikan dan arah penelitian ke depan.

Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

Tautan Paper

https://arxiv.org/abs/2402.06196

Baca Lebih Lanjut

https://x.com/omarsar0/status/1757049645119799804

Agen LLM dapat meretas situs web secara otonom / LLM Agents can Autonomously Hack Websites

Pengantar Makalah

Menunjukkan bahwa agen LLM dapat secara otomatis meretas situs web dan melakukan tugas seperti injeksi SQL tanpa umpan balik manusia atau pengetahuan eksplisit sebelumnya tentang kerentanannya; hal ini dimungkinkan berkat kemampuan penggunaan alat dan konteks panjang milik LLM; menunjukkan bahwa GPT-4 mampu melakukan peretasan semacam ini, termasuk menemukan kerentanan pada situs web di dunia nyata; model open-source tidak menunjukkan kemampuan yang sama.

Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

Abstrak (Abstract)

Dalam beberapa tahun terakhir, kemampuan model bahasa besar (LLM) makin meningkat dan kini dapat berinteraksi dengan alat (yaitu memanggil fungsi), membaca dokumen, serta memanggil dirinya sendiri secara rekursif. Akibatnya, LLM ini kini dapat berfungsi secara otonom sebagai agen. Dengan meningkatnya kemampuan agen-agen ini, penelitian terbaru memunculkan dugaan bagaimana agen LLM akan memengaruhi keamanan siber. Namun, kemampuan ofensif agen LLM belum banyak diketahui. Dalam penelitian ini, kami menunjukkan bahwa agen LLM dapat secara otonom meretas situs web, melakukan tugas kompleks seperti ekstraksi skema basis data secara buta dan injeksi SQL tanpa umpan balik manusia. Penting untuk dicatat, agen tidak perlu mengetahui kerentanan terlebih dahulu. Kemampuan ini secara unik dimungkinkan oleh model frontier yang sangat cakap dalam penggunaan alat dan pemanfaatan konteks yang diperpanjang. Yaitu, kami menunjukkan bahwa GPT-4 mampu melakukan peretasan semacam itu, sementara model open-source yang ada tidak. Akhirnya, kami menunjukkan bahwa GPT-4 mampu secara otonom menemukan kerentanan pada situs web di dunia nyata. Temuan kami menimbulkan pertanyaan mengenai penyebaran LLM secara luas.

In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

⚠️Iklan⚠️: Apakah artikel ini dari Komunitas Pengguna PyTorch Korea yang disusun oleh kami bermanfaat? Jika Anda mendaftar sebagai anggota, kami akan mengirimkan artikel-artikel penting ke email Anda! (Pengaturannya default ke Weekly, tetapi dapat diubah menjadi Daily.)

[12/02/2024 ~ 18/02/2024] Top ML Papers Minggu Ini

Ikhtisar

Sora dari OpenAI

Pengenalan makalah

Tautan makalah

Baca selengkapnya

Gemini 1.5 / Gemini 1.5

Pengenalan makalah

Tautan makalah

Baca selengkapnya

V-JEPA

Pengenalan makalah

Abstrak Makalah (Abstract)

Tautan Paper

Baca Lebih Lanjut

LWM(Large World Model): Model Dunia untuk Video dan Bahasa dengan RingAttention pada Panjang Satu Juta Token / World Model on Million-Length Video And Language With RingAttention

Pengantar Paper

Abstrak (Abstract)

Tautan Makalah

Baca Lebih Lanjut

Batas keterlatihan jaringan saraf bersifat fraktal / The boundary of neural network trainability is fractal

Pengenalan Makalah

Abstrak (Abstract)

Tautan Makalah

Baca Selengkapnya

OS-Copilot: Menuju Agen Komputer Generalis dengan Self-Improvement / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Pengantar Makalah

Abstrak (Abstract)

Tautan Makalah

Baca Selengkapnya

TestGen-LLM: Peningkatan Pengujian Unit Otomatis menggunakan Model Bahasa Besar di Meta / Automated Unit Test Improvement using Large Language Models at Meta

Pengantar Makalah

Abstrak (Abstract)

Tautan makalah

Baca selengkapnya

ChemLLM: Model Bahasa Besar untuk Bidang Kimia / ChemLLM: A Chemical Large Language Model

Pengenalan makalah

Abstrak (Abstract)

Tautan Paper

Bacaan Lebih Lanjut

Model Bahasa Besar: Kertas Tinjauan / Large Language Models: A Survey

Pengenalan Paper

Abstrak (Abstract)

Tautan Paper

Baca Lebih Lanjut

Agen LLM dapat meretas situs web secara otonom / LLM Agents can Autonomously Hack Websites

Pengantar Makalah

Abstrak (Abstract)

Tautan Paper

Baca Lebih Lanjut

Asli

Bacaan terkait

Belum ada komentar.