Ulang Tahun Pertama Peluncuran ChatGPT: Pengejaran Model Bahasa Besar Open-Source
- ChatGPT yang dirilis pada akhir 2022 membawa perubahan besar di seluruh bidang AI.
- Model bahasa besar (LLM) disesuaikan melalui pembelajaran terawasi dan reinforcement learning dari umpan balik manusia, sehingga menunjukkan kemampuan untuk menjawab pertanyaan manusia dan mengikuti instruksi dalam berbagai tugas.
- Setelah keberhasilan ini, minat terhadap LLM meningkat di kalangan akademisi dan industri, banyak startup berfokus pada LLM, dan LLM open-source berkembang pesat serta diklaim menunjukkan performa yang setara atau lebih baik daripada ChatGPT pada tugas-tugas tertentu.
Dampak terhadap riset dan bisnis
- Meskipun LLM closed-source (misalnya GPT dari OpenAI, Claude dari Anthropic) umumnya menunjukkan performa yang lebih unggul dibanding model open-source, perkembangan LLM open-source berlangsung cepat dan ada klaim bahwa pada sebagian tugas mereka telah mencapai performa yang setara atau lebih baik.
- Perkembangan ini membawa dampak penting bukan hanya bagi riset, tetapi juga bagi bisnis.
Opini GN⁺
- Menandai ulang tahun pertama peluncuran ChatGPT, hal pentingnya adalah bahwa model bahasa besar open-source berkembang dengan cepat dan pada tugas tertentu menunjukkan performa yang mirip atau lebih baik daripada ChatGPT.
- Ini berdampak besar pada riset maupun bisnis, dan dapat berkontribusi dalam mendorong demokratisasi serta inovasi teknologi AI.
- Artikel ini menawarkan bahasan menarik bagi orang-orang yang tertarik pada perkembangan teknologi AI dan dampaknya terhadap masyarakat.
1 komentar
Opini Hacker News
Model besar dan kuat yang dirilis dalam beberapa hari terakhir:
Demonstrasi kemampuan llama2 1,3 miliar parameter yang di-fine-tune dengan qlora:
Tampaknya akan menjadi kebutuhan untuk menempatkan prompt router di depan berbagai model terspesialisasi (kode, chat, matematika, SQL, kesehatan, dll):
Saat ini model sekitar 70B setara dengan ChatGPT 3.5, dan model kecil mungkin awalnya terlihat mirip, tetapi lebih sering berhalusinasi dan kurang memiliki pengetahuan tentang dunia
GPT 4 "memahami" pada level yang lebih dalam, dan model open source masih belum sebanding
Teknologi open source memiliki fitur kontrol output yang tidak diimplementasikan OpenAI (misalnya grammar di llama.cpp atau ControlNet), jadi dalam aspek ini open source lebih maju daripada OpenAI
Berbagi pengalaman menggunakan model DeepSeek 67B:
Mistral OpenOrca untuk penulisan kreatif/analisis hampir setara dengan GPT4-turbo, dan cenderung menghasilkan teks yang mirip
Dalam jangka panjang, hampir tak terelakkan bahwa LLM open source akan menyusul, dan komunitas open source meski sumber dayanya jauh lebih terbatas telah sangat mempercepat laju pengembangan model dengan parameter <30B
Berdasarkan pengalaman pribadi, LLM open source belum mencapai kualitas GPT 3.5, tetapi sudah berguna saat ini dan bisa dijalankan di mesin lokal
Menggunakan plugin Neovim gen.nvim untuk melakukan tugas-tugas sederhana dan menghemat banyak waktu
Mengungkapkan antusiasme terhadap masa depan
Yakin bahwa model open source sedang mengejar karena GPT4 terus mengalami kemunduran selama sebulan terakhir