GPT-3 Kini Bukan Satu-satunya Pemain di Pasar
(lastweekin.ai)-
Memang benar GPT-3 memberi guncangan besar pada pasar AI: model AI berskala sangat besar yang kuat dalam pola "text-in text-out"
-
Karena berbayar, banyak organisasi mulai membuat model versi mereka sendiri yang mirip GPT-3
→ Namun ini tidak mudah karena membutuhkan daya komputasi yang besar. OpenAI untuk model 175B parameter bekerja sama dengan Microsoft dan menggunakan 10 ribu GPU serta 45 terabyte data teks
→ Jika dihitung, melatih GPT-3 membutuhkan biaya sekitar 10 hingga 20 miliar won
- Berbagai upaya pun mulai bermunculan
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- Menariknya, upaya pertama untuk membuat sesuatu yang mirip GPT-3 adalah "EleutherAI" yang dibuat oleh para kontributor open source
→ Mereka merilis "The Pile", dataset yang mirip dengan milik GPT-3
→ Setelah itu mereka merilis versi kecil seperti GPT-Neo 1.3B dan 2.7B, lalu baru-baru ini GPT-J-6B dengan 6B parameter
- Enam bulan setelah pengumuman GPT-3, para peneliti dari Universitas Tsinghua di Tiongkok bersama BAAI (Beijing AI Academy) merilis CPM (Chinese Pre-trained Language Model)
→ Mereka membuat model 2.6B parameter dari 100GB teks bahasa Mandarin. Memang belum menyamai GPT-3, tetapi menonjol karena dilatih dengan teks bahasa Mandarin
-
Tak lama kemudian Huawei merilis PanGu-α dengan 200B parameter (menggunakan 1.1TB teks bahasa Mandarin)
-
Naver mengumumkan HyperCLOVA dengan 204B parameter
-
AI21 Labs dari Israel merilis Jurassic-1 dengan 178B parameter
-
NVIDIA dan Microsoft merilis Megatron-Turing NLG dengan 530B parameter
-
Pada dasarnya, model-model yang semakin besar dan serupa dengan GPT-3 terus bermunculan, dan kemungkinan akan terus membesar selama beberapa tahun ke depan
-
Tren bahwa pelatihan model raksasa seperti ini membutuhkan investasi miliaran dolar tampaknya akan terus berlanjut untuk sementara waktu
→ Fakta bahwa hanya perusahaan dengan dukungan dana melimpah yang bisa membuat model seperti ini cukup mengkhawatirkan
-
Sulit memprediksi berapa lama tren ini akan bertahan, atau apakah akan ada penemuan besar yang melampaui GPT-3
-
Saat ini kita berada di tengah perjalanan ini, dan akan menarik untuk melihat apa yang terjadi dalam beberapa tahun ke depan
1 komentar
GPT-Neo: proyek untuk membuat model sekelas GPT-3 menjadi open source/gratis https://id.news.hada.io/topic?id=3599
MS dan Nvidia mengumumkan MT-NLG 530B, model bahasa terbesar di dunia https://id.news.hada.io/topic?id=5187