GPT-3 Kini Bukan Satu-satunya Pemain di Pasar

(lastweekin.ai)

16 poin oleh xguru 2021-11-10 | 1 komentar | Bagikan ke WhatsApp

Memang benar GPT-3 memberi guncangan besar pada pasar AI: model AI berskala sangat besar yang kuat dalam pola "text-in text-out"
Karena berbayar, banyak organisasi mulai membuat model versi mereka sendiri yang mirip GPT-3

→ Namun ini tidak mudah karena membutuhkan daya komputasi yang besar. OpenAI untuk model 175B parameter bekerja sama dengan Microsoft dan menggunakan 10 ribu GPU serta 45 terabyte data teks

→ Jika dihitung, melatih GPT-3 membutuhkan biaya sekitar 10 hingga 20 miliar won

Berbagai upaya pun mulai bermunculan

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

Menariknya, upaya pertama untuk membuat sesuatu yang mirip GPT-3 adalah "EleutherAI" yang dibuat oleh para kontributor open source

→ Mereka merilis "The Pile", dataset yang mirip dengan milik GPT-3

→ Setelah itu mereka merilis versi kecil seperti GPT-Neo 1.3B dan 2.7B, lalu baru-baru ini GPT-J-6B dengan 6B parameter

Enam bulan setelah pengumuman GPT-3, para peneliti dari Universitas Tsinghua di Tiongkok bersama BAAI (Beijing AI Academy) merilis CPM (Chinese Pre-trained Language Model)

→ Mereka membuat model 2.6B parameter dari 100GB teks bahasa Mandarin. Memang belum menyamai GPT-3, tetapi menonjol karena dilatih dengan teks bahasa Mandarin

Tak lama kemudian Huawei merilis PanGu-α dengan 200B parameter (menggunakan 1.1TB teks bahasa Mandarin)
Naver mengumumkan HyperCLOVA dengan 204B parameter
AI21 Labs dari Israel merilis Jurassic-1 dengan 178B parameter
NVIDIA dan Microsoft merilis Megatron-Turing NLG dengan 530B parameter
Pada dasarnya, model-model yang semakin besar dan serupa dengan GPT-3 terus bermunculan, dan kemungkinan akan terus membesar selama beberapa tahun ke depan
Tren bahwa pelatihan model raksasa seperti ini membutuhkan investasi miliaran dolar tampaknya akan terus berlanjut untuk sementara waktu

→ Fakta bahwa hanya perusahaan dengan dukungan dana melimpah yang bisa membuat model seperti ini cukup mengkhawatirkan

Sulit memprediksi berapa lama tren ini akan bertahan, atau apakah akan ada penemuan besar yang melampaui GPT-3
Saat ini kita berada di tengah perjalanan ini, dan akan menarik untuk melihat apa yang terjadi dalam beberapa tahun ke depan

1 komentar

xguru 2021-11-10

GPT-Neo: proyek untuk membuat model sekelas GPT-3 menjadi open source/gratis https://id.news.hada.io/topic?id=3599
MS dan Nvidia mengumumkan MT-NLG 530B, model bahasa terbesar di dunia https://id.news.hada.io/topic?id=5187

GPT-3 Kini Bukan Satu-satunya Pemain di Pasar

Bacaan terkait

1 komentar