16 poin oleh xguru 2021-11-10 | 1 komentar | Bagikan ke WhatsApp
  • Memang benar GPT-3 memberi guncangan besar pada pasar AI: model AI berskala sangat besar yang kuat dalam pola "text-in text-out"

  • Karena berbayar, banyak organisasi mulai membuat model versi mereka sendiri yang mirip GPT-3

→ Namun ini tidak mudah karena membutuhkan daya komputasi yang besar. OpenAI untuk model 175B parameter bekerja sama dengan Microsoft dan menggunakan 10 ribu GPU serta 45 terabyte data teks

→ Jika dihitung, melatih GPT-3 membutuhkan biaya sekitar 10 hingga 20 miliar won

  • Berbagai upaya pun mulai bermunculan

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

  • Menariknya, upaya pertama untuk membuat sesuatu yang mirip GPT-3 adalah "EleutherAI" yang dibuat oleh para kontributor open source

→ Mereka merilis "The Pile", dataset yang mirip dengan milik GPT-3

→ Setelah itu mereka merilis versi kecil seperti GPT-Neo 1.3B dan 2.7B, lalu baru-baru ini GPT-J-6B dengan 6B parameter

  • Enam bulan setelah pengumuman GPT-3, para peneliti dari Universitas Tsinghua di Tiongkok bersama BAAI (Beijing AI Academy) merilis CPM (Chinese Pre-trained Language Model)

→ Mereka membuat model 2.6B parameter dari 100GB teks bahasa Mandarin. Memang belum menyamai GPT-3, tetapi menonjol karena dilatih dengan teks bahasa Mandarin

  • Tak lama kemudian Huawei merilis PanGu-α dengan 200B parameter (menggunakan 1.1TB teks bahasa Mandarin)

  • Naver mengumumkan HyperCLOVA dengan 204B parameter

  • AI21 Labs dari Israel merilis Jurassic-1 dengan 178B parameter

  • NVIDIA dan Microsoft merilis Megatron-Turing NLG dengan 530B parameter

  • Pada dasarnya, model-model yang semakin besar dan serupa dengan GPT-3 terus bermunculan, dan kemungkinan akan terus membesar selama beberapa tahun ke depan

  • Tren bahwa pelatihan model raksasa seperti ini membutuhkan investasi miliaran dolar tampaknya akan terus berlanjut untuk sementara waktu

→ Fakta bahwa hanya perusahaan dengan dukungan dana melimpah yang bisa membuat model seperti ini cukup mengkhawatirkan

  • Sulit memprediksi berapa lama tren ini akan bertahan, atau apakah akan ada penemuan besar yang melampaui GPT-3

  • Saat ini kita berada di tengah perjalanan ini, dan akan menarik untuk melihat apa yang terjadi dalam beberapa tahun ke depan

1 komentar

 
xguru 2021-11-10