- Dalam wawancara dengan Dwarkesh Patel, ia membahas Llama 3, open sourcing menuju AGI, silikon kustom, dan kendala energi dalam scaling, jadi berikut rangkuman singkat seluruh transkripnya
Llama 3
- Meta akan meluncurkan model open source Llama 3 untuk menjalankan versi baru Meta AI
- Meta AI menargetkan menjadi asisten AI yang paling cerdas dan bebas digunakan
- Llama 3 tersedia sebagai model dense berukuran 8B, 70B yang sudah dirilis, serta 405B yang masih dalam pelatihan
- Ada roadmap untuk rilis baru dengan multimodal, multibahasa, dan context window yang lebih besar, serta rencana rollout 405B dalam tahun ini
- 405B saat ini masih dalam pelatihan dan telah mencapai 85 MMLU, serta diperkirakan akan memimpin di berbagai benchmark
- Model Llama 3 8B memiliki performa yang hampir setara dengan model Llama 2 berukuran terbesar
- 70B juga sangat bagus dan sudah mencapai 82 MMLU
GPU
- Meta mengamankan GPU H100 pada 2022 saat harga sahamnya sedang anjlok untuk membangun Reels
- Infrastruktur menjadi faktor pembatas untuk mengejar apa yang dilakukan TikTok secepat yang diinginkan, dan agar tidak terjebak di situasi yang sama lagi, mereka memesan dua kali lipat
- Mereka memang memperkirakan itu akan diperlukan untuk pelatihan model besar di masa depan, tetapi saat itu menganggapnya hanya untuk rekomendasi konten
- Jika dipikir ulang, itu adalah keputusan yang sangat baik, dan keputusan itu mungkin karena mereka sedang tertinggal
- Bukan kasus seperti, "Oh, saya terlalu jauh di depan."
- Faktanya, saat mereka membuat keputusan yang akhirnya bagus, kebanyakan itu terjadi karena sebelumnya mereka pernah mengacaukan sesuatu dan tidak ingin mengulangi kesalahan itu
Pentingnya kemampuan coding dan penalaran menuju AGI (Artificial General Intelligence)
- Meta menyadari bahwa agar model dapat menyelesaikan use case nyata, kemampuan coding dan penalaran itu penting meskipun model tidak secara langsung menerima pertanyaan tentang coding
- Tujuan akhirnya adalah menyelesaikan AGI dan memungkinkan model melakukan tugas kompleks multi-tahap
- AGI akan dicapai dengan menambahkan berbagai kemampuan secara bertahap, seperti multimodal, pemahaman emosi, memori, dan lain-lain
Bottleneck energi dan skalabilitas
- Kemajuan eksponensial dalam ukuran model dapat terus berlanjut, tetapi pada akhirnya akan menabrak bottleneck energi dan infrastruktur
- Saat ini banyak data center berada di kisaran 50 megawatt atau 100MW, dan data center besar sekitar 150MW
- Namun mereka akan mulai membangun data center berskala 300MW, 500MW, atau 1GW (yang skala 1GW belum ada, tetapi akan segera muncul)
- Tetapi pada skala 1GW, pelatihan model saja akan membutuhkan kapasitas setara pembangkit listrik tenaga nuklir, dan membangun cluster skala gigawatt seperti ini akan memakan waktu bertahun-tahun karena proses perizinan yang ketat
Pentingnya revolusi AI
- AI sama mendasarnya dengan penciptaan komputasi itu sendiri, dan akan mengubah cara kita bekerja serta memberi alat kreatif baru
- Dalam skala waktu kosmik, kemajuan akan berlangsung cepat, tetapi karena adanya bottleneck, ledakan kecerdasan tidak akan terjadi dalam semalam
- Rasanya kita sedang bergerak ke arah di mana kecerdasan dapat dipisahkan dari kesadaran dan agensi, dan itu bisa menjadi alat yang sangat berharga
Open sourcing dan keseimbangan kekuasaan
- AI yang kuat terkonsentrasi di tangan segelintir pihak bisa sama berbahayanya dengan AI yang tersedia luas
- Mereka jelas sangat mendukung open source, tetapi tidak semua yang mereka kerjakan telah dibuka
- Melalui open sourcing, komunitas dapat memperkuat model dan memastikan arena persaingan yang lebih seimbang
- Namun jika pada titik tertentu terjadi perubahan kualitatif pada kemampuan itu dan mereka menilai open sourcing tidak lagi tepat, maka mereka tidak akan melakukannya. Semuanya sangat sulit diprediksi
- Meta berorientasi pada open source selama itu dilakukan secara bertanggung jawab dan bermanfaat, dan mereka dapat mengenakan biaya penggunaan model kepada penyedia cloud
- Dalam jangka pendek, fokusnya pada mitigasi dampak nyata dari penyalahgunaan model, dan dalam jangka panjang pada risiko eksistensial
Alasan mengapa model senilai 10 miliar dolar dibuat open source
- Hal yang menjengkelkan dari ekosistem mobile adalah adanya dua perusahaan gatekeeper, yaitu Apple dan Google
- Kedua perusahaan ini memberi tahu Anda apa yang bisa Anda bangun
- Ada juga sisi ekonomi di mana ketika kami membuat sesuatu, merekalah yang mengambil uangnya, tetapi sisi kualitatifnya lebih membuat marah
- Sering kali ketika kami merilis atau ingin merilis fitur, Apple mengatakan, "Tidak, itu tidak bisa dirilis"
- Itu sangat menjengkelkan, jadi pertanyaannya adalah apakah kita ingin menghadapi dunia seperti itu juga di AI
- Bisakah segelintir perusahaan yang menjalankan model tertutup mengontrol API dan memberi tahu Anda apa yang bisa Anda bangun?
- Kita bisa mengatakan bahwa membangun model sendiri itu bernilai agar kita tidak berada dalam posisi seperti itu
- Kami tidak ingin perusahaan lain memberi tahu kami apa yang bisa kami bangun
- Dari sudut pandang open source, saya rasa banyak developer juga tidak ingin perusahaan-perusahaan ini memberi tahu mereka apa yang bisa mereka bangun
- Maka pertanyaannya adalah seperti apa ekosistem yang dibangun di sekeliling ini
- Hal baru yang menarik seperti apa?
- Sejauh mana itu bisa meningkatkan produk kami?
- Saya rasa sering kali kita bisa mendapatkan kontribusi berharga dari komunitas yang membantu menciptakan produk yang lebih baik, seperti pada database, sistem caching, atau arsitektur
- Dengan begitu, pekerjaan spesifik per aplikasi yang kami lakukan tetap menjadi pembeda dan tidak menjadi terlalu penting
- Kami tetap bisa melakukan apa yang kami lakukan
- Karena ini open source, semua sistem kami dan komunitas akan menjadi lebih baik
- Tetapi ada juga dunia yang tidak seperti itu
- Mungkin model bisa menjadi lebih dekat dengan produk itu sendiri
- Perhitungan ekonominya tampaknya akan menjadi lebih rumit. Baik Anda melakukan open source atau tidak, Anda akan banyak mengkomoditaskan diri sendiri
- Namun sejauh yang terlihat sekarang, tampaknya kita belum berada di wilayah itu
Monetisasi model
- Apakah diharapkan akan ada pendapatan yang cukup besar dengan melisensikan model ke penyedia cloud?
- Dalam banyak hal, lisensi open source Llama sangat permisif
- Hanya saja ada pembatasan untuk perusahaan besar yang menggunakannya. Itulah alasan pembatasan itu diberlakukan
- Mereka tidak berusaha mencegah perusahaan-perusahaan itu menggunakannya, tetapi jika pada dasarnya mereka mengambil apa yang dibuat Meta lalu menjualnya kembali untuk menghasilkan uang, Meta ingin mereka datang dan membicarakannya
- Dalam kasus seperti Microsoft Azure atau Amazon, jika mereka ingin menjual ulang model itu, harus ada bagi hasil pendapatan
- Jadi, sebelum melakukan itu, mereka diminta untuk datang dan berbicara dengan Meta; begitulah mekanismenya
- Karena itu, untuk Llama-2 pada dasarnya Meta telah membuat kesepakatan dengan semua perusahaan cloud besar, dan Llama-2 tersedia sebagai layanan hosting di semua cloud
- Semakin besar model yang mereka rilis, mereka pikir ini akan menjadi hal yang semakin besar juga
- Ini bukan hal utama yang mereka lakukan, tetapi jika perusahaan-perusahaan itu menjual model mereka, masuk akal jika Meta juga ikut menikmati manfaatnya dengan cara tertentu
Silikon kustom
- Meta sedang mengembangkan silikon kustom untuk menjalankan model besar secara efisien
- Bukan untuk Llama-4, tetapi mereka lebih dulu membangun silikon kustom yang dapat menangani inferensi untuk jenis ranking dan rekomendasi, yang digunakan untuk Reels, iklan News Feed, dan sebagainya
- Setelah dapat memindahkan itu ke silikon mereka sendiri, kini mereka bisa menggunakan GPU NVIDIA yang lebih mahal hanya untuk pelatihan
- Suatu hari mereka berharap bisa mengembangkan silikon sendiri dan pada awalnya menggunakannya untuk pelatihan sederhana, lalu nanti untuk melatih model yang sangat besar
- Sementara itu, mereka bisa mengatakan program ini berjalan cukup baik, sedang dideploy secara sistematis, dan memiliki roadmap jangka panjang
4 komentar
"Jika 1GW, hanya untuk melatih model saja sudah membutuhkan skala pembangkit listrik tenaga nuklir"
Sekarang untuk melatih foundation model, tampaknya perlu pengembangan nuklir (?) ya.
Sepertinya ada banyak pertimbangan yang berkecamuk. Sikap antipati yang kuat terhadap Google dan Apple, yang memegang kendali atas platform, cukup bisa dipahami.
Bagian "alasan melakukan open source pada model senilai 10 miliar dolar" meski hanya ringkasan, tetap terasa cukup membuka wawasan.
Terima kasih atas konten yang bagus.