Wawancara Mark Zuckerberg - Llama 3, alasan mengapa model senilai 10 miliar dolar dibuat open source

xguru · 2024-04-21T13:19:58+09:00

Dalam wawancara dengan Dwarkesh Patel, ia membahas Llama 3, open sourcing menuju AGI, silikon kustom, dan kendala energi dalam scaling, jadi berikut rangkuman singkat seluruh transkripnya Llama 3 Meta akan meluncurkan model open source Llama 3 untuk menjalankan versi baru Meta AI Meta AI menargetkan menjadi asisten AI yang paling cerdas dan bebas digunakan Llama 3 tersedia sebagai model dense berukuran 8B, 70B yang sudah dirilis, serta 405B yang masih dalam pelatihan Ada roadmap untuk rilis baru dengan multimodal, multibahasa, dan context window yang lebih besar, serta rencana rollout 405B dalam tahun ini 405B saat ini masih dalam pelatihan dan telah mencapai 85 MMLU, serta diperkirakan akan memimpin di berbagai benchmark Model Llama 3 8B memiliki performa yang hampir setara dengan model Llama 2 berukuran terbesar 70B juga sangat bagus dan sudah mencapai 82 MMLU GPU Meta mengamankan GPU H100 pada 2022 saat harga sahamnya sedang anjlok untuk membangun Reels Infrastruktur menjadi faktor pembatas untuk mengejar apa yang dilakukan TikTok secepat yang diinginkan, dan agar tidak terjebak di situasi yang sama lagi, mereka memesan dua kali lipat Mereka memang memperkirakan itu akan diperlukan untuk pelatihan model besar di masa depan, tetapi saat itu menganggapnya hanya untuk rekomendasi konten Jika dipikir ulang, itu adalah keputusan yang sangat baik, dan keputusan itu mungkin karena mereka sedang tertinggal Bukan kasus seperti, "Oh, saya terlalu jauh di depan." Faktanya, saat mereka membuat keputusan yang akhirnya bagus, kebanyakan itu terjadi karena sebelumnya mereka pernah mengacaukan sesuatu dan tidak ingin mengulangi kesalahan itu Pentingnya kemampuan coding dan penalaran menuju AGI (Artificial General Intelligence) Meta menyadari bahwa agar model dapat menyelesaikan use case nyata, kemampuan coding dan penalaran itu penting meskipun model tidak secara langsung menerima pertanyaan tentang coding Tujuan akhirnya adalah menyelesaikan AGI dan memungkinkan model melakukan tugas kompleks multi-tahap AGI akan dicapai dengan menambahkan berbagai kemampuan secara bertahap, seperti multimodal, pemahaman emosi, memori, dan lain-lain Bottleneck energi dan skalabilitas Kemajuan eksponensial dalam ukuran model dapat terus berlanjut, tetapi pada akhirnya akan menabrak bottleneck energi dan infrastruktur Saat ini banyak data center berada di kisaran 50 megawatt atau 100MW, dan data center besar sekitar 150MW Namun mereka akan mulai membangun data center berskala 300MW, 500MW, atau 1GW (yang skala 1GW belum ada, tetapi akan segera muncul) Tetapi pada skala 1GW, pelatihan model saja akan membutuhkan kapasitas setara pembangkit listrik tenaga nuklir, dan membangun cluster skala gigawatt seperti ini akan memakan waktu bertahun-tahun karena proses perizinan yang ketat Pentingnya revolusi AI AI sama mendasarnya dengan penciptaan komputasi itu sendiri, dan akan mengubah cara kita bekerja serta memberi alat kreatif baru Dalam skala waktu kosmik, kemajuan akan berlangsung cepat, tetapi karena adanya bottleneck, ledakan kecerdasan tidak akan terjadi dalam semalam Rasanya kita sedang bergerak ke arah di mana kecerdasan dapat dipisahkan dari kesadaran dan agensi, dan itu bisa menjadi alat yang sangat berharga Open sourcing dan keseimbangan kekuasaan AI yang kuat terkonsentrasi di tangan segelintir pihak bisa sama berbahayanya dengan AI yang tersedia luas Mereka jelas sangat mendukung open source, tetapi tidak semua yang mereka kerjakan telah dibuka Melalui open sourcing, komunitas dapat memperkuat model dan memastikan arena persaingan yang lebih seimbang Namun jika pada titik tertentu terjadi perubahan kualitatif pada kemampuan itu dan mereka menilai open sourcing tidak lagi tepat, maka mereka tidak akan melakukannya. Semuanya sangat sulit diprediksi Meta berorientasi pada open source selama itu dilakukan secara bertanggung jawab dan bermanfaat, dan mereka dapat mengenakan biaya penggunaan model kepada penyedia cloud Dalam jangka pendek, fokusnya pada mitigasi dampak nyata dari penyalahgunaan model, dan dalam jangka panjang pada risiko eksistensial Alasan mengapa model senilai 10 miliar dolar dibuat open source Hal yang menjengkelkan dari ekosistem mobile adalah adanya dua perusahaan gatekeeper, yaitu Apple dan Google Kedua perusahaan ini memberi tahu Anda apa yang bisa Anda bangun Ada juga sisi ekonomi di mana ketika kami membuat sesuatu, merekalah yang mengambil uangnya, tetapi sisi kualitatifnya lebih membuat marah Sering kali ketika kami merilis atau ingin merilis fitur, Apple mengatakan, "Tidak, itu tidak bisa dirilis" Itu sangat menjengkelkan, jadi pertanyaannya adalah apakah kita ingin menghadapi dunia seperti itu juga di AI Bisakah segelintir perusahaan yang menjalankan model tertutup mengontrol API dan memberi tahu Anda apa yang bisa Anda bangun? Kita bisa mengatakan bahwa membangun model sendiri itu bernilai agar kita tidak berada dalam posisi seperti itu Kami tidak ingin perusahaan lain memberi tahu kami apa yang bisa kami bangun Dari sudut pandang open source, saya rasa banyak developer juga tidak ingin perusahaan-perusahaan ini memberi tahu mereka apa yang bisa mereka bangun Maka pertanyaannya adalah seperti apa ekosistem yang dibangun di sekeliling ini Hal baru yang menarik seperti apa? Sejauh mana itu bisa meningkatkan produk kami? Saya rasa sering kali kita bisa mendapatkan kontribusi berharga dari komunitas yang membantu menciptakan produk yang lebih baik, seperti pada database, sistem caching, atau arsitektur Dengan begitu, pekerjaan spesifik per aplikasi yang kami lakukan tetap menjadi pembeda dan tidak menjadi terlalu penting Kami tetap bisa melakukan apa yang kami lakukan Karena ini open source, semua sistem kami dan komunitas akan menjadi lebih baik Tetapi ada juga dunia yang tidak seperti itu Mungkin model bisa menjadi lebih dekat dengan produk itu sendiri Perhitungan ekonominya tampaknya akan menjadi lebih rumit. Baik Anda melakukan open source atau tidak, Anda akan banyak mengkomoditaskan diri sendiri Namun sejauh yang terlihat sekarang, tampaknya kita belum berada di wilayah itu Monetisasi model Apakah diharapkan akan ada pendapatan yang cukup besar dengan melisensikan model ke penyedia cloud? Dalam banyak hal, lisensi open source Llama sangat permisif Hanya saja ada pembatasan untuk perusahaan besar yang menggunakannya. Itulah alasan pembatasan itu diberlakukan Mereka tidak berusaha mencegah perusahaan-perusahaan itu menggunakannya, tetapi jika pada dasarnya mereka mengambil apa yang dibuat Meta lalu menjualnya kembali untuk menghasilkan uang, Meta ingin mereka datang dan membicarakannya Dalam kasus seperti Microsoft Azure atau Amazon, jika mereka ingin menjual ulang model itu, harus ada bagi hasil pendapatan Jadi, sebelum melakukan itu, mereka diminta untuk datang dan berbicara dengan Meta; begitulah mekanismenya Karena itu, untuk Llama-2 pada dasarnya Meta telah membuat kesepakatan dengan semua perusahaan cloud besar, dan Llama-2 tersedia sebagai layanan hosting di semua cloud Semakin besar model yang mereka rilis, mereka pikir ini akan menjadi hal yang semakin besar juga Ini bukan hal utama yang mereka lakukan, tetapi jika perusahaan-perusahaan itu menjual model mereka, masuk akal jika Meta juga ikut menikmati manfaatnya dengan cara tertentu Silikon kustom Meta sedang mengembangkan silikon kustom untuk menjalankan model besar secara efisien Bukan untuk Llama-4, tetapi mereka lebih dulu membangun silikon kustom yang dapat menangani inferensi untuk jenis ranking dan rekomendasi, yang digunakan untuk Reels, iklan News Feed, dan sebagainya Setelah dapat memindahkan itu ke silikon mereka sendiri, kini mereka bisa menggunakan GPU NVIDIA yang lebih mahal hanya untuk pelatihan Suatu hari mereka berharap bisa mengembangkan silikon sendiri dan pada awalnya menggunakannya untuk pelatihan sederhana, lalu nanti untuk melatih model yang sangat besar Sementara itu, mereka bisa mengatakan program ini berjalan cukup baik, sedang dideploy secara sistematis, dan memiliki roadmap jangka panjang

(dwarkeshpatel.com)

30 poin oleh xguru 2024-04-21 | 4 komentar | Bagikan ke WhatsApp

Dalam wawancara dengan Dwarkesh Patel, ia membahas Llama 3, open sourcing menuju AGI, silikon kustom, dan kendala energi dalam scaling, jadi berikut rangkuman singkat seluruh transkripnya

Llama 3

Meta akan meluncurkan model open source Llama 3 untuk menjalankan versi baru Meta AI
Meta AI menargetkan menjadi asisten AI yang paling cerdas dan bebas digunakan
Llama 3 tersedia sebagai model dense berukuran 8B, 70B yang sudah dirilis, serta 405B yang masih dalam pelatihan
Ada roadmap untuk rilis baru dengan multimodal, multibahasa, dan context window yang lebih besar, serta rencana rollout 405B dalam tahun ini
405B saat ini masih dalam pelatihan dan telah mencapai 85 MMLU, serta diperkirakan akan memimpin di berbagai benchmark
Model Llama 3 8B memiliki performa yang hampir setara dengan model Llama 2 berukuran terbesar
70B juga sangat bagus dan sudah mencapai 82 MMLU

GPU

Meta mengamankan GPU H100 pada 2022 saat harga sahamnya sedang anjlok untuk membangun Reels
Infrastruktur menjadi faktor pembatas untuk mengejar apa yang dilakukan TikTok secepat yang diinginkan, dan agar tidak terjebak di situasi yang sama lagi, mereka memesan dua kali lipat
Mereka memang memperkirakan itu akan diperlukan untuk pelatihan model besar di masa depan, tetapi saat itu menganggapnya hanya untuk rekomendasi konten
Jika dipikir ulang, itu adalah keputusan yang sangat baik, dan keputusan itu mungkin karena mereka sedang tertinggal
Bukan kasus seperti, "Oh, saya terlalu jauh di depan."
Faktanya, saat mereka membuat keputusan yang akhirnya bagus, kebanyakan itu terjadi karena sebelumnya mereka pernah mengacaukan sesuatu dan tidak ingin mengulangi kesalahan itu

Pentingnya kemampuan coding dan penalaran menuju AGI (Artificial General Intelligence)

Meta menyadari bahwa agar model dapat menyelesaikan use case nyata, kemampuan coding dan penalaran itu penting meskipun model tidak secara langsung menerima pertanyaan tentang coding
Tujuan akhirnya adalah menyelesaikan AGI dan memungkinkan model melakukan tugas kompleks multi-tahap
AGI akan dicapai dengan menambahkan berbagai kemampuan secara bertahap, seperti multimodal, pemahaman emosi, memori, dan lain-lain

Bottleneck energi dan skalabilitas

Kemajuan eksponensial dalam ukuran model dapat terus berlanjut, tetapi pada akhirnya akan menabrak bottleneck energi dan infrastruktur
Saat ini banyak data center berada di kisaran 50 megawatt atau 100MW, dan data center besar sekitar 150MW
Namun mereka akan mulai membangun data center berskala 300MW, 500MW, atau 1GW (yang skala 1GW belum ada, tetapi akan segera muncul)
Tetapi pada skala 1GW, pelatihan model saja akan membutuhkan kapasitas setara pembangkit listrik tenaga nuklir, dan membangun cluster skala gigawatt seperti ini akan memakan waktu bertahun-tahun karena proses perizinan yang ketat

Pentingnya revolusi AI

AI sama mendasarnya dengan penciptaan komputasi itu sendiri, dan akan mengubah cara kita bekerja serta memberi alat kreatif baru
Dalam skala waktu kosmik, kemajuan akan berlangsung cepat, tetapi karena adanya bottleneck, ledakan kecerdasan tidak akan terjadi dalam semalam
Rasanya kita sedang bergerak ke arah di mana kecerdasan dapat dipisahkan dari kesadaran dan agensi, dan itu bisa menjadi alat yang sangat berharga

Open sourcing dan keseimbangan kekuasaan

AI yang kuat terkonsentrasi di tangan segelintir pihak bisa sama berbahayanya dengan AI yang tersedia luas
Mereka jelas sangat mendukung open source, tetapi tidak semua yang mereka kerjakan telah dibuka
Melalui open sourcing, komunitas dapat memperkuat model dan memastikan arena persaingan yang lebih seimbang
Namun jika pada titik tertentu terjadi perubahan kualitatif pada kemampuan itu dan mereka menilai open sourcing tidak lagi tepat, maka mereka tidak akan melakukannya. Semuanya sangat sulit diprediksi
Meta berorientasi pada open source selama itu dilakukan secara bertanggung jawab dan bermanfaat, dan mereka dapat mengenakan biaya penggunaan model kepada penyedia cloud
Dalam jangka pendek, fokusnya pada mitigasi dampak nyata dari penyalahgunaan model, dan dalam jangka panjang pada risiko eksistensial

Alasan mengapa model senilai 10 miliar dolar dibuat open source

Hal yang menjengkelkan dari ekosistem mobile adalah adanya dua perusahaan gatekeeper, yaitu Apple dan Google
Kedua perusahaan ini memberi tahu Anda apa yang bisa Anda bangun
Ada juga sisi ekonomi di mana ketika kami membuat sesuatu, merekalah yang mengambil uangnya, tetapi sisi kualitatifnya lebih membuat marah
Sering kali ketika kami merilis atau ingin merilis fitur, Apple mengatakan, "Tidak, itu tidak bisa dirilis"
Itu sangat menjengkelkan, jadi pertanyaannya adalah apakah kita ingin menghadapi dunia seperti itu juga di AI
Bisakah segelintir perusahaan yang menjalankan model tertutup mengontrol API dan memberi tahu Anda apa yang bisa Anda bangun?
Kita bisa mengatakan bahwa membangun model sendiri itu bernilai agar kita tidak berada dalam posisi seperti itu
Kami tidak ingin perusahaan lain memberi tahu kami apa yang bisa kami bangun
Dari sudut pandang open source, saya rasa banyak developer juga tidak ingin perusahaan-perusahaan ini memberi tahu mereka apa yang bisa mereka bangun
Maka pertanyaannya adalah seperti apa ekosistem yang dibangun di sekeliling ini
- Hal baru yang menarik seperti apa?
- Sejauh mana itu bisa meningkatkan produk kami?
Saya rasa sering kali kita bisa mendapatkan kontribusi berharga dari komunitas yang membantu menciptakan produk yang lebih baik, seperti pada database, sistem caching, atau arsitektur
Dengan begitu, pekerjaan spesifik per aplikasi yang kami lakukan tetap menjadi pembeda dan tidak menjadi terlalu penting
Kami tetap bisa melakukan apa yang kami lakukan
Karena ini open source, semua sistem kami dan komunitas akan menjadi lebih baik
Tetapi ada juga dunia yang tidak seperti itu
Mungkin model bisa menjadi lebih dekat dengan produk itu sendiri
Perhitungan ekonominya tampaknya akan menjadi lebih rumit. Baik Anda melakukan open source atau tidak, Anda akan banyak mengkomoditaskan diri sendiri
Namun sejauh yang terlihat sekarang, tampaknya kita belum berada di wilayah itu

Monetisasi model

Apakah diharapkan akan ada pendapatan yang cukup besar dengan melisensikan model ke penyedia cloud?
Dalam banyak hal, lisensi open source Llama sangat permisif
Hanya saja ada pembatasan untuk perusahaan besar yang menggunakannya. Itulah alasan pembatasan itu diberlakukan
Mereka tidak berusaha mencegah perusahaan-perusahaan itu menggunakannya, tetapi jika pada dasarnya mereka mengambil apa yang dibuat Meta lalu menjualnya kembali untuk menghasilkan uang, Meta ingin mereka datang dan membicarakannya
Dalam kasus seperti Microsoft Azure atau Amazon, jika mereka ingin menjual ulang model itu, harus ada bagi hasil pendapatan
Jadi, sebelum melakukan itu, mereka diminta untuk datang dan berbicara dengan Meta; begitulah mekanismenya
Karena itu, untuk Llama-2 pada dasarnya Meta telah membuat kesepakatan dengan semua perusahaan cloud besar, dan Llama-2 tersedia sebagai layanan hosting di semua cloud
Semakin besar model yang mereka rilis, mereka pikir ini akan menjadi hal yang semakin besar juga
Ini bukan hal utama yang mereka lakukan, tetapi jika perusahaan-perusahaan itu menjual model mereka, masuk akal jika Meta juga ikut menikmati manfaatnya dengan cara tertentu

Silikon kustom

Meta sedang mengembangkan silikon kustom untuk menjalankan model besar secara efisien
Bukan untuk Llama-4, tetapi mereka lebih dulu membangun silikon kustom yang dapat menangani inferensi untuk jenis ranking dan rekomendasi, yang digunakan untuk Reels, iklan News Feed, dan sebagainya
Setelah dapat memindahkan itu ke silikon mereka sendiri, kini mereka bisa menggunakan GPU NVIDIA yang lebih mahal hanya untuk pelatihan
Suatu hari mereka berharap bisa mengembangkan silikon sendiri dan pada awalnya menggunakannya untuk pelatihan sederhana, lalu nanti untuk melatih model yang sangat besar
Sementara itu, mereka bisa mengatakan program ini berjalan cukup baik, sedang dideploy secara sistematis, dan memiliki roadmap jangka panjang

4 komentar

laeyoung 2024-04-22

"Jika 1GW, hanya untuk melatih model saja sudah membutuhkan skala pembangkit listrik tenaga nuklir"

Sekarang untuk melatih foundation model, tampaknya perlu pengembangan nuklir (?) ya.

tsboard 2024-04-22

Sepertinya ada banyak pertimbangan yang berkecamuk. Sikap antipati yang kuat terhadap Google dan Apple, yang memegang kendali atas platform, cukup bisa dipahami.

daejin 2024-04-22

Bagian "alasan melakukan open source pada model senilai 10 miliar dolar" meski hanya ringkasan, tetap terasa cukup membuka wawasan.

realg 2024-04-21

Terima kasih atas konten yang bagus.