Jeff Dean: Tren Terbaru dalam Machine Learning [Video]

(youtube.com)

25 poin oleh GN⁺ 2024-02-21 | 3 komentar | Bagikan ke WhatsApp

Jeff Dean (Google): tren menarik dalam machine learning

Tren dan harapan menarik dalam machine learning

Machine learning dalam beberapa tahun terakhir telah sangat mengubah ekspektasi kita tentang apa yang dapat dilakukan komputer.
Di semua bidang seperti bahasa, gambar, dan pemrosesan bahasa alami, komputer kini memiliki kemampuan untuk mengenali dan memahami dunia dengan lebih baik.
Kemajuan teknologi yang membuat komputer dapat melihat dan merasakan telah membuka banyak peluang di hampir semua bidang aktivitas manusia.
Kemajuan dalam sumber daya komputasi berskala lebih besar dan komputer terspesialisasi memberikan hasil yang lebih baik serta membuka kemungkinan baru.
Kita membutuhkan bentuk hardware yang lebih beragam agar dapat berjalan dengan efisiensi tinggi sambil mempersempit secara lebih efisien cakupan hal yang dapat dilakukan komputer.

Perkembangan teknologi pengenalan suara, penerjemahan, analisis gambar, dan peningkatan akurasi prediksi

Teknologi pengenalan suara mengubah waveform audio menjadi ujaran bermakna selama 5 detik, dan kemajuannya sangat besar.
Teknologi terjemahan berkembang menjadi fungsi yang sangat membantu komputer untuk menerjemahkan dari satu bahasa ke bahasa lain.
Teknologi analisis gambar juga mengalami kemajuan besar di bidang computer vision, tidak hanya memberi label nama tetapi juga mengubahnya menjadi kalimat pendek yang menjelaskan sebuah adegan.
Selain itu, dalam beberapa tahun terakhir, penggunaan teknologi-teknologi ini secara terbalik juga menjadi mungkin.
Sangat menakjubkan bahwa dalam 10 tahun telah terjadi peningkatan performa yang melampaui akurasi manusia.

Pentingnya scaling hardware untuk meningkatkan kualitas model AI

'Word Error Rate', benchmark representatif untuk mengukur akurasi pengenalan suara, telah meningkat drastis dari 13.25% menjadi 2.5%.
Karena itu, kegunaannya meningkat tajam sehingga kini cukup andal untuk menyalin email atau melakukan dikte.
Khususnya, scale-up hardware membantu meningkatkan kualitas model, dan untuk itu dibutuhkan hardware yang dioptimalkan untuk machine learning.
Model neural network memiliki karakteristik bahwa penggunaan presisi yang dikurangi tidak menjadi masalah, sehingga pelatihan model dapat dilakukan dengan lebih efisien.
Selain itu, algoritme yang digunakan untuk pelatihan model terdiri dari berbagai kombinasi operasi aljabar linear, sehingga dibutuhkan komputer yang dapat memproses operasi aljabar linear dengan presisi yang dikurangi secara efisien.

Perkembangan jaringan komputer dan antusiasme terhadap language model

Generasi pertama adalah jaringan sederhana namun berbandwidth tinggi. Setiap chip terhubung dalam grid 2D, dan pada grid 16x6 masing-masing terhubung ke 4 chip tetangga dengan kabel.
Karena itu tidak perlu melakukan routing di jaringan, dan karena chip-chip dihubungkan dengan jarak pendek, dimungkinkan bandwidth tinggi dan koneksi murah.
Pada generasi berikutnya, sistem diperluas menjadi 1024 chip di 8 rack, lalu pada generasi setelahnya digunakan 64 rack dengan masing-masing 64 chip.
Khususnya belakangan ini muncul seri V5; model V5P yang menggunakan 256 chip untuk inference terdistribusi menyediakan lebih banyak memori per chip, bandwidth lebih tinggi, dan bandwidth memori yang lebih besar.
Model ini memberikan hampir setengah petaflop performa per chip pada performa floating point 16-bit, dan dalam XOR flops dapat dihitung sekitar 9.000 chip per chip.
Salah satu bidang yang mengalami perubahan terbesar dalam hal yang bisa dilakukan komputer adalah bahasa. Tadi dibahas kemajuan pada pengenalan gambar dan suara, tetapi sebenarnya ketertarikan pada language model sudah ada sejak sebelum jaringan NN. Karena itu kami bekerja sama dengan tim Google Translate untuk melakukan penelitian tentang language model.

Membangun sistem terjemahan berkualitas tinggi dengan data besar dan teknik sederhana

Berupaya menggunakan sistem terjemahan berkualitas tinggi yang dikembangkan untuk kompetisi ilmiah ke dalam praktik kerja nyata
Membangun sistem yang menghitung seberapa sering sekuens 5 kata muncul dalam 2 triliun token dan menyimpan 300 miliar 5-gram unik di memori
Mengembangkan algoritme baru 'stupid backoff' yang saat mencari data yang tidak ada akan merujuk ke 4-gram, 3-gram, dan seterusnya sebelumnya
Mendapat pelajaran bahwa teknik sederhana jika digabungkan dengan data dalam jumlah besar dapat menghasilkan hasil yang efektif

Merepresentasikan kata sebagai vektor berdimensi tinggi agar kata dalam konteks serupa berdekatan dan kata dalam konteks berbeda berjauhan

Alih-alih merepresentasikan kata secara diskret, kata direpresentasikan sebagai vektor berdimensi tinggi sehingga kata dalam konteks serupa menjadi dekat dan kata dalam konteks berbeda menjadi jauh.
Dengan menggunakan sangat banyak data melalui proses training, kata yang muncul dalam konteks serupa didekatkan dan kata yang muncul dalam konteks berbeda dijauhkan, sehingga kata-kata yang serupa dikelompokkan bersama di dalam ruang.
Representasi terdistribusi meng-encode banyak informasi ke dalam vektor 100 dimensi yang mewakili kata, dan dengan metode ini dikembangkan model terjemahan bahasa 'sequence to sequence learning'.
'Sequence to sequence learning' menggunakan neural network untuk menerima kalimat satu per satu, menyusun kalimat, memperbarui representasi terdistribusi tiap kata, lalu menghasilkan hasil terjemahan.

Menggunakan model untuk terjemahan bahasa alami dan percakapan multi-turn

Data pelatihan berisi kalimat bahasa Inggris dan kalimat bahasa Prancis yang memiliki makna yang sesuai, dan model dilatih dengan data ini.
Dibangun model yang menerjemahkan kalimat bahasa Prancis dengan memulai dari kalimat bahasa Inggris yang diberikan.
Untuk percakapan multi-turn, model dilatih agar menghasilkan respons yang sesuai dengan menggunakan konteks yang terdiri dari interaksi-interaksi sebelumnya.
Dengan menggunakan model Transformer, input diproses secara paralel dan perhatian difokuskan pada tiap bagian untuk meningkatkan akurasi terjemahan.
Saat ini, berkat perkembangan algoritme dan hardware machine learning, model berskala lebih besar dapat dilatih dan respons yang lebih efisien dapat dihasilkan.

Mengembangkan model multimodal percakapan yang dapat memproses berbagai modality tanpa dibedakan

Dibahas kemajuan model percakapan neural network seperti OpenAI Mina, ChatGPT, dan Bard milik Google.
Perubahan pada language model juga disebutkan, bersama pekerjaan OpenAI GPT2 dan Google T5. Model-model ini mengalami peningkatan besar dalam jumlah parameter.
Disebutkan juga perkembangan Transformer yang digunakan sebagai dasar bagi pekerjaan-pekerjaan tersebut.
Dibahas OpenAI GPT3, GPT-4, dan proyek Gemini milik Google. Proyek Gemini bertujuan mengembangkan model yang dapat memproses berbagai modality seperti gambar dan audio sekaligus, bukan hanya teks.
Proyek Gemini memproses teks, gambar, video, audio, dan sebagainya sebagai satu sequence, lalu melatih model berbasis Transformer. Dengan cara ini dapat dibangun representasi yang konsisten untuk berbagai modality.

Infrastruktur training TensorFlow, lini produk Gemini dalam berbagai ukuran, dan sistem pemulihan otomatis

Gemini milik TensorFlow tersedia dalam tiga ukuran: Ultra, Pro, dan Nano, dan masing-masing model cocok untuk kegunaan atau lokasi yang berbeda.
Gemini menyediakan fabric yang sangat scalable untuk training model, dilengkapi jaringan berperforma tinggi dan sistem pemulihan otomatis.
Untuk meminimalkan failures yang terdeteksi, upgrade dijalankan secara bersamaan di lingkungan multi-node, status dari salinan lain dipulihkan lewat jaringan cepat, dan waktu pemulihan dapat dipangkas menjadi beberapa detik.
Model dilatih menggunakan beragam data, termasuk dokumen web, buku, kode, gambar, audio, video, dan format lainnya sebagai data pelatihan.
Komposisi akhir data pelatihan model ditentukan dengan bereksperimen pada model kecil dan mengevaluasi performa, menggunakan berbagai metrik evaluasi untuk menemukan campuran data yang optimal.

Kualitas data penting dan harus dipertimbangkan. Kualitas data lebih penting daripada arsitektur model.

Pada tahap akhir pelatihan, data yang terkait domain digunakan untuk menambahkan data multibahasa.
Data berkualitas tinggi membuat perbedaan besar pada performa model.
Kemampuan untuk secara otomatis mempelajari curriculum adalah salah satu bidang penelitian masa depan.
Penelitian juga sedang dilakukan tentang cara membuat model menjawab lebih efektif saat diberi pertanyaan dan cara memaksimalkan keunggulan model.
Dengan teknik prompting chain of thought, model dapat mempertimbangkan langkah yang lebih beragam dan memberikan jawaban yang akurat.

Melihat hasil evaluasi model dan analisis performa

Model tersebut memperkenalkan contoh kasus ketika siswa menghasilkan jawaban yang salah dan menunjukkan bagian yang harus diperbaiki.
Model ini mengevaluasi 32 benchmark akademik, dan model Gemini Ultra menunjukkan hasil yang melampaui performa yang diperkirakan sebelumnya pada 30 benchmark.
Model ini juga mempertimbangkan performa multibahasa dan memikirkan trade-off yang kompleks.
Model ini unggul dalam pemahaman video dan kemampuan multimodal, dan terlihat mencapai hasil yang sangat baik pada berbagai benchmark.

Model Gemini memiliki performa pengenalan suara yang sangat baik dan kemampuan multibahasa, serta bahkan dapat melakukan pemrograman sebagai chatbot.

Model Gemini menunjukkan tingkat error kelas atas pada berbagai tolok ukur pengenalan suara, dan kemampuan multibahasanya juga sangat baik.
Sebelumnya tim telah mengerahkan banyak upaya untuk mengevaluasi model dan memahami kemampuannya secara mendetail.
Sangat mengejutkan bahwa model Gemini juga dapat menyediakan informasi yang berguna dan kode pemrograman.
Selain itu, model ini juga memiliki pengetahuan tentang TPU dan dijelaskan memberikan efisiensi yang sangat baik serta peningkatan performa.
Model Gemini dapat memiliki berbagai kepribadian chatbot; di antaranya Bard berperan sebagai teman yang membantu menjawab pertanyaan, dan model ini dikenal mencapai skor ELO tinggi di situs LMY.

Pemanfaatan model AI dan pelatihan per domain

Ada berbagai model, di antaranya ada layanan gratis yang menunjukkan peringkat atas dan ada juga layanan berbayar yang tidak demikian.
Gemini menyediakan dalam bentuk tabel perhitungan 'jumlah perusahaan per satu juta penduduk' untuk England, Amerika Serikat, Korea Selatan, Taiwan, dan Singapura.
Angka England adalah yang tertinggi, dan hasil itu diinterpretasikan dengan urutan Amerika Serikat, Korea Selatan, Taiwan, lalu Singapura.
Tiap informasi dikumpulkan dari berbagai sumber, dan angka sebenarnya dapat sedikit berbeda tergantung definisi yang tepat.
Jika model AI dilatih per domain, hasil yang lebih spesialis untuk masalah tertentu dapat diperoleh.

Penjelasan singkat tentang model generatif yang membuat gambar dan video.

Dalam video ini dijelaskan secara singkat tentang model generatif yang membuat gambar dan video.
Ada proyek penelitian terkait 'Party' dan 'Imagine', dan dalam membuat model yang menghasilkan citra visual, input teks dapat digunakan untuk menghasilkan gambar tertentu.
Misalnya, terhadap input teks yang meminta untuk membuat gambar baru, model menafsirkannya lalu menghasilkan gambar yang sebenarnya.
Model generatif seperti ini membuat gambar berdasarkan representasi teks atas piksel beserta deskripsi objek.
Melalui pendekatan ini, gambar dapat dibuat berdasarkan teks yang diinginkan.

Perkembangan fitur gambar memberikan kenyamanan bagi pengguna smartphone.

Jika beberapa model analisis gambar dilatih dengan parameter yang berbeda, hasilnya akan berbeda tergantung skalanya.
Fitur kamera smartphone semakin meningkat berkat kombinasi fotografi komputasional dan machine learning.
Berbagai fitur seperti mode foto, mode malam, penekanan warna, respons percakapan otomatis, dan lainnya memungkinkan transformasi real-time serta ekstraksi teks.
Fitur-fitur ini mempertimbangkan konteks pengguna untuk memberikan transformasi dan respons yang tampak seperti hal yang sebelumnya tidak mungkin ada.
Ini memberikan manfaat revolusioner dalam lingkungan literasi terbatas, seperti pengiriman gambar yang jelas dan terjemahan multibahasa.

Pemanfaatan teknologi machine learning di bidang material science dan kesehatan

Machine learning digunakan di bidang material science dan memengaruhi berbagai aspek seperti pembuatan simulator cepat.
Melalui machine learning, ada potensi besar untuk menyelidiki material yang mungkin dan mengidentifikasi bahan dengan karakteristik tertentu.
Di bidang kesehatan, machine learning juga digunakan untuk diagnosis citra medis dan dapat mendeteksi lebih dini hal seperti retinopati diabetik.
Melalui analisis medical imaging, pasien dapat disaring bahkan di daerah yang kekurangan dokter, dan model AI dapat memiliki efektivitas yang mirip dengan spesialis.

Sementara machine learning dan komputer mengubah dunia, ada prinsip tentang penerapan dan tanggung jawab machine learning

Melakukan screening cepat dengan GPU dan diagnosis dermatologi melalui foto
Mengumumkan prinsip-prinsip penerapan machine learning seperti menghapus bias yang tidak adil, interpretabilitas model, pertimbangan privasi, dan manfaat sosial
Saat ini penelitian tentang bias, privasi, keamanan, dan sebagainya juga terus dilakukan
Dengan kemajuan machine learning dan komputasi, diharapkan percakapan dan interaksi yang alami dengan pengguna menjadi mungkin, dan komputer dapat memahami serta menghasilkan berbagai bentuk informasi
Bersamaan dengan potensi teknologi ini, kita juga harus memiliki rasa tanggung jawab terhadap masyarakat

Membahas pentingnya data dan kebutuhan pelanggan melalui pertanyaan-pertanyaan yang muncul

Dari pertanyaan yang masuk melalui Slido, beberapa pertanyaan dengan kecenderungan tertentu dipilih dan dibagikan.
Di bidang data, data berkualitas tinggi dan kapasitas model dapat meningkatkan performa model.
Namun kualitas data dan ukuran model harus dipertimbangkan. Data berkualitas rendah dapat berdampak negatif pada kemampuan model menyelesaikan persoalan matematika dan sebagainya.
Pelatihan dengan data video dalam jumlah besar masih belum cukup banyak dilakukan, dan memahami dunia melalui data visual serta suara, bukan hanya data bahasa, akan berbeda dari belajar hanya lewat bahasa.
Secara keseluruhan, data belum habis, dan masih ada kemungkinan perkembangan lebih lanjut.

Apakah model multimodal akan berkinerja lebih baik daripada model target untuk masing-masing domain?

Dalam beberapa kasus, model multimodal bisa memiliki performa yang lebih baik.
Semakin banyak modality yang ditambahkan, ada kecenderungan performa modality lain juga meningkat.
Jika dikumpulkan dataset yang ditargetkan untuk masalah sempit, performa pada masalah tersebut bisa meningkat.
Namun jika masalahnya kompleks atau sulit mengumpulkan data yang terspesialisasi, dibutuhkan model yang memiliki pengetahuan beragam.
Individu dengan resource terbatas akan sulit melatih model besar, sehingga ada banyak topik riset yang bisa dieksplorasi di bidang machine learning.

Menekankan pentingnya riset model dengan GPU dan berbagai modality data

Dengan satu GPU atau sejumlah kecil GPU, dimungkinkan melakukan riset seperti evaluasi kualitas data, evaluasi otomatis, pembelajaran curriculum online, dan metode optimasi.
Riset Transformer dilakukan di atas 8 GPU. LLM dan model sequence-to-sequence juga diteliti dengan 8 GPU.
Muncul pertanyaan apakah LLM dan Transformer adalah segalanya, serta bagaimana peran riset model lain di bidang machine learning.
Kekhawatirannya adalah ide lain yang belum terlalu diperdetailkan atau kurang dieksplorasi bisa tersisih sehingga tidak sempat menghasilkan perkembangan yang layak diperhatikan.
Menangani berbagai modality dinilai penting, dan perlu mempertimbangkan bukan hanya visual, audio, dan bahasa, tetapi juga modality lain seperti data sensor detak jantung di bidang medis.

3 komentar

everfrost314 2024-02-21

Setengahnya membahas Gemini ya, hehe

xguru 2024-02-21

Isi video diringkas oleh Lilys.AI.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Terima kasih.. karena xguru sudah membuatnya sebelumnya, saya bisa melihat hasilnya hanya dalam 1 detik... ^^

Jeff Dean: Tren Terbaru dalam Machine Learning [Video]

Bacaan terkait

3 komentar