Model Generasi Berikutnya Google: Gemini 1.5

(blog.google)

9 poin oleh GN⁺ 2024-02-16 | 3 komentar | Bagikan ke WhatsApp

Minggu lalu, Google merilis Gemini 1.0 Ultra, model paling cakapnya, menandai kemajuan penting dalam membuat produk Google menjadi lebih berguna
Developer dan pelanggan cloud kini dapat mulai membangun dengan 1.0 Ultra melalui Gemini API di AI Studio dan Vertex AI
Dengan menempatkan keamanan sebagai inti, tim yang mendorong batas terdepan model bergerak cepat dan siap memperkenalkan generasi berikutnya, Gemini 1.5
Gemini 1.5 menunjukkan peningkatan yang signifikan di berbagai dimensi, dan 1.5 Pro mencapai kualitas yang serupa dengan 1.0 Ultra sambil menggunakan komputasi yang lebih sedikit
Generasi baru ini menghadirkan terobosan dalam pemahaman konteks panjang lintas modalitas, secara besar meningkatkan jumlah informasi yang dapat diproses model hingga mampu berjalan konsisten sampai 1 juta token

Memperkenalkan Gemini 1.5

Kemajuan baru di bidang AI memiliki potensi untuk membuat AI lebih berguna bagi miliaran orang dalam beberapa dekade mendatang
Sejak memperkenalkan Gemini 1.0, pengujian, penyempurnaan, dan peningkatan kemampuan terus dilakukan
Gemini 1.5 menghadirkan performa yang jauh lebih baik, sekaligus menandai perubahan pendekatan yang didasarkan pada inovasi riset dan rekayasa
Dengan menggunakan arsitektur Mixture-of-Experts (MoE) yang baru, pelatihan dan penyajian model menjadi lebih efisien
Gemini 1.5 Pro adalah model multimodal berukuran menengah yang dioptimalkan untuk berbagai jenis tugas, dan memberikan tingkat performa yang setara dengan 1.0 Ultra, model terbesar sejauh ini
Gemini 1.5 Pro menyediakan context window standar sebesar 128.000 token, tetapi developer dan pelanggan enterprise dapat mencoba context window hingga 1 juta token melalui AI Studio dan Vertex AI

Arsitektur yang efisien

Gemini 1.5 dibangun berdasarkan riset terdepan tentang arsitektur Transformer dan MoE
Transformer tradisional bekerja sebagai satu jaringan saraf besar, sedangkan model MoE dibagi menjadi jaringan saraf "pakar" yang lebih kecil
Bergantung pada jenis input, model MoE belajar untuk secara selektif mengaktifkan hanya jalur pakar yang paling relevan dalam jaringan saraf
Spesialisasi ini secara drastis meningkatkan efisiensi model

Konteks lebih besar, kemampuan lebih berguna

"Context window" pada model AI terdiri dari token yang digunakan untuk memproses informasi
Semakin besar context window model, semakin banyak informasi yang dapat diproses sekaligus, sehingga output menjadi lebih konsisten, relevan, dan berguna
Melalui inovasi machine learning, kapasitas context window 1.5 Pro dapat diperluas jauh melampaui 32.000 token asli pada Gemini 1.0
Kini 1.5 Pro dapat memproses informasi dalam jumlah sangat besar sekaligus, dan dalam riset telah berhasil diuji hingga 10 juta token

Peningkatan performa

Saat diuji pada panel komprehensif yang mencakup evaluasi teks, kode, gambar, audio, dan video, 1.5 Pro mengungguli 1.0 Pro pada 87% benchmark yang digunakan dalam pengembangan large language models (LLMs)
1.5 Pro tetap mempertahankan tingkat performa yang tinggi meskipun context window-nya diperbesar

Pengujian etika dan keamanan yang luas

Sesuai dengan prinsip AI dan kebijakan keamanan yang kuat, dipastikan bahwa model menjalani pengujian etika dan keamanan yang ekstensif
Sejak peluncuran 1.0 Ultra, tim terus menyempurnakan model agar aman untuk peluncuran yang lebih luas
Menjelang peluncuran 1.5 Pro, evaluasi ekstensif dilakukan di berbagai area seperti keamanan konten dan dampak representasi, dan pengujian ini akan terus diperluas

Membangun dan bereksperimen dengan model Gemini

Target telah ditetapkan untuk menghadirkan generasi baru model Gemini secara bertanggung jawab kepada miliaran orang, developer, dan perusahaan di seluruh dunia
Mulai hari ini, pratinjau terbatas 1.5 Pro tersedia bagi developer dan pelanggan enterprise melalui AI Studio dan Vertex AI
Ketika model siap untuk peluncuran yang lebih luas, 1.5 Pro akan diperkenalkan dengan context window standar 128.000 token
Penguji awal dapat mencoba context window 1 juta token secara gratis selama masa pengujian, tetapi fitur eksperimental ini dapat menyebabkan latensi yang lebih tinggi

Pendapat GN⁺

Hal terpenting dari Gemini 1.5 adalah kemampuannya untuk secara besar meningkatkan jumlah informasi yang dapat diproses model AI, sehingga memungkinkan penanganan tugas yang lebih kompleks dan beragam
Model ini akan membawa kemajuan AI ke tingkat baru dan membantu developer serta perusahaan membangun model dan aplikasi yang lebih berguna
Ini menunjukkan bagaimana riset dan inovasi Google membentuk masa depan teknologi AI, sekaligus memberi wawasan menarik tentang bagaimana AI dapat terintegrasi ke dalam kehidupan sehari-hari kita di masa depan

3 komentar

yoo04233 2024-02-17

Untuk AI yang saya gunakan sekarang, saya paling sering memakai GPT-4, dan sepertinya teknologi AI akan makin banyak diterapkan dalam kehidupan sehari-hari.

riskatcher 2024-02-16

Google kelihatannya cukup panik ya, sampai terus membocorkan mana yang lebih bagus bahkan sebelum rilis, sementara Ultra sendiri sampai sekarang dukungan multibahasanya pun masih belum beres, padahal levelnya masih seperti OpenAI setahun lalu yang butuh prompt genie.

GN⁺ 2024-02-16

Opini Hacker News

Ringkasan komentar tentang whitepaper:
- Kurangnya penjelasan tentang cara mencapai konteks 10M token: Whitepaper tidak menjelaskan bagaimana mencapai konteks 10M token.
- Pengurangan kompleksitas stack RAG: Kemampuan konteks 10M langsung menghilangkan sebagian besar kompleksitas stack RAG, yang sangat menyederhanakan banyak use case.
- Keunggulan 1.5 Pro: Disebutkan dengan jelas bahwa 1.5 Pro secara umum lebih baik daripada GPT-4, dan ini menarik karena menjadi pemimpin baru sebagai LLM-as-judge.
- Kemampuan tinggi 1.5 Ultra: 1.5 Ultra tampak sangat mumpuni, dan 1.5 Pro sendiri sudah sangat mumpuni. Model ini mendapat skor tinggi di berbagai pengujian, dan ditunjukkan bahwa sebagian besar tes dengan skor rendah pada akhirnya merupakan false negative.
- Potensi 1.5 Pro: 1.5 Pro seharusnya menjadi tolok ukur untuk tugas workflow. 1.0 Ultra sangat mumpuni tetapi agak lambat. Model terbuka yang menggunakannya tampaknya akan mengalami peningkatan kualitas yang besar.
- Meninjau ulang tes coding: Sudah waktunya mencoba lagi tes coding yang meminta penulisan modul baru.
- Rasa penasaran tentang cara mencapai 10M konteks: Berdasarkan petunjuk dari tes "needle" audio dan video yang menunjukkan recall sempurna di sepanjang 10M token, ada dugaan bahwa terdapat semacam bentuk kompresi, bukan satu vektor superpanjang tunggal.
Informasi menarik dari laporan teknis:
- Masalah kebocoran data pada benchmark HumanEval: HumanEval adalah benchmark evaluasi open source standar industri, tetapi tidak mudah mengendalikan kebocoran tak sengaja dari halaman web dan repositori kode open source. Analisis kebocoran data uji pada Gemini 1.0 Ultra menunjukkan bahwa melanjutkan pretraining pada dataset yang hanya memuat satu epoch dari split uji HumanEval meningkatkan skor secara signifikan dari 74.4% menjadi 89.0%. Kenaikan ini tetap terjadi bahkan ketika contoh disertakan dalam format lain seperti JSON dan HTML. Para peneliti diminta meminimalkan risiko kebocoran dengan selalu menyimpan satu set kecil fungsi uji holdout yang benar-benar ditulis sendiri saat mengevaluasi kemampuan coding model-model ini. Benchmark Natural2Code dibuat untuk menutup celah ini, mengikuti format yang sama dengan HumanEval tetapi dengan prompt dan set uji yang berbeda.
Performa menonjol dalam laporan teknis:
- Kemampuan konteks panjang Gemini 1.5 Pro: Penelitian tentang kemampuan konteks panjang Gemini 1.5 Pro menemukan peningkatan berkelanjutan dalam prediksi token berikutnya serta retrieval yang hampir sempurna (>99%) hingga setidaknya 10M token.
Kemampuan baru model bahasa skala besar:
- Terjemahan bahasa Kalamang: Model yang diberi manual tata bahasa untuk bahasa Kalamang, yang digunakan oleh kurang dari 200 orang di seluruh dunia, mempelajari cara menerjemahkan dari bahasa Inggris ke Kalamang pada tingkat yang mirip dengan manusia yang belajar dari materi yang sama.
Kurangnya kepercayaan terhadap Google:
- Keraguan terhadap pengumuman Google: Karena video hasil edit marketing yang dirilis sebelumnya tidak menunjukkan produk nyata, apa pun yang dirilis Google tidak dipercaya kecuali ada form input yang bisa langsung diuji.
Keraguan terhadap Demis Hassabis:
- Pandangan skeptis terhadap strategi promosi masa lalu: Ada sikap skeptis terhadap Demis Hassabis soal promosi sejak masa pengembangan video game-nya di masa lalu. "Infinite Polygons" menjadi bahan lelucon di industri, dan game Republic dianggap sebagai kegagalan yang membosankan.
Sifat revolusioner dari 10M token:
- Korelasi antara ukuran prompt dan kualitas: 10M token adalah game changer, dan akan sangat revolusioner jika tidak ada penurunan yang terlihat antara ukuran prompt dan kualitas. Orang akan mulai memandang prompt itu sendiri sebagai semacam runtime, bukan input statis.
Pengalaman negatif terhadap Gemini:
- Performa Gemini yang kurang memadai: Setelah mencoba Gemini, performanya terasa sangat mengecewakan. Hasilnya jauh lebih buruk dibandingkan ChatGPT atau llama lokal. Tidak ada kepercayaan pada strategi AI Google, dan diasumsikan semua talenta yang kompeten sudah pindah ke OpenAI atau Anthropic.
Perbedaan antara Pro dan Ultra:
- Ukuran context window: Saat ini, context window dari 100k token hingga satu juta membuka fitur yang sangat menarik. RAG bisa menjadi sangat kuat dengan informasi sebanyak itu.
Inovasi pada ukuran context window:
- Penyelesaian masalah token input: Jika benar-benar bekerja seperti yang diiklankan, ini akan menggantikan kebutuhan akan RAG atau fine-tuning untuk analisis tertentu. Orang penasaran bagaimana mereka menyelesaikan masalah pengisian token input.