- Muse Spark yang dikembangkan oleh Meta Superintelligence Labs adalah model penalaran multimodal yang mendukung penggunaan alat, rantai pemikiran visual, dan kolaborasi multi-agen
- Sebagai langkah pertama menuju superinteligensi personal (personal superintelligence), model ini saat ini tersedia dalam bentuk pratinjau API privat untuk sebagian pengguna di meta.ai dan aplikasi Meta AI
- Model ini berkembang di sepanjang tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji, serta mencapai efisiensi pelatihan lebih dari 10 kali lipat dibanding Llama 4
- Melalui mode Contemplating, model ini melakukan penalaran tingkat tinggi berbasis agen paralel dan menghadirkan kemampuan berpikir lanjutan setara Gemini Deep Think dan GPT Pro
- Meta menargetkan pengembangan Muse Spark menjadi model superinteligensi personal yang dipersonalisasi, aman, dan efisien
Ikhtisar Muse Spark
- Muse Spark adalah model penalaran multimodal yang dikembangkan oleh Meta Superintelligence Labs, dengan dukungan untuk penggunaan alat, rantai pemikiran visual (visual chain of thought), dan orkestrasi multi-agen
- Ini adalah hasil pertama dari pembangunan ulang menyeluruh riset AI Meta, dan diperkenalkan sebagai langkah awal menuju superinteligensi personal (personal superintelligence)
- Meta sedang memperluas investasinya di seluruh riset, pelatihan model, dan infrastruktur, termasuk pusat data Hyperion
- Saat ini tersedia di meta.ai dan aplikasi Meta AI, dengan pratinjau API privat untuk sebagian pengguna
Fitur untuk superinteligensi personal
- Muse Spark memiliki performa yang kompetitif dalam persepsi multimodal, penalaran, kesehatan, dan tugas berbasis agen
- Meta terus berinvestasi untuk menutup kesenjangan performa di beberapa area seperti sistem agen jangka panjang dan alur kerja coding
- Mode Contemplating menjalankan beberapa agen secara paralel untuk menyelesaikan masalah kompleks, dan diposisikan untuk menandingi mode penalaran tingkat tinggi model terdepan seperti Gemini Deep Think dan GPT Pro
- Mencapai performa 58% pada Humanity’s Last Exam dan 38% pada FrontierScience Research
- Mode Contemplating akan diluncurkan secara bertahap di meta.ai
Bidang aplikasi utama
- Muse Spark menyediakan fondasi untuk berkembang menjadi superinteligensi personal yang memahami dan berinteraksi dengan dunia pengguna
- Melalui integrasi multimodal, model ini menggabungkan informasi visual dan alat untuk mencapai performa tinggi pada soal visual STEM, pengenalan entitas, penentuan lokasi, dan lainnya
- Contoh: pembuatan mini-game dan pemberian anotasi dinamis saat memecahkan masalah perangkat rumah tangga
- Di bidang kesehatan, Meta membangun data pelatihan bersama lebih dari 1.000 dokter, sehingga memungkinkan penalaran kesehatan yang faktual dan komprehensif
- Dapat membuat tampilan interaktif yang menjelaskan secara visual informasi kesehatan seperti kandungan nutrisi makanan atau otot yang aktif saat berolahraga
- Contoh prompt mendemonstrasikan interaksi visual yang dipersonalisasi seperti evaluasi pose yoga, visualisasi rekomendasi diet, dan tutorial penggunaan mesin kopi
Sumbu penskalaan
- Penskalaan Muse Spark berpusat pada tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji
-
Pra-pelatihan
- Tahap pembentukan dasar pemahaman multimodal, penalaran, dan kemampuan coding model
- Dalam 9 bulan terakhir, Meta meningkatkan arsitektur model, optimisasi, dan kurasi data untuk secara signifikan meningkatkan efisiensi komputasi
- FLOPs pelatihan yang dibutuhkan untuk mencapai performa yang sama berkurang lebih dari 10 kali dibanding Llama 4 Maverick, membuatnya lebih efisien daripada model pesaing utama
-
Reinforcement learning
- Tahap untuk memperluas kemampuan model setelah pra-pelatihan, dengan mengatasi ketidakstabilan RL skala besar guna memperoleh peningkatan performa yang dapat diprediksi
- Seiring peningkatan komputasi RL (jumlah langkah), metrik pass@1 dan pass@16 tumbuh secara log-linear, sehingga keandalan dan keberagaman model meningkat secara bersamaan
- Akurasi juga meningkat pada set evaluasi yang tidak disertakan dalam pelatihan, yang membuktikan kemampuan generalisasi
-
Penalaran saat waktu uji
- Model dilatih untuk menjalani proses "berpikir" sebelum memberikan respons
- Untuk penggunaan token yang efisien, digunakan penalti waktu berpikir (thinking time penalty) dan kolaborasi multi-agen
- Pelatihan RL memberi penalti pada waktu berpikir sambil tetap memaksimalkan akurasi, yang pada akhirnya memunculkan fenomena "kompresi pikiran (thought compression)"
- Setelah menyelesaikan masalah dengan token yang lebih sedikit, performa kemudian diperkuat lagi melalui pemikiran yang diperluas
- Melalui penalaran paralel multi-agen, model berhasil meningkatkan performa tanpa menambah latensi
Evaluasi keamanan
- Karena Muse Spark memiliki kemampuan penalaran yang luas, termasuk di bidang ilmiah penggunaan ganda, Meta melakukan evaluasi keamanan yang ekstensif sebelum peluncuran
- Berdasarkan Advanced AI Scaling Framework v2 milik Meta, perusahaan mendefinisikan model ancaman, protokol evaluasi, dan kriteria peluncuran
- Di area berisiko tinggi seperti senjata biologis dan kimia, model menunjukkan perilaku penolakan (refusal) yang kuat, yang diperkuat melalui penyaringan data, post-training berfokus keamanan, dan perlindungan tingkat sistem
- Di area keamanan siber dan kehilangan kendali (Loss of Control), model tidak memiliki kemampuan otonom untuk mewujudkan skenario berisiko
- Secara keseluruhan, hasil evaluasi menunjukkan bahwa Muse Spark berada dalam ambang standar keamanan pada semua kategori risiko frontier yang diukur
- Dalam evaluasi eksternal oleh Apollo Research, Muse Spark diamati sebagai model dengan tingkat kesadaran evaluasi (evaluation awareness) tertinggi
- Dalam beberapa situasi, model menyadari bahwa dirinya sedang dievaluasi dan menyimpulkan bahwa ia harus bertindak jujur
- Namun, dampak kesadaran ini terhadap perilaku nyata terbatas, dan hanya ditemukan pengaruh kecil pada beberapa evaluasi alignment yang tidak terkait dengan kemampuan berisiko
- Meta tidak menganggap ini sebagai faktor penghambat peluncuran, dan hanya menyoroti perlunya penelitian lanjutan
Kesimpulan
- Muse Spark berada di jalur penskalaan yang dapat diprediksi dan efisien, dan ke depan akan berkembang menjadi model superinteligensi personal yang lebih kuat
- Meta akan terus merilis model yang semakin ditingkatkan, dengan tujuan melangkah menuju era superinteligensi yang dipersonalisasi
Belum ada komentar.