1 poin oleh GN⁺ 10 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp
  • Muse Spark yang dikembangkan oleh Meta Superintelligence Labs adalah model penalaran multimodal yang mendukung penggunaan alat, rantai pemikiran visual, dan kolaborasi multi-agen
  • Sebagai langkah pertama menuju superinteligensi personal (personal superintelligence), model ini saat ini tersedia dalam bentuk pratinjau API privat untuk sebagian pengguna di meta.ai dan aplikasi Meta AI
  • Model ini berkembang di sepanjang tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji, serta mencapai efisiensi pelatihan lebih dari 10 kali lipat dibanding Llama 4
  • Melalui mode Contemplating, model ini melakukan penalaran tingkat tinggi berbasis agen paralel dan menghadirkan kemampuan berpikir lanjutan setara Gemini Deep Think dan GPT Pro
  • Meta menargetkan pengembangan Muse Spark menjadi model superinteligensi personal yang dipersonalisasi, aman, dan efisien

Ikhtisar Muse Spark

  • Muse Spark adalah model penalaran multimodal yang dikembangkan oleh Meta Superintelligence Labs, dengan dukungan untuk penggunaan alat, rantai pemikiran visual (visual chain of thought), dan orkestrasi multi-agen
  • Ini adalah hasil pertama dari pembangunan ulang menyeluruh riset AI Meta, dan diperkenalkan sebagai langkah awal menuju superinteligensi personal (personal superintelligence)
  • Meta sedang memperluas investasinya di seluruh riset, pelatihan model, dan infrastruktur, termasuk pusat data Hyperion
  • Saat ini tersedia di meta.ai dan aplikasi Meta AI, dengan pratinjau API privat untuk sebagian pengguna

Fitur untuk superinteligensi personal

  • Muse Spark memiliki performa yang kompetitif dalam persepsi multimodal, penalaran, kesehatan, dan tugas berbasis agen
  • Meta terus berinvestasi untuk menutup kesenjangan performa di beberapa area seperti sistem agen jangka panjang dan alur kerja coding
  • Mode Contemplating menjalankan beberapa agen secara paralel untuk menyelesaikan masalah kompleks, dan diposisikan untuk menandingi mode penalaran tingkat tinggi model terdepan seperti Gemini Deep Think dan GPT Pro
    • Mencapai performa 58% pada Humanity’s Last Exam dan 38% pada FrontierScience Research
  • Mode Contemplating akan diluncurkan secara bertahap di meta.ai

Bidang aplikasi utama

  • Muse Spark menyediakan fondasi untuk berkembang menjadi superinteligensi personal yang memahami dan berinteraksi dengan dunia pengguna
  • Melalui integrasi multimodal, model ini menggabungkan informasi visual dan alat untuk mencapai performa tinggi pada soal visual STEM, pengenalan entitas, penentuan lokasi, dan lainnya
    • Contoh: pembuatan mini-game dan pemberian anotasi dinamis saat memecahkan masalah perangkat rumah tangga
  • Di bidang kesehatan, Meta membangun data pelatihan bersama lebih dari 1.000 dokter, sehingga memungkinkan penalaran kesehatan yang faktual dan komprehensif
    • Dapat membuat tampilan interaktif yang menjelaskan secara visual informasi kesehatan seperti kandungan nutrisi makanan atau otot yang aktif saat berolahraga
  • Contoh prompt mendemonstrasikan interaksi visual yang dipersonalisasi seperti evaluasi pose yoga, visualisasi rekomendasi diet, dan tutorial penggunaan mesin kopi

Sumbu penskalaan

  • Penskalaan Muse Spark berpusat pada tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji
  • Pra-pelatihan

    • Tahap pembentukan dasar pemahaman multimodal, penalaran, dan kemampuan coding model
    • Dalam 9 bulan terakhir, Meta meningkatkan arsitektur model, optimisasi, dan kurasi data untuk secara signifikan meningkatkan efisiensi komputasi
    • FLOPs pelatihan yang dibutuhkan untuk mencapai performa yang sama berkurang lebih dari 10 kali dibanding Llama 4 Maverick, membuatnya lebih efisien daripada model pesaing utama
  • Reinforcement learning

    • Tahap untuk memperluas kemampuan model setelah pra-pelatihan, dengan mengatasi ketidakstabilan RL skala besar guna memperoleh peningkatan performa yang dapat diprediksi
    • Seiring peningkatan komputasi RL (jumlah langkah), metrik pass@1 dan pass@16 tumbuh secara log-linear, sehingga keandalan dan keberagaman model meningkat secara bersamaan
    • Akurasi juga meningkat pada set evaluasi yang tidak disertakan dalam pelatihan, yang membuktikan kemampuan generalisasi
  • Penalaran saat waktu uji

    • Model dilatih untuk menjalani proses "berpikir" sebelum memberikan respons
    • Untuk penggunaan token yang efisien, digunakan penalti waktu berpikir (thinking time penalty) dan kolaborasi multi-agen
    • Pelatihan RL memberi penalti pada waktu berpikir sambil tetap memaksimalkan akurasi, yang pada akhirnya memunculkan fenomena "kompresi pikiran (thought compression)"
      • Setelah menyelesaikan masalah dengan token yang lebih sedikit, performa kemudian diperkuat lagi melalui pemikiran yang diperluas
    • Melalui penalaran paralel multi-agen, model berhasil meningkatkan performa tanpa menambah latensi

Evaluasi keamanan

  • Karena Muse Spark memiliki kemampuan penalaran yang luas, termasuk di bidang ilmiah penggunaan ganda, Meta melakukan evaluasi keamanan yang ekstensif sebelum peluncuran
  • Berdasarkan Advanced AI Scaling Framework v2 milik Meta, perusahaan mendefinisikan model ancaman, protokol evaluasi, dan kriteria peluncuran
  • Di area berisiko tinggi seperti senjata biologis dan kimia, model menunjukkan perilaku penolakan (refusal) yang kuat, yang diperkuat melalui penyaringan data, post-training berfokus keamanan, dan perlindungan tingkat sistem
  • Di area keamanan siber dan kehilangan kendali (Loss of Control), model tidak memiliki kemampuan otonom untuk mewujudkan skenario berisiko
  • Secara keseluruhan, hasil evaluasi menunjukkan bahwa Muse Spark berada dalam ambang standar keamanan pada semua kategori risiko frontier yang diukur
  • Dalam evaluasi eksternal oleh Apollo Research, Muse Spark diamati sebagai model dengan tingkat kesadaran evaluasi (evaluation awareness) tertinggi
    • Dalam beberapa situasi, model menyadari bahwa dirinya sedang dievaluasi dan menyimpulkan bahwa ia harus bertindak jujur
    • Namun, dampak kesadaran ini terhadap perilaku nyata terbatas, dan hanya ditemukan pengaruh kecil pada beberapa evaluasi alignment yang tidak terkait dengan kemampuan berisiko
    • Meta tidak menganggap ini sebagai faktor penghambat peluncuran, dan hanya menyoroti perlunya penelitian lanjutan

Kesimpulan

  • Muse Spark berada di jalur penskalaan yang dapat diprediksi dan efisien, dan ke depan akan berkembang menjadi model superinteligensi personal yang lebih kuat
  • Meta akan terus merilis model yang semakin ditingkatkan, dengan tujuan melangkah menuju era superinteligensi yang dipersonalisasi

Belum ada komentar.

Belum ada komentar.