4 poin oleh GN⁺ 2024-06-11 | 1 komentar | Bagikan ke WhatsApp
  • Di WWDC 2024, Apple mengumumkan Apple Intelligence, sistem kecerdasan personal yang terintegrasi mendalam ke iOS 18, iPadOS 18, dan macOS Sequoia
  • Apple Intelligence terdiri dari banyak model generatif yang dioptimalkan untuk tugas sehari-hari pengguna, dan dapat segera beradaptasi dengan aktivitas saat ini
  • Model fondasi bawaan telah di-fine-tune untuk pengalaman pengguna seperti menulis/menyempurnakan dokumen, merangkum/memprioritaskan notifikasi, membuat gambar seru untuk percakapan, serta menyederhanakan interaksi antar aplikasi
  • Dua model — model bahasa on-device dengan sekitar 3 miliar parameter, dan model bahasa berbasis server yang lebih besar yang disediakan melalui Private Cloud Compute — dibangun dan diterapkan agar dapat melakukan tugas-tugas khusus ini secara efisien, akurat, dan bertanggung jawab
  • Keduanya merupakan bagian dari keluarga model generatif buatan Apple yang lebih luas, termasuk model coding untuk membangun intelligence di Xcode, model difusi yang membantu ekspresi visual di aplikasi Messages, dan lainnya

Fokus pada pengembangan AI yang bertanggung jawab

  • Apple Intelligence dirancang agar selaras dengan nilai-nilai inti di setiap tahap dan dibangun di atas inovasi privasi yang terobosan
  • Apple menetapkan prinsip AI yang bertanggung jawab untuk memandu cara pengembangan alat AI dan model yang mendasarinya:
    1. Memberdayakan pengguna dengan alat yang cerdas
    2. Mewakili pengguna
    3. Dirancang dengan hati-hati
    4. Melindungi privasi
  • Prinsip-prinsip ini tercermin di seluruh arsitektur yang memungkinkan Apple Intelligence

Pre-Training

  • Model fondasi dilatih dengan framework AXLearn milik Apple yang dirilis sebagai open source pada 2023
  • Dibangun di atas JAX dan XLA, sehingga memungkinkan pelatihan yang efisien dan skalabel di berbagai perangkat keras dan platform cloud
  • Menggunakan kombinasi teknik paralelisasi yang memungkinkan penskalaan pelatihan di berbagai dimensi seperti data, model, panjang sekuens, dan lainnya
  • Model dilatih dengan data berlisensi dan data publik. Web publisher dapat memilih keluar dari penggunaan konten web mereka untuk pelatihan Apple Intelligence melalui kontrol penggunaan data
  • Data pribadi atau interaksi pengguna tidak pernah digunakan. Diterapkan penyaringan untuk menghapus PII, memfilter konten berkualitas rendah, serta classifier berbasis model untuk mengidentifikasi dokumen berkualitas tinggi

Post-Training

  • Setelah menegaskan bahwa kualitas data sangat penting bagi keberhasilan model, Apple memanfaatkan strategi data hibrida
  • Apple mengembangkan algoritma rejection sampling fine-tuning dengan komite pengajar, serta algoritma RLHF yang menggunakan mirror descent policy optimization dan leave-one-out advantage estimator
  • Kedua algoritma ini secara signifikan meningkatkan kualitas kemampuan model dalam mengikuti instruksi

Optimization

  • Selain mengembangkan model generatif berperforma tinggi, Apple juga menerapkan berbagai teknik inovatif untuk mengoptimalkan kecepatan dan efisiensi di on-device dan private cloud
  • Baik model on-device maupun model server sama-sama menggunakan grouped-query attention
  • Menggunakan tabel embedding kosakata input dan output bersama untuk mengurangi kebutuhan memori dan biaya inferensi
  • Model on-device menggunakan ukuran kosakata 49K, sedangkan model server menggunakan ukuran kosakata 100K termasuk bahasa tambahan dan token teknis
  • Untuk inferensi on-device, digunakan low-bit palettization — Apple mengembangkan framework adaptor LoRA baru yang menggabungkan strategi konfigurasi campuran 2-bit dan 4-bit (rata-rata 3,5 bit per bobot) untuk mencapai akurasi yang sama dengan model yang tidak dikompresi
  • Menggunakan alat Talaria untuk memandu pemilihan bitrate yang lebih baik untuk tiap tugas
  • Memanfaatkan activation dan embedding quantization, serta mengembangkan cara pembaruan KV cache yang efisien
  • Dengan rangkaian optimasi ini, Apple mencapai latensi time-to-first-token sekitar 0,6 ms per token prompt dan kecepatan generasi 30 token per detik di iPhone 15 Pro

Model Adaptation

  • Model fondasi di-fine-tune untuk aktivitas sehari-hari pengguna, dan dapat secara dinamis menspesialisasikan dirinya sesuai tugas yang sedang dijalankan
  • Untuk fine-tuning model pada tugas tertentu, digunakan adaptor, yaitu modul jaringan saraf kecil yang dapat dihubungkan ke berbagai lapisan model pra-latih
  • Hanya lapisan adaptor yang di-fine-tune, sehingga parameter asli model pra-latih dasar tidak berubah, pengetahuan umum tetap dipertahankan, sementara lapisan adaptor disesuaikan untuk mendukung tugas spesifik

Performance and Evaluation

  • Apple berfokus pada penyediaan model generatif yang memungkinkan pengguna berkomunikasi, bekerja, mengekspresikan diri, dan menyelesaikan tugas di seluruh produk Apple
  • Saat melakukan benchmarking model, Apple berfokus pada evaluasi manusia yang terbukti berkorelasi tinggi dengan pengalaman pengguna
  • Evaluasi kinerja dilakukan untuk adaptor per fitur maupun model fondasi

Contoh evaluasi adaptor ringkasan:

  • Karena kebutuhan produk untuk ringkasan email dan notifikasi berbeda secara halus namun penting, adaptor LoRA di-fine-tune di atas model yang telah dipalettisasi untuk memenuhi kebutuhan spesifik tersebut
  • Data pelatihan didasarkan pada ringkasan sintetis yang dihasilkan oleh model server yang lebih besar, lalu difilter dengan strategi rejection sampling yang hanya mempertahankan ringkasan berkualitas tinggi
  • Evaluasi ringkasan per produk menggunakan 750 set respons yang disampling dengan cermat untuk tiap use case
  • Dataset evaluasi menekankan beragam input yang kemungkinan besar akan dihadapi fitur produk di production, termasuk campuran bertingkat dari dokumen tunggal dan dokumen bertumpuk dengan berbagai jenis dan panjang konten
  • Penting untuk mengevaluasi kinerja pada dataset yang mewakili use case nyata sebagai fitur produk
  • Ditemukan bahwa model dengan adaptor menghasilkan ringkasan yang lebih baik dibandingkan model sebanding

Human Satisfaction Score on Summarization Feature Benchmark

  • Menurut tabel data, model on-device+adaptor Apple menunjukkan rasio kepuasan baik yang lebih tinggi dan rasio kepuasan buruk yang lebih rendah daripada model Phi-3-mini untuk ringkasan email dan notifikasi. Model dengan adaptor menghasilkan ringkasan yang lebih baik.
  • Model on-device dan server Apple mengevaluasi kapabilitas umum menggunakan set evaluasi komprehensif yang terdiri dari prompt dunia nyata dengan tingkat kesulitan beragam. Dibandingkan dengan model open source dan komersial berukuran serupa, hasilnya:
    • Model on-device (~3 miliar parameter) menunjukkan kinerja lebih baik daripada model yang lebih besar seperti Phi-3-mini, Mistral-7B, dan Gemma-7B
    • Model server sebanding dengan DBRX-Instruct, Mixtral-8x22B, dan GPT-3.5-Turbo, namun sangat efisien
  • Berbagai set prompt adversarial digunakan untuk menguji kinerja model dalam hal konten berbahaya, topik sensitif, dan faktualitas. Baik model on-device maupun model server sama-sama tangguh saat menghadapi prompt adversarial dan mencapai tingkat pelanggaran yang lebih rendah dibandingkan model open source dan komersial.
  • Menggunakan benchmark IFEval untuk membandingkan kemampuan mengikuti instruksi dengan model berukuran serupa, hasilnya menunjukkan bahwa model on-device dan server Apple lebih baik dalam mengikuti instruksi terperinci dibandingkan model open source dan komersial di kelas yang sama.
  • Kemampuan menulis model juga dievaluasi pada benchmark internal ringkasan dan penulisan yang terdiri dari berbagai instruksi penulisan.

Writing Benchmarks

  • Menurut tabel data, dalam ringkasan dan penulisan, model on-device dan server Apple menunjukkan performa yang baik dan sebanding dengan model pembanding.

Kesimpulan

  • Model fondasi dan adaptor Apple yang diperkenalkan di WWDC24 menjadi dasar Apple Intelligence, sistem kecerdasan personal baru yang terintegrasi mendalam ke iPhone, iPad, dan Mac untuk menyediakan kemampuan kuat di ranah bahasa, gambar, tindakan, dan konteks personal
  • Dibuat dengan tujuan membantu pengguna menjalankan aktivitas sehari-hari di seluruh produk Apple, serta dikembangkan secara bertanggung jawab di setiap tahap dan dipandu oleh nilai-nilai inti Apple
  • Informasi tentang keluarga model generatif yang lebih luas, termasuk model bahasa, difusi, dan coding, akan segera dibagikan

1 komentar

 
GN⁺ 2024-06-11
Komentar Hacker News
  • Pemanfaatan adapter: Model disetel halus untuk tugas tertentu dengan menggunakan adapter, yaitu modul jaringan saraf kecil yang dapat dipasang ke berbagai layer pada model yang sudah dilatih sebelumnya. Ini memungkinkan pengembang aplikasi menggunakan model yang dioptimalkan untuk tiap model hardware.

  • Ekspektasi: Meski belum ada pengumuman dukungan pelatihan pihak ketiga, ada harapan bahwa itu sedang direncanakan. Tantangan ML lokal+privat adalah agar tiap aplikasi tidak memerlukan bobot berukuran besar.

  • Peluang bagi Apple: Apple punya peluang untuk menyediakan model yang dioptimalkan untuk tiap chip, serta adapter yang hanya memerlukan beberapa MB bobot untuk kasus penggunaan baru. Ini mirip dengan slimming aplikasi untuk model.

  • Pengalaman pengembang: Meski model dasarnya bukan yang paling mutakhir, pengalaman pengembangnya sangat baik dan dapat diulang. Sisi server jauh lebih mudah, dan lokal+privat diperkirakan akan mencakup banyak kasus penggunaan.

  • Peran adapter: Adapter digunakan untuk menyetel halus model agar sesuai dengan tugas tertentu, mengelola memori secara efisien, dan memastikan responsivitas sistem operasi. Parameter adapter direpresentasikan dalam 16-bit, dan untuk model dengan sekitar 300 juta parameter, diperlukan memori sekitar 10MB.

  • Mirip dengan LoRAs: Pendekatan ini terdengar mirip dengan LoRAs.

  • Grafik perbandingan: Di tengah artikel ada grafik perbandingan dengan model terkait lainnya. Model sisi server lebih baik daripada GPT-3.5, tetapi lebih buruk daripada GPT-4. Namun, grafik "evaluasi manusia atas bahaya output" sangat menarik.

  • Kehati-hatian model: Model dibuat lebih berhati-hati dengan menjadikan GPT sebagai "level 3" dan memperjelas bahwa "ini adalah yang dikatakan ChatGPT" dengan menggunakan model OpenAI.

  • Harapan penggunaan model server: Isi dari dua halaman ini sangat bagus, dan saya ingin mencoba model server untuk membangun cloud yang dioptimalkan untuk stack Apple.

  • Harapan peningkatan memori: Ada harapan Apple akan menaikkan memori dasar semua Mac menjadi di atas 8GB. Akan bagus jika 16GB M4 menjadi standar, tetapi Apple mungkin akan menyediakan 12GB dan mengenakan biaya tambahan untuk opsi 16GB.

  • Privasi data: Apple harus memperjelas apa yang diteruskan ke layanan pihak ketiga, dan memberi pengguna kemampuan untuk opt-out jika mereka mau. Menjalankan inferensi di perangkat berbeda dengan mengirim data melalui API OpenAI.

  • Preferensi nama domain: Saya suka mereka menggunakan machinelearning.apple.com.

  • Hasil optimasi: Menggunakan bobot 3.5B tanpa kehilangan kualitas merupakan hasil optimasi mutakhir.

  • Evaluasi bahaya output: Terlihat bahwa Mistral-7B adalah yang terbaik di antara model kecil dalam meminimalkan penolakan false positive.

  • Dampak pada daya tahan baterai: Saya penasaran bagaimana model-model ini memengaruhi daya tahan baterai. Saat mencoba aplikasi PrivateLLM di iPhone 15 Pro, daya baterai turun tajam setelah digunakan beberapa menit.