Memperkenalkan model fondasi on-device dan berbasis server baru dari Apple

(machinelearning.apple.com)

4 poin oleh GN⁺ 2024-06-11 | 1 komentar | Bagikan ke WhatsApp

Di WWDC 2024, Apple mengumumkan Apple Intelligence, sistem kecerdasan personal yang terintegrasi mendalam ke iOS 18, iPadOS 18, dan macOS Sequoia
Apple Intelligence terdiri dari banyak model generatif yang dioptimalkan untuk tugas sehari-hari pengguna, dan dapat segera beradaptasi dengan aktivitas saat ini
Model fondasi bawaan telah di-fine-tune untuk pengalaman pengguna seperti menulis/menyempurnakan dokumen, merangkum/memprioritaskan notifikasi, membuat gambar seru untuk percakapan, serta menyederhanakan interaksi antar aplikasi
Dua model — model bahasa on-device dengan sekitar 3 miliar parameter, dan model bahasa berbasis server yang lebih besar yang disediakan melalui Private Cloud Compute — dibangun dan diterapkan agar dapat melakukan tugas-tugas khusus ini secara efisien, akurat, dan bertanggung jawab
Keduanya merupakan bagian dari keluarga model generatif buatan Apple yang lebih luas, termasuk model coding untuk membangun intelligence di Xcode, model difusi yang membantu ekspresi visual di aplikasi Messages, dan lainnya

Fokus pada pengembangan AI yang bertanggung jawab

Apple Intelligence dirancang agar selaras dengan nilai-nilai inti di setiap tahap dan dibangun di atas inovasi privasi yang terobosan
Apple menetapkan prinsip AI yang bertanggung jawab untuk memandu cara pengembangan alat AI dan model yang mendasarinya:
1. Memberdayakan pengguna dengan alat yang cerdas
2. Mewakili pengguna
3. Dirancang dengan hati-hati
4. Melindungi privasi
Prinsip-prinsip ini tercermin di seluruh arsitektur yang memungkinkan Apple Intelligence

Pre-Training

Model fondasi dilatih dengan framework AXLearn milik Apple yang dirilis sebagai open source pada 2023
Dibangun di atas JAX dan XLA, sehingga memungkinkan pelatihan yang efisien dan skalabel di berbagai perangkat keras dan platform cloud
Menggunakan kombinasi teknik paralelisasi yang memungkinkan penskalaan pelatihan di berbagai dimensi seperti data, model, panjang sekuens, dan lainnya
Model dilatih dengan data berlisensi dan data publik. Web publisher dapat memilih keluar dari penggunaan konten web mereka untuk pelatihan Apple Intelligence melalui kontrol penggunaan data
Data pribadi atau interaksi pengguna tidak pernah digunakan. Diterapkan penyaringan untuk menghapus PII, memfilter konten berkualitas rendah, serta classifier berbasis model untuk mengidentifikasi dokumen berkualitas tinggi

Post-Training

Setelah menegaskan bahwa kualitas data sangat penting bagi keberhasilan model, Apple memanfaatkan strategi data hibrida
Apple mengembangkan algoritma rejection sampling fine-tuning dengan komite pengajar, serta algoritma RLHF yang menggunakan mirror descent policy optimization dan leave-one-out advantage estimator
Kedua algoritma ini secara signifikan meningkatkan kualitas kemampuan model dalam mengikuti instruksi

Optimization

Selain mengembangkan model generatif berperforma tinggi, Apple juga menerapkan berbagai teknik inovatif untuk mengoptimalkan kecepatan dan efisiensi di on-device dan private cloud
Baik model on-device maupun model server sama-sama menggunakan grouped-query attention
Menggunakan tabel embedding kosakata input dan output bersama untuk mengurangi kebutuhan memori dan biaya inferensi
Model on-device menggunakan ukuran kosakata 49K, sedangkan model server menggunakan ukuran kosakata 100K termasuk bahasa tambahan dan token teknis
Untuk inferensi on-device, digunakan low-bit palettization — Apple mengembangkan framework adaptor LoRA baru yang menggabungkan strategi konfigurasi campuran 2-bit dan 4-bit (rata-rata 3,5 bit per bobot) untuk mencapai akurasi yang sama dengan model yang tidak dikompresi
Menggunakan alat Talaria untuk memandu pemilihan bitrate yang lebih baik untuk tiap tugas
Memanfaatkan activation dan embedding quantization, serta mengembangkan cara pembaruan KV cache yang efisien
Dengan rangkaian optimasi ini, Apple mencapai latensi time-to-first-token sekitar 0,6 ms per token prompt dan kecepatan generasi 30 token per detik di iPhone 15 Pro

Model Adaptation

Model fondasi di-fine-tune untuk aktivitas sehari-hari pengguna, dan dapat secara dinamis menspesialisasikan dirinya sesuai tugas yang sedang dijalankan
Untuk fine-tuning model pada tugas tertentu, digunakan adaptor, yaitu modul jaringan saraf kecil yang dapat dihubungkan ke berbagai lapisan model pra-latih
Hanya lapisan adaptor yang di-fine-tune, sehingga parameter asli model pra-latih dasar tidak berubah, pengetahuan umum tetap dipertahankan, sementara lapisan adaptor disesuaikan untuk mendukung tugas spesifik

Performance and Evaluation

Apple berfokus pada penyediaan model generatif yang memungkinkan pengguna berkomunikasi, bekerja, mengekspresikan diri, dan menyelesaikan tugas di seluruh produk Apple
Saat melakukan benchmarking model, Apple berfokus pada evaluasi manusia yang terbukti berkorelasi tinggi dengan pengalaman pengguna
Evaluasi kinerja dilakukan untuk adaptor per fitur maupun model fondasi

Contoh evaluasi adaptor ringkasan:

Karena kebutuhan produk untuk ringkasan email dan notifikasi berbeda secara halus namun penting, adaptor LoRA di-fine-tune di atas model yang telah dipalettisasi untuk memenuhi kebutuhan spesifik tersebut
Data pelatihan didasarkan pada ringkasan sintetis yang dihasilkan oleh model server yang lebih besar, lalu difilter dengan strategi rejection sampling yang hanya mempertahankan ringkasan berkualitas tinggi
Evaluasi ringkasan per produk menggunakan 750 set respons yang disampling dengan cermat untuk tiap use case
Dataset evaluasi menekankan beragam input yang kemungkinan besar akan dihadapi fitur produk di production, termasuk campuran bertingkat dari dokumen tunggal dan dokumen bertumpuk dengan berbagai jenis dan panjang konten
Penting untuk mengevaluasi kinerja pada dataset yang mewakili use case nyata sebagai fitur produk
Ditemukan bahwa model dengan adaptor menghasilkan ringkasan yang lebih baik dibandingkan model sebanding

Human Satisfaction Score on Summarization Feature Benchmark

Menurut tabel data, model on-device+adaptor Apple menunjukkan rasio kepuasan baik yang lebih tinggi dan rasio kepuasan buruk yang lebih rendah daripada model Phi-3-mini untuk ringkasan email dan notifikasi. Model dengan adaptor menghasilkan ringkasan yang lebih baik.
Model on-device dan server Apple mengevaluasi kapabilitas umum menggunakan set evaluasi komprehensif yang terdiri dari prompt dunia nyata dengan tingkat kesulitan beragam. Dibandingkan dengan model open source dan komersial berukuran serupa, hasilnya:
- Model on-device (~3 miliar parameter) menunjukkan kinerja lebih baik daripada model yang lebih besar seperti Phi-3-mini, Mistral-7B, dan Gemma-7B
- Model server sebanding dengan DBRX-Instruct, Mixtral-8x22B, dan GPT-3.5-Turbo, namun sangat efisien
Berbagai set prompt adversarial digunakan untuk menguji kinerja model dalam hal konten berbahaya, topik sensitif, dan faktualitas. Baik model on-device maupun model server sama-sama tangguh saat menghadapi prompt adversarial dan mencapai tingkat pelanggaran yang lebih rendah dibandingkan model open source dan komersial.
Menggunakan benchmark IFEval untuk membandingkan kemampuan mengikuti instruksi dengan model berukuran serupa, hasilnya menunjukkan bahwa model on-device dan server Apple lebih baik dalam mengikuti instruksi terperinci dibandingkan model open source dan komersial di kelas yang sama.
Kemampuan menulis model juga dievaluasi pada benchmark internal ringkasan dan penulisan yang terdiri dari berbagai instruksi penulisan.

Writing Benchmarks

Menurut tabel data, dalam ringkasan dan penulisan, model on-device dan server Apple menunjukkan performa yang baik dan sebanding dengan model pembanding.

Kesimpulan

Model fondasi dan adaptor Apple yang diperkenalkan di WWDC24 menjadi dasar Apple Intelligence, sistem kecerdasan personal baru yang terintegrasi mendalam ke iPhone, iPad, dan Mac untuk menyediakan kemampuan kuat di ranah bahasa, gambar, tindakan, dan konteks personal
Dibuat dengan tujuan membantu pengguna menjalankan aktivitas sehari-hari di seluruh produk Apple, serta dikembangkan secara bertanggung jawab di setiap tahap dan dipandu oleh nilai-nilai inti Apple
Informasi tentang keluarga model generatif yang lebih luas, termasuk model bahasa, difusi, dan coding, akan segera dibagikan

1 komentar

GN⁺ 2024-06-11

Komentar Hacker News

Pemanfaatan adapter: Model disetel halus untuk tugas tertentu dengan menggunakan adapter, yaitu modul jaringan saraf kecil yang dapat dipasang ke berbagai layer pada model yang sudah dilatih sebelumnya. Ini memungkinkan pengembang aplikasi menggunakan model yang dioptimalkan untuk tiap model hardware.
Ekspektasi: Meski belum ada pengumuman dukungan pelatihan pihak ketiga, ada harapan bahwa itu sedang direncanakan. Tantangan ML lokal+privat adalah agar tiap aplikasi tidak memerlukan bobot berukuran besar.
Peluang bagi Apple: Apple punya peluang untuk menyediakan model yang dioptimalkan untuk tiap chip, serta adapter yang hanya memerlukan beberapa MB bobot untuk kasus penggunaan baru. Ini mirip dengan slimming aplikasi untuk model.
Pengalaman pengembang: Meski model dasarnya bukan yang paling mutakhir, pengalaman pengembangnya sangat baik dan dapat diulang. Sisi server jauh lebih mudah, dan lokal+privat diperkirakan akan mencakup banyak kasus penggunaan.
Peran adapter: Adapter digunakan untuk menyetel halus model agar sesuai dengan tugas tertentu, mengelola memori secara efisien, dan memastikan responsivitas sistem operasi. Parameter adapter direpresentasikan dalam 16-bit, dan untuk model dengan sekitar 300 juta parameter, diperlukan memori sekitar 10MB.
Mirip dengan LoRAs: Pendekatan ini terdengar mirip dengan LoRAs.
Grafik perbandingan: Di tengah artikel ada grafik perbandingan dengan model terkait lainnya. Model sisi server lebih baik daripada GPT-3.5, tetapi lebih buruk daripada GPT-4. Namun, grafik "evaluasi manusia atas bahaya output" sangat menarik.
Kehati-hatian model: Model dibuat lebih berhati-hati dengan menjadikan GPT sebagai "level 3" dan memperjelas bahwa "ini adalah yang dikatakan ChatGPT" dengan menggunakan model OpenAI.
Harapan penggunaan model server: Isi dari dua halaman ini sangat bagus, dan saya ingin mencoba model server untuk membangun cloud yang dioptimalkan untuk stack Apple.
Harapan peningkatan memori: Ada harapan Apple akan menaikkan memori dasar semua Mac menjadi di atas 8GB. Akan bagus jika 16GB M4 menjadi standar, tetapi Apple mungkin akan menyediakan 12GB dan mengenakan biaya tambahan untuk opsi 16GB.
Privasi data: Apple harus memperjelas apa yang diteruskan ke layanan pihak ketiga, dan memberi pengguna kemampuan untuk opt-out jika mereka mau. Menjalankan inferensi di perangkat berbeda dengan mengirim data melalui API OpenAI.
Preferensi nama domain: Saya suka mereka menggunakan machinelearning.apple.com.
Hasil optimasi: Menggunakan bobot 3.5B tanpa kehilangan kualitas merupakan hasil optimasi mutakhir.
Evaluasi bahaya output: Terlihat bahwa Mistral-7B adalah yang terbaik di antara model kecil dalam meminimalkan penolakan false positive.
Dampak pada daya tahan baterai: Saya penasaran bagaimana model-model ini memengaruhi daya tahan baterai. Saat mencoba aplikasi PrivateLLM di iPhone 15 Pro, daya baterai turun tajam setelah digunakan beberapa menit.

Memperkenalkan model fondasi on-device dan berbasis server baru dari Apple

Fokus pada pengembangan AI yang bertanggung jawab

Pre-Training

Post-Training

Optimization

Model Adaptation

Performance and Evaluation

Human Satisfaction Score on Summarization Feature Benchmark

Writing Benchmarks

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News