Framework Apple Core AI
(developer.apple.com)- Core AI adalah framework baru untuk menjalankan, mengoptimalkan, dan mendistribusikan model AI di dalam aplikasi pada Apple silicon
- Memanfaatkan CPU, GPU, dan Neural Engine, serta dapat mengintegrasikan inferensi
.aimodelke aplikasi dengan API Swift - Menyediakan rantai alat untuk mengonversi model PyTorch menjadi model Core AI, termasuk kompresi, debugging, hingga pra-kompilasi
- Model besar memerlukan specialization sebelum dijalankan, sehingga perancangan alur unduhan, cache, dan eksekusi pertama menjadi penting
- Juga memperkenalkan alur optimasi vision on-device, bahasa, dan caching state melalui contoh SAM 3, Qwen, dan Transformer
Peran Core AI
- Core AI adalah kumpulan teknologi baru untuk menjalankan AI di perangkat di seluruh platform Apple
- Mendukung iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta, dan watchOS 27.0+ Beta
- Menyediakan struktur untuk menjalankan inferensi AI berperforma tinggi di dalam aplikasi tanpa mengirim data pengguna ke luar perangkat
- Core AI bukan sekadar API eksekusi, tetapi mencakup dari persiapan model hingga integrasi ke aplikasi
- Menyediakan optimasi model, konversi PyTorch, pembuatan
.aimodel, debugging, profiling Xcode, dan pra-kompilasi - Untuk model non-jaringan saraf seperti decision tree atau model feature engineering tabular, tetap menggunakan Core ML
- Menyediakan optimasi model, konversi PyTorch, pembuatan
Alur pengembangan: dari PyTorch ke aplikasi Swift
- Core AI menghubungkan workflow PyTorch yang ada ke alur distribusi Apple silicon
- Mengubah model PyTorch menjadi exported program dengan
torch.export - Membuat
.aimodeldenganTorchConverterdari Core AI PyTorch Extensions - Menerapkan kompresi dan optimasi yang sesuai untuk Apple silicon dengan Core AI Optimization
- Mengubah model PyTorch menjadi exported program dengan
- Di aplikasi Swift, model dimuat dan inferensi dijalankan melalui API baru Core AI Framework
AIModelmemuat file.aimodeldan memeriksa fungsi inferensiInferenceFunctionadalah satu grafik komputasi yang dapat dijalankanNDArrayadalah tipe yang menampung data input dan output multidimensi- Struktur kerjanya adalah memberikan input
NDArraymelalui pemanggilanrundan menerima hasil inferensi
- File
.aimodeljuga dapat diperiksa langsung di Xcode- Dapat melihat ukuran model, distribusi operasi, metadata, dan signature fungsi
- Dimensi shape dinamis ditampilkan sebagai
?
Optimasi performa: state, cache, memory layout
- Pada struktur seperti model Transformer yang panjang urutan inputnya terus bertambah, waktu inferensi bisa makin lama
- Dalam contoh Snake, saat kedua Snake dijalankan sepenuhnya sebagai model AI, permainan makin melambat seiring waktu
- Di Core AI Instruments terlihat bahwa durasi inferensi terus memanjang
- Core AI memungkinkan implementasi struktur seperti key/value cache dengan menggunakan state
- State menjadi input model, dibaca selama inferensi, lalu diperbarui di tempat
- Key/value dari tahap sebelumnya disimpan dalam cache tanpa perlu dihitung ulang
- Dengan begitu, seluruh riwayat permainan tidak perlu dimasukkan ulang setiap saat
- Di sisi Swift, koleksi mutable view diteruskan melalui argumen
statespadaInferenceFunction.run- Model yang telah diperbarui dapat mempertahankan kecepatan yang stabil seiring waktu
- Di Instruments, peningkatan latensi inferensi juga menjadi jauh lebih lambat
- Core AI juga menyediakan kontrol memori untuk mengurangi overhead pada loop inferensi
- Dapat memeriksa memory layout optimal untuk
NDArraylalu mengalokasikannya sesuai struktur itu - Nilai output dapat dialokasikan sebelumnya agar tidak perlu membuat alokasi output baru saat inferensi
- Dapat membuat pipeline beberapa fungsi inferensi dengan menggunakan nilai asinkron
- Dapat memeriksa memory layout optimal untuk
Distribusi model: unduhan, specialization, pra-kompilasi
- Model Core AI adalah representasi sumber yang dapat dijalankan di semua perangkat Apple, tetapi memerlukan specialization per perangkat sebelum benar-benar dieksekusi
- Saat model dimuat, sistem memeriksa apakah hasil specialization sudah ada di cache
- Jika belum ada, akan dibuat artifact eksekusi yang sesuai dengan perangkat dan versi OS tersebut
- Karena specialization model besar bisa memakan waktu, penting untuk tidak menaruhnya di tengah interaksi pengguna
- Dalam contoh SAM 3, pada eksekusi pertama spinner tampil lama karena model load dan peristiwa specialization besar
- Disarankan alur untuk mengunduh model dengan Background Assets hanya ketika pengguna mencoba fitur itu dari layar pengenalan fitur
- Dengan perintah
coreai-build, sebagian kompilasi dapat dilakukan lebih dulu di mesin pengembang- Dapat membuat compiled model yang menargetkan arsitektur perangkat tertentu
- Meski specialization tetap dibutuhkan di perangkat pengguna, sisa pekerjaannya berkurang sehingga waktu persiapan menjadi lebih singkat
AIModelCachememungkinkan kontrol cache model secara terprogram- Menghapus entri yang tidak diperlukan
- Mengontrol kebijakan retensi entri
- Berbagi cache antar beberapa aplikasi dalam app group yang sama
Optimasi model dan debugging
- Core AI Optimization menyediakan kompresi model dan fitur kuantisasi
- Mendukung kompresi bobot INT4, INT8, FP4, dan FP8
- Menyediakan API kuantisasi yang menggunakan data calibration atau quantization aware training
- Dalam contoh SAM 3, asset baseline 32-bit berukuran lebih dari 3GB, dan setelah kompresi 4-bit menjadi sekitar 430MB
- Saat kompresi agresif diterapkan ke semua lapisan, satu bunga yang tertutup tidak terdeteksi
- Sulit menemukan lapisan mana yang bermasalah hanya dari output
- Core AI Debugger membandingkan nilai internal model hasil konversi dengan model PyTorch asli
- Memvisualisasikan struktur model sebagai grafik
- Memeriksa nilai tensor perantara
- Menelusuri hingga baris tertentu di kode sumber Python
- Menandai operasi dengan perbedaan besar berdasarkan PSNR
- Dalam perbandingan SAM 3, sebagian besar sync point dengan PSNR rendah muncul di detector decoder
- Blok detector hanya mencakup 4% dari total parameter sehingga keuntungan kompresinya kecil
- Saat detector dikeluarkan dari target kuantisasi, semua bunga kembali terdeteksi dan kualitas baseline pulih
Core AI Models dan API tingkat tinggi
- Repositori Core AI Models menyediakan model populer dan recipe export yang bisa dikonversi serta dioptimalkan sesuai aplikasi
- Dapat menemukan model keluarga SAM 3 dan Qwen lalu mengonversinya menjadi model Core AI
- Paket Swift mengabstraksikan pre-processing dan post-processing per model
- Model segmentasi seperti SAM 3 dapat digunakan dengan
CoreAIImageSegmenter- Dapat melakukan segmentasi objek dengan prompt teks
- Mask dapat diambil melalui API Swift tanpa harus menangani raw tensor shape secara langsung
- Model bahasa seperti Qwen dapat dimuat dengan
CoreAILanguageModel- Mengabstraksikan asset loading, pembuatan engine, dan setup tokenizer
- Dapat dihubungkan untuk digunakan bersama
LanguageModelSessiondariFoundationModels - Mendukung respons streaming dan output terstruktur berbasis
@Generable
Hal yang perlu diperhatikan pengembang
- Core AI adalah sistem distribusi AI on-device yang cakupannya lebih luas daripada sekadar “API untuk menjalankan model di aplikasi”
- Menyediakan alur untuk mengubah model PyTorch menjadi
.aimodeluntuk Apple silicon - Menyediakan API untuk menjalankan model secara aman dan efisien di aplikasi Swift
- Menyediakan diagnosis performa dan akurasi melalui Xcode, Instruments, dan Debugger
- Menyediakan alur untuk mengubah model PyTorch menjadi
- Dalam perancangan aplikasi, proses persiapan sering lebih memengaruhi pengalaman pengguna daripada model itu sendiri
- Perlu menentukan apakah model akan dibundel ke aplikasi atau diterima lewat Background Assets
- Perlu merancang bagaimana unduhan dan specialization ditampilkan pada eksekusi pertama
- Kebijakan cache dan strategi pra-kompilasi terhubung langsung dengan kegunaan model besar
- Core AI menunjukkan alur pengembangan untuk menangani model vision, model bahasa, dan model berbasis Transformer secara on-device di platform Apple
- Contoh SAM 3 menunjukkan alur kompresi, pemisahan, dan debugging untuk model segmentasi
- Contoh Qwen menunjukkan koneksi antara model bahasa kustom dan API Foundation Models
- Contoh Snake Transformer menunjukkan optimasi key/value cache berbasis state
Tautan referensi
- Dokumentasi Apple Core AI: https://developer.apple.com/documentation/coreai/
- WWDC26: Mengenal Core AI: https://www.youtube.com/watch?v=XJFfCVW1UZ0
- WWDC26: Mengintegrasikan model AI on-device ke aplikasi dengan Core AI: https://www.youtube.com/watch?v=gl5lD2gEhb0
- WWDC26: Pendalaman penulisan dan optimasi model Core AI: https://www.youtube.com/watch?v=MdlyLT_y3i0
1 komentar
Komentar Hacker News
Saya justru lebih menantikan pembaruan Foundation Models on-device yang akan segera hadir: https://developer.apple.com/documentation/updates/foundation...
Saat ini informasinya memang belum banyak
Tapi saya mungkin bias karena saya mengelola https://github.com/Arthur-Ficial/apfel
fmyang ditambahkan. Ini sempat disebut di Platforms State of the UnionSaat dijalankan, hasilnya seperti ini: https://gist.github.com/robgough/7893602895e7580117475076198...
Biasanya saya lebih suka software yang terpecah menjadi bagian-bagian kecil, tapi dalam kasus Apple ada banyak fitur bawaan yang saya sukai
Yang paling menarik adalah software nantinya bisa tahu bahwa “platform ini punya model tersebut” lalu memanfaatkannya untuk berbagai tugas AI generatif kecil, dan lama-kelamaan semakin besar
Saya juga sedang mendalami tool coding bergaya agen lokal, dimulai dari
little-coder --model ollama/gemma4:12b-it-qatSaya bahkan membuat buku kecil gratis yang bisa menghemat beberapa menit waktu setup: https://leanpub.com/read/local-coding-agents
Saya cukup muak dengan hype pertumbuhan AI yang berpusat pada hyperscaler, terutama biaya lingkungan dan biaya sosial dari data center, jadi saya mendukung semua upaya yang mendorong AI lokal dan privat
Sekarang setelah mereka menyediakan dukungan MCP, saya juga ingin mendengar lebih banyak soal strategi containerization/seatbelt
Saya masih belum melihat kabar tentang bagaimana Darwin dipakai di dalam sistem kontainer Apple
Apfel adalah proyek yang keren, dan satu-satunya alasan yang membuat saya ingin upgrade ke Tahoe
Video-video WWDC 2026 Core AI
Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/
Ini tampaknya seperti cara baru untuk mengonversi model PyTorch ke format yang berjalan di CPU, GPU, dan Apple Neural Engine (ANE) [0]
Saya penasaran apakah ini benar-benar menggantikan API lama, yaitu Core ML [1]
[0]: https://apple.github.io/coreai-optimization/
[1]: https://developer.apple.com/documentation/coreml/
unsloth adalah contoh bagus dari pendekatan yang menyediakan semua itu dalam bentuk “batteries included”
Apple perlu menjelaskan dengan lebih baik keunggulan, kekurangan, dan sejauh mana kesetaraan fungsi masing-masing
Untuk aplikasi dengan kurang dari 2 juta unduhan, mereka katanya menyediakan akses gratis ke model kelas server, dengan jaminan privasi yang sama
Semoga seiring waktu ini diperluas ke semua aplikasi. Tentu ada batasan hardware dan biaya, tapi rasanya pengembang yang lebih besar bisa membayar biayanya
https://developer.apple.com/private-cloud-compute/
Masa depan AI jelas lokal, dan belakangan ini dijelaskan sebagai “token tak terbatas”
Bahkan M1 MacBook Pro bisa melakukannya, dan RTX 3090 juga bisa
Tidak perlu membayar ratusan dolar setiap bulan, dan hal yang sama berlaku untuk orang lain
Setelah 40 tahun, kita kembali ke infrastruktur terpusat yang mirip terminal pintar versi modern
Masa depan AI pada akhirnya juga akan mengalir ke arah itu. Kemungkinan besar akan bolak-balik antara lokal dan terpusat
Hanya saja, jika orang bisa menghasilkan uang dengan menjual hal yang berjalan secara lokal, sentralisasi tampaknya menciptakan kekuasaan yang lebih besar dan uang yang lebih besar
Pengguna umum menginginkan model serbaguna, jadi aplikasi chat AI akan tetap ada
Sebagian besar program bisa diuntungkan oleh AI khusus yang dapat berjalan secara lokal, dan jumlah program jauh lebih banyak daripada jumlah pengguna
Apple tampaknya juga sedang mengerjakan sisi aktivasi. Setahu saya w4a8, w4a16
Jika mereka benar-benar berhasil, dan itu asumsi yang besar, maka dengan mempertimbangkan jangkauan pasar Apple, hal ini bisa sangat memengaruhi cara model dengan parameter di bawah 100 miliar dilatih dan disediakan
Kasus penggunaan utamanya akan menjadi on-device, dan kemungkinan besar kebanyakan di macOS daripada iOS
Saya belum melihat ini banyak disorot di mana pun, tetapi inferensi terdistribusi antar-Mac itu menarik. Termasuk JACCL di atas Thunderbolt 5,
mlx_lm.serveryang kompatibel dengan OpenAI, dan eksekusi bergaya agen di MacApple memisahkan MLX (impor bobot langsung) dari Foundation Models / Core AI
Inilah alasan perusahaan AI terburu-buru untuk IPO
Menjelang akhir tahun depan, sebagian besar AI akan berjalan langsung di perangkat
Mereka tidak punya moat, sudah mencapai batas skala, sebagian besar hal yang tampak seperti sihir bisa didistilasi ke model yang lebih kecil, dan mereka juga tahu itu
Fakta bahwa Qwen berhenti merilis model kelas 120 miliar sangatlah bermakna
Dalam 10 tahun ke depan, mungkin bahkan dalam 3 tahun, seseorang akan merilis model 256 miliar setara Opus 4.5 yang bisa dijalankan secara lokal
Saat ini para engineer kami menghabiskan sekitar 800 dolar per bulan untuk token Opus, dan dengan rasio itu periode balik modal untuk LLM lokal adalah sekitar 10 bulan
Sayangnya, model yang lebih besar masih tampak seperti model yang lebih baik
Itu adalah permintaan AI prioritas tertinggi saya saat ini. Tolong, Apple
Saya penasaran apakah ada hal seperti ini di Linux
Misalnya, jika Anda pengembang aplikasi, bisakah Anda berasumsi bahwa bila kernel berada di atas versi tertentu maka ada sesuatu seperti GNU Core AI?
Apple sekarang juga tampaknya berada dalam situasi seperti itu antara Core ML, MLX, dan Core AI
Saya belum melihat tanda-tanda bahwa masalah fragmentasi framework akan segera hilang
NVIDIA ingin semua orang melakukan training dan inferensi dengan CUDA, dan cenderung menyangkal bahwa NPU itu berguna
Setiap vendor yang membuat NPU punya arsitekturnya sendiri dan framework terpisah yang disesuaikan dengan keterbatasan warisan dari perangkat keras yang dirancang sebelum era LLM. Kebanyakan juga punya framework lain yang menargetkan GPU
Vendor sistem operasi juga biasanya punya satu atau dua framework yang ingin mereka gunakan sebagai pengganti framework spesifik perangkat keras
Saya penasaran apakah ini berarti bisa menjalankan apa pun yang diinginkan di ANE
Terakhir kali saya mencoba, itu tampaknya hanya bisa dipakai untuk fitur pihak pertama Apple seperti Face ID
Yang sama sekali tidak bisa memakai ANE adalah MLX