1 poin oleh GN⁺ 5 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Core AI adalah framework baru untuk menjalankan, mengoptimalkan, dan mendistribusikan model AI di dalam aplikasi pada Apple silicon
  • Memanfaatkan CPU, GPU, dan Neural Engine, serta dapat mengintegrasikan inferensi .aimodel ke aplikasi dengan API Swift
  • Menyediakan rantai alat untuk mengonversi model PyTorch menjadi model Core AI, termasuk kompresi, debugging, hingga pra-kompilasi
  • Model besar memerlukan specialization sebelum dijalankan, sehingga perancangan alur unduhan, cache, dan eksekusi pertama menjadi penting
  • Juga memperkenalkan alur optimasi vision on-device, bahasa, dan caching state melalui contoh SAM 3, Qwen, dan Transformer

Peran Core AI

  • Core AI adalah kumpulan teknologi baru untuk menjalankan AI di perangkat di seluruh platform Apple
    • Mendukung iOS 27.0+ Beta, iPadOS 27.0+ Beta, macOS 27.0+ Beta, tvOS 27.0+ Beta, visionOS 27.0+ Beta, dan watchOS 27.0+ Beta
    • Menyediakan struktur untuk menjalankan inferensi AI berperforma tinggi di dalam aplikasi tanpa mengirim data pengguna ke luar perangkat
  • Core AI bukan sekadar API eksekusi, tetapi mencakup dari persiapan model hingga integrasi ke aplikasi
    • Menyediakan optimasi model, konversi PyTorch, pembuatan .aimodel, debugging, profiling Xcode, dan pra-kompilasi
    • Untuk model non-jaringan saraf seperti decision tree atau model feature engineering tabular, tetap menggunakan Core ML

Alur pengembangan: dari PyTorch ke aplikasi Swift

  • Core AI menghubungkan workflow PyTorch yang ada ke alur distribusi Apple silicon
    • Mengubah model PyTorch menjadi exported program dengan torch.export
    • Membuat .aimodel dengan TorchConverter dari Core AI PyTorch Extensions
    • Menerapkan kompresi dan optimasi yang sesuai untuk Apple silicon dengan Core AI Optimization
  • Di aplikasi Swift, model dimuat dan inferensi dijalankan melalui API baru Core AI Framework
    • AIModel memuat file .aimodel dan memeriksa fungsi inferensi
    • InferenceFunction adalah satu grafik komputasi yang dapat dijalankan
    • NDArray adalah tipe yang menampung data input dan output multidimensi
    • Struktur kerjanya adalah memberikan input NDArray melalui pemanggilan run dan menerima hasil inferensi
  • File .aimodel juga dapat diperiksa langsung di Xcode
    • Dapat melihat ukuran model, distribusi operasi, metadata, dan signature fungsi
    • Dimensi shape dinamis ditampilkan sebagai ?

Optimasi performa: state, cache, memory layout

  • Pada struktur seperti model Transformer yang panjang urutan inputnya terus bertambah, waktu inferensi bisa makin lama
    • Dalam contoh Snake, saat kedua Snake dijalankan sepenuhnya sebagai model AI, permainan makin melambat seiring waktu
    • Di Core AI Instruments terlihat bahwa durasi inferensi terus memanjang
  • Core AI memungkinkan implementasi struktur seperti key/value cache dengan menggunakan state
    • State menjadi input model, dibaca selama inferensi, lalu diperbarui di tempat
    • Key/value dari tahap sebelumnya disimpan dalam cache tanpa perlu dihitung ulang
    • Dengan begitu, seluruh riwayat permainan tidak perlu dimasukkan ulang setiap saat
  • Di sisi Swift, koleksi mutable view diteruskan melalui argumen states pada InferenceFunction.run
    • Model yang telah diperbarui dapat mempertahankan kecepatan yang stabil seiring waktu
    • Di Instruments, peningkatan latensi inferensi juga menjadi jauh lebih lambat
  • Core AI juga menyediakan kontrol memori untuk mengurangi overhead pada loop inferensi
    • Dapat memeriksa memory layout optimal untuk NDArray lalu mengalokasikannya sesuai struktur itu
    • Nilai output dapat dialokasikan sebelumnya agar tidak perlu membuat alokasi output baru saat inferensi
    • Dapat membuat pipeline beberapa fungsi inferensi dengan menggunakan nilai asinkron

Distribusi model: unduhan, specialization, pra-kompilasi

  • Model Core AI adalah representasi sumber yang dapat dijalankan di semua perangkat Apple, tetapi memerlukan specialization per perangkat sebelum benar-benar dieksekusi
    • Saat model dimuat, sistem memeriksa apakah hasil specialization sudah ada di cache
    • Jika belum ada, akan dibuat artifact eksekusi yang sesuai dengan perangkat dan versi OS tersebut
  • Karena specialization model besar bisa memakan waktu, penting untuk tidak menaruhnya di tengah interaksi pengguna
    • Dalam contoh SAM 3, pada eksekusi pertama spinner tampil lama karena model load dan peristiwa specialization besar
    • Disarankan alur untuk mengunduh model dengan Background Assets hanya ketika pengguna mencoba fitur itu dari layar pengenalan fitur
  • Dengan perintah coreai-build, sebagian kompilasi dapat dilakukan lebih dulu di mesin pengembang
    • Dapat membuat compiled model yang menargetkan arsitektur perangkat tertentu
    • Meski specialization tetap dibutuhkan di perangkat pengguna, sisa pekerjaannya berkurang sehingga waktu persiapan menjadi lebih singkat
  • AIModelCache memungkinkan kontrol cache model secara terprogram
    • Menghapus entri yang tidak diperlukan
    • Mengontrol kebijakan retensi entri
    • Berbagi cache antar beberapa aplikasi dalam app group yang sama

Optimasi model dan debugging

  • Core AI Optimization menyediakan kompresi model dan fitur kuantisasi
    • Mendukung kompresi bobot INT4, INT8, FP4, dan FP8
    • Menyediakan API kuantisasi yang menggunakan data calibration atau quantization aware training
  • Dalam contoh SAM 3, asset baseline 32-bit berukuran lebih dari 3GB, dan setelah kompresi 4-bit menjadi sekitar 430MB
    • Saat kompresi agresif diterapkan ke semua lapisan, satu bunga yang tertutup tidak terdeteksi
    • Sulit menemukan lapisan mana yang bermasalah hanya dari output
  • Core AI Debugger membandingkan nilai internal model hasil konversi dengan model PyTorch asli
    • Memvisualisasikan struktur model sebagai grafik
    • Memeriksa nilai tensor perantara
    • Menelusuri hingga baris tertentu di kode sumber Python
    • Menandai operasi dengan perbedaan besar berdasarkan PSNR
  • Dalam perbandingan SAM 3, sebagian besar sync point dengan PSNR rendah muncul di detector decoder
    • Blok detector hanya mencakup 4% dari total parameter sehingga keuntungan kompresinya kecil
    • Saat detector dikeluarkan dari target kuantisasi, semua bunga kembali terdeteksi dan kualitas baseline pulih

Core AI Models dan API tingkat tinggi

  • Repositori Core AI Models menyediakan model populer dan recipe export yang bisa dikonversi serta dioptimalkan sesuai aplikasi
    • Dapat menemukan model keluarga SAM 3 dan Qwen lalu mengonversinya menjadi model Core AI
    • Paket Swift mengabstraksikan pre-processing dan post-processing per model
  • Model segmentasi seperti SAM 3 dapat digunakan dengan CoreAIImageSegmenter
    • Dapat melakukan segmentasi objek dengan prompt teks
    • Mask dapat diambil melalui API Swift tanpa harus menangani raw tensor shape secara langsung
  • Model bahasa seperti Qwen dapat dimuat dengan CoreAILanguageModel
    • Mengabstraksikan asset loading, pembuatan engine, dan setup tokenizer
    • Dapat dihubungkan untuk digunakan bersama LanguageModelSession dari FoundationModels
    • Mendukung respons streaming dan output terstruktur berbasis @Generable

Hal yang perlu diperhatikan pengembang

  • Core AI adalah sistem distribusi AI on-device yang cakupannya lebih luas daripada sekadar “API untuk menjalankan model di aplikasi”
    • Menyediakan alur untuk mengubah model PyTorch menjadi .aimodel untuk Apple silicon
    • Menyediakan API untuk menjalankan model secara aman dan efisien di aplikasi Swift
    • Menyediakan diagnosis performa dan akurasi melalui Xcode, Instruments, dan Debugger
  • Dalam perancangan aplikasi, proses persiapan sering lebih memengaruhi pengalaman pengguna daripada model itu sendiri
    • Perlu menentukan apakah model akan dibundel ke aplikasi atau diterima lewat Background Assets
    • Perlu merancang bagaimana unduhan dan specialization ditampilkan pada eksekusi pertama
    • Kebijakan cache dan strategi pra-kompilasi terhubung langsung dengan kegunaan model besar
  • Core AI menunjukkan alur pengembangan untuk menangani model vision, model bahasa, dan model berbasis Transformer secara on-device di platform Apple
    • Contoh SAM 3 menunjukkan alur kompresi, pemisahan, dan debugging untuk model segmentasi
    • Contoh Qwen menunjukkan koneksi antara model bahasa kustom dan API Foundation Models
    • Contoh Snake Transformer menunjukkan optimasi key/value cache berbasis state

Tautan referensi

1 komentar

 
GN⁺ 5 jam lalu
Komentar Hacker News
  • Saya justru lebih menantikan pembaruan Foundation Models on-device yang akan segera hadir: https://developer.apple.com/documentation/updates/foundation...
    Saat ini informasinya memang belum banyak
    Tapi saya mungkin bias karena saya mengelola https://github.com/Arthur-Ficial/apfel

    • Penasaran apakah Anda sudah melihat tool fm yang ditambahkan. Ini sempat disebut di Platforms State of the Union
      Saat dijalankan, hasilnya seperti ini: https://gist.github.com/robgough/7893602895e7580117475076198...
    • Setuju. Gagasan bahwa bagian inti dari API OS akan mencakup model on-device yang bisa dipakai di seluruh sistem dan seluruh platform sangat menarik
      Biasanya saya lebih suka software yang terpecah menjadi bagian-bagian kecil, tapi dalam kasus Apple ada banyak fitur bawaan yang saya sukai
      Yang paling menarik adalah software nantinya bisa tahu bahwa “platform ini punya model tersebut” lalu memanfaatkannya untuk berbagai tugas AI generatif kecil, dan lama-kelamaan semakin besar
    • Apfel terlihat berguna. Saya sudah hampir setahun bereksperimen dengan Apple Foundation Models, dan ini tampak layak dipakai untuk aplikasi embedded
      Saya juga sedang mendalami tool coding bergaya agen lokal, dimulai dari little-coder --model ollama/gemma4:12b-it-qat
      Saya bahkan membuat buku kecil gratis yang bisa menghemat beberapa menit waktu setup: https://leanpub.com/read/local-coding-agents
      Saya cukup muak dengan hype pertumbuhan AI yang berpusat pada hyperscaler, terutama biaya lingkungan dan biaya sosial dari data center, jadi saya mendukung semua upaya yang mendorong AI lokal dan privat
    • Agak mengejutkan bahwa Apple tampaknya tidak mengadopsi ide untuk memasukkan endpoint yang kompatibel dengan OpenAPI ke Core AI, setidaknya sebagai tool pengujian
      Sekarang setelah mereka menyediakan dukungan MCP, saya juga ingin mendengar lebih banyak soal strategi containerization/seatbelt
      Saya masih belum melihat kabar tentang bagaimana Darwin dipakai di dalam sistem kontainer Apple
      Apfel adalah proyek yang keren, dan satu-satunya alasan yang membuat saya ingin upgrade ke Tahoe
  • Video-video WWDC 2026 Core AI
    Meet Core AI - https://developer.apple.com/videos/play/wwdc2026/324/
    Dive into Core AI model authoring and optimization - https://developer.apple.com/videos/play/wwdc2026/325/
    Integrate on-device AI models into your app using Core AI - https://developer.apple.com/videos/play/wwdc2026/326/

  • Ini tampaknya seperti cara baru untuk mengonversi model PyTorch ke format yang berjalan di CPU, GPU, dan Apple Neural Engine (ANE) [0]
    Saya penasaran apakah ini benar-benar menggantikan API lama, yaitu Core ML [1]
    [0]: https://apple.github.io/coreai-optimization/
    [1]: https://developer.apple.com/documentation/coreml/

    • Benar. Menurut dokumentasi Core AI, jika aplikasi menggunakan tipe model selain jaringan saraf, misalnya decision tree atau rekayasa fitur tabular, maka Anda sebaiknya melihat Core ML
    • Cukup menarik, tapi saya penasaran bagaimana performanya dibanding pendekatan yang sudah ada, misalnya memuat model yang dioptimalkan untuk Metal ke sesuatu seperti llama.cpp lalu memakainya
      unsloth adalah contoh bagus dari pendekatan yang menyediakan semua itu dalam bentuk “batteries included”
    • Sepertinya memang ingin menggantikan Core ML, tapi saat ini hubungan antara Core AI, Core ML, MLX, dan coremltools justru makin membingungkan
      Apple perlu menjelaskan dengan lebih baik keunggulan, kekurangan, dan sejauh mana kesetaraan fungsi masing-masing
    • Karena memerlukan OS 27 atau lebih baru, Core ML tetap berguna demi kompatibilitas mundur
  • Untuk aplikasi dengan kurang dari 2 juta unduhan, mereka katanya menyediakan akses gratis ke model kelas server, dengan jaminan privasi yang sama
    Semoga seiring waktu ini diperluas ke semua aplikasi. Tentu ada batasan hardware dan biaya, tapi rasanya pengembang yang lebih besar bisa membayar biayanya
    https://developer.apple.com/private-cloud-compute/

    • Dari penyebutan Apple Intelligence Extensions, tampaknya untuk sementara ini mereka tidak akan memperluasnya secara besar-besaran, dan sebagai gantinya akan memungkinkan pengembang berintegrasi dengan penyedia lain tempat pengguna sudah punya akun
  • Masa depan AI jelas lokal, dan belakangan ini dijelaskan sebagai “token tak terbatas”
    Bahkan M1 MacBook Pro bisa melakukannya, dan RTX 3090 juga bisa
    Tidak perlu membayar ratusan dolar setiap bulan, dan hal yang sama berlaku untuk orang lain

    • Pada 1980-an, masa depan komputasi juga jelas dianggap lokal. Ada komputer rumahan, PC, Mac, server kantor (Novell, lalu Windows NT dengan berbagi disk)
      Setelah 40 tahun, kita kembali ke infrastruktur terpusat yang mirip terminal pintar versi modern
      Masa depan AI pada akhirnya juga akan mengalir ke arah itu. Kemungkinan besar akan bolak-balik antara lokal dan terpusat
      Hanya saja, jika orang bisa menghasilkan uang dengan menjual hal yang berjalan secara lokal, sentralisasi tampaknya menciptakan kekuasaan yang lebih besar dan uang yang lebih besar
    • Jika “token tak terbatas” dibatasi 10 token per detik, itu berarti 26 juta token per bulan
    • Uang yang sebenarnya ada pada penulisan kode di sekitar model agar efisien untuk tugas khusus
      Pengguna umum menginginkan model serbaguna, jadi aplikasi chat AI akan tetap ada
      Sebagian besar program bisa diuntungkan oleh AI khusus yang dapat berjalan secara lokal, dan jumlah program jauh lebih banyak daripada jumlah pengguna
  • Apple tampaknya juga sedang mengerjakan sisi aktivasi. Setahu saya w4a8, w4a16
    Jika mereka benar-benar berhasil, dan itu asumsi yang besar, maka dengan mempertimbangkan jangkauan pasar Apple, hal ini bisa sangat memengaruhi cara model dengan parameter di bawah 100 miliar dilatih dan disediakan
    Kasus penggunaan utamanya akan menjadi on-device, dan kemungkinan besar kebanyakan di macOS daripada iOS

  • Saya belum melihat ini banyak disorot di mana pun, tetapi inferensi terdistribusi antar-Mac itu menarik. Termasuk JACCL di atas Thunderbolt 5, mlx_lm.server yang kompatibel dengan OpenAI, dan eksekusi bergaya agen di Mac
    Apple memisahkan MLX (impor bobot langsung) dari Foundation Models / Core AI

  • Inilah alasan perusahaan AI terburu-buru untuk IPO
    Menjelang akhir tahun depan, sebagian besar AI akan berjalan langsung di perangkat
    Mereka tidak punya moat, sudah mencapai batas skala, sebagian besar hal yang tampak seperti sihir bisa didistilasi ke model yang lebih kecil, dan mereka juga tahu itu

    • Model kelas 30 miliar dari Qwen sebenarnya sudah cukup layak dipakai selama ada mesin dengan bandwidth memori yang cukup untuk menjalankannya pada 30~90 token per detik
      Fakta bahwa Qwen berhenti merilis model kelas 120 miliar sangatlah bermakna
      Dalam 10 tahun ke depan, mungkin bahkan dalam 3 tahun, seseorang akan merilis model 256 miliar setara Opus 4.5 yang bisa dijalankan secara lokal
      Saat ini para engineer kami menghabiskan sekitar 800 dolar per bulan untuk token Opus, dan dengan rasio itu periode balik modal untuk LLM lokal adalah sekitar 10 bulan
    • Saya tidak tahu apakah kita benar-benar sudah mencapai batas skala
      Sayangnya, model yang lebih besar masih tampak seperti model yang lebih baik
    • Di ranah coding, sepertinya akan muncul penjualan model 35 miliar, 70 miliar, dan 150 miliar dengan pembayaran di muka ratusan hingga ribuan dolar, lalu pembaruan bulanan atau dua bulanan yang dilatih dengan dokumen coding dan repositori baru selama satu tahun
    • Hore, cengkeraman dominasi mereka akhirnya lepas. Hidup revolusi!
    • Saya hanya ingin satu model yang sangat kecil yang berjalan di perangkat. Misalnya cukup tahu bahwa dalam autocomplete saya ingin menulis “I'll be right back”, bukan “I'll be right Brian”
      Itu adalah permintaan AI prioritas tertinggi saya saat ini. Tolong, Apple
  • Saya penasaran apakah ada hal seperti ini di Linux
    Misalnya, jika Anda pengembang aplikasi, bisakah Anda berasumsi bahwa bila kernel berada di atas versi tertentu maka ada sesuatu seperti GNU Core AI?

    • Di platform non-Apple, biasanya Anda harus memikirkan framework AI sebanyak jumlah vendor silikon yang perlu didukung ditambah dua atau lebih
      Apple sekarang juga tampaknya berada dalam situasi seperti itu antara Core ML, MLX, dan Core AI
      Saya belum melihat tanda-tanda bahwa masalah fragmentasi framework akan segera hilang
      NVIDIA ingin semua orang melakukan training dan inferensi dengan CUDA, dan cenderung menyangkal bahwa NPU itu berguna
      Setiap vendor yang membuat NPU punya arsitekturnya sendiri dan framework terpisah yang disesuaikan dengan keterbatasan warisan dari perangkat keras yang dirancang sebelum era LLM. Kebanyakan juga punya framework lain yang menargetkan GPU
      Vendor sistem operasi juga biasanya punya satu atau dua framework yang ingin mereka gunakan sebagai pengganti framework spesifik perangkat keras
    • Secara praktis, llama.cpp menjalankan peran ini. Anda bisa menautkannya untuk dipakai atau menggunakan API jaringan
    • Tidak ada. Namun Red Hat dan IBM melakukan hal seperti itu untuk distribusi mereka sendiri
    • Ada onnxruntime, llama.cpp, lebih spesifik lagi ggml, dan iree.dev juga sedang mencoba
  • Saya penasaran apakah ini berarti bisa menjalankan apa pun yang diinginkan di ANE
    Terakhir kali saya mencoba, itu tampaknya hanya bisa dipakai untuk fitur pihak pertama Apple seperti Face ID

    • Jika model dikonversi ke Core ML, itu sebenarnya sudah bisa dilakukan
      Yang sama sekali tidak bisa memakai ANE adalah MLX
    • Sudah bertahun-tahun dilakukan dengan Core ML