- MK-1 adalah perusahaan baru yang ingin menghadirkan model AI dengan kemampuan setara atau lebih baik dibanding para pemain elit AI seperti OpenAI, Anthropic, dan Google.
- Produk pertama perusahaan, MKML, adalah runtime inferensi yang dapat memangkas biaya inferensi model bahasa besar (LLM) di GPU hingga 2x hanya dengan beberapa baris kode Python.
- MKML kompatibel dengan ekosistem populer seperti Hugging Face dan PyTorch.
- MKML saat ini berada pada tahap rilis beta tertutup dan sedang mencari mitra awal.
- MKML dapat membantu mengoptimalkan model AI dengan mengurangi penggunaan memori dan meningkatkan kecepatan. Misalnya, model Llama-2 13B dapat diperkecil dari 26GB menjadi 10.5GB dan waktu inferensi forward pass dapat dipangkas hingga 2.3x.
- MKML dapat digunakan untuk mengoptimalkan model AI berdasarkan biaya atau kecepatan. Dalam skenario optimasi biaya, model dapat dibuat agar cocok untuk instance GPU yang lebih murah, dan dapat berjalan lebih cepat daripada model dasar pada instance yang lebih mahal. Dalam skenario optimasi kecepatan, MKML dapat membuat model hingga 2.0x lebih cepat sehingga bisa melayani lebih banyak pengguna.
- MKML dapat dengan mudah diintegrasikan ke alur kerja yang sudah ada. Ini mencakup proses mengompresi model satu kali menggunakan salah satu codec model MKML, menyimpan model terkompresi ke disk, lalu memuatnya untuk inferensi.
- MKML mendukung berbagai ukuran model dan konfigurasi sistem, serta secara konsisten lebih cepat daripada baseline dalam pengujian kecepatan.
- MKML juga mempertahankan fidelitas tinggi terhadap model asli, dengan perbedaan yang dapat diabaikan pada pengukuran perplexity standar.
- Visi jangka panjang MK-1 adalah mendorong performa AI hingga batas maksimal di seluruh stack inferensi. Mereka memiliki roadmap yang ambisius untuk pengembangan ke depan.
1 komentar
Opini Hacker News