Laporan Teknis Kanana, model bahasa milik Kakao, dirilis
(tech.kakao.com)- Kakao sedang mengembangkan ‘Kanana Model Family’, dengan tujuan menghadirkan model AI yang dioptimalkan untuk penerapan layanan, sambil mempertimbangkan performa tinggi dan efisiensi biaya secara bersamaan
- Kakao telah menyelesaikan pelatihan model bahasa raksasa ‘Kanana Flag’ dan melengkapi lini model bahasa termasuk Kanana Essence dan Kanana Nano
- Untuk berkontribusi pada ekosistem riset AI dan berkolaborasi dengan komunitas AI global, Kakao merilis model ‘Kanana Nano 2.1B’ (base, instruct, embedding) sebagai open source
1. Mencapai performa bahasa Korea dan Inggris kelas global top
- Dengan tujuan mengembangkan model yang memiliki daya saing global, Kakao bereksperimen dengan berbagai teknik pelatihan untuk mencapai performa terbaik dalam sumber daya yang terbatas
- Kanana Flag mencatat performa tingkat tertinggi (SOTA) sekaligus mengurangi biaya pelatihan lebih dari 50% dibanding model perusahaan lain melalui optimalisasi sumber daya pelatihan
- Pada benchmark bahasa Inggris (MMLU, MT-Bench), performanya setara dengan model global, sementara pada benchmark bahasa Korea (KMMLU, KoMT-Bench), model ini membuktikan performa yang jauh lebih unggul dibanding model pesaing
- Ringkasan performa benchmark
- Performa percakapan dan pelaksanaan permintaan
- Kanana Flag 32.5B mencatat skor lebih tinggi dibanding model pesaing dalam percakapan berbasis bahasa Inggris dan Korea
- Terutama menunjukkan performa unggul pada percakapan bahasa Korea berbasis pengetahuan (KoMT-Bench) dan evaluasi penalaran logis (LogicKor)
- Performa pengetahuan, coding, dan matematika
- Mencatat skor tinggi pada evaluasi pengetahuan bahasa Inggris (81.08) dan bahasa Korea (64.19), serta menunjukkan hasil yang lebih baik dibanding model pesaing
- Model ini juga menunjukkan akurasi tinggi dalam code completion dan code solution, serta mencapai performa unggul dengan skor 90.83 pada matematika dasar (GSM8K)
- Performa percakapan dan pelaksanaan permintaan
2. Efisiensi pelatihan menurunkan biaya menjadi kurang dari setengah dibanding model berukuran serupa
- Karena pelatihan model bahasa skala besar membutuhkan sumber daya komputasi yang sangat besar, Kakao menerapkan strategi pre-training yang memaksimalkan efisiensi pelatihan
- Dengan memanfaatkan metode Staged pre-training, Kakao terlebih dahulu melatih model berukuran 8B dan 26.8B, lalu melalui optimasi membangun model Kanana Nano 2.1B
- Kakao mengoptimalkan model ringan dengan memanfaatkan teknik pruning dan distillation
- Dengan menerapkan teknik DUS (Depth Up-Scaling), Kakao mengembangkan Kanana Essence 9.8B dan Kanana Flag 32.5B
- Melalui pendekatan ini, Kakao berhasil mengoptimalkan pelatihan dengan biaya kurang dari setengah dibanding model global berukuran serupa
3. Kanana Nano 2.1B, model ringan berperforma tinggi yang dapat digunakan juga di perangkat, dirilis sebagai open source
- Dengan mempertimbangkan kegunaan bagi peneliti dan pengembang, Kakao merilis versi base, instruct, embedding dari ‘Kanana Nano 2.1B’ sebagai open source
- Kanana Nano 2.1B dirancang agar dapat berjalan lancar di lingkungan on-device, sehingga dapat dimanfaatkan untuk keperluan riset dan pengembangan
- Dengan mempertimbangkan tingginya biaya model besar dan rendahnya akurasi model kecil, Kakao memutuskan untuk merilisnya pada ukuran yang paling praktis
- Meski merupakan model yang relatif kecil, model ini menunjukkan performa yang dapat menyaingi model global dan menawarkan berbagai kemungkinan aplikasi
- Namun, pada tugas tingkat tinggi seperti penalaran kompleks atau pemecahan soal matematika, model ini mungkin memiliki keterbatasan, tetapi Kakao berencana mendukung agar peneliti dan pengembang dapat melakukan berbagai riset berdasarkan model ini
Penutup
- Melalui laporan teknis ini, Kakao memperkenalkan seluruh lini model bahasa Kanana dan model open source Kanana Nano 2.1B
- Ke depan, Kakao berencana menggabungkan teknologi berbasis reinforcement learning (RL) untuk memperkuat kemampuan reasoning, performa matematika, dan coding
- Kakao juga berencana meningkatkan kemampuan continual learning agar model dapat terus mempelajari data baru sambil mempertahankan hasil pembelajaran sebelumnya
- Kakao akan memajukan teknologi alignment untuk memperkuat kemampuan menjalankan permintaan pengguna, serta mengembangkan AI agar dapat memahami dan berdialog dengan lebih alami
- Pada akhirnya, model Kanana akan berevolusi menjadi multimodal AI yang dapat melihat, mendengar, berbicara, dan berkomunikasi secara intuitif layaknya manusia
- Kakao berencana terus menantang diri dan memperkuat daya saing teknologinya agar AI dapat menambah nilai dalam kehidupan sehari-hari pengguna
Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download
[1] Pruning: teknik memangkas komponen model AI agar hanya elemen penting yang dipertahankan
[2] Distillation: teknik mentransfer pengetahuan dari model besar ke model yang lebih kecil
[3] Depth Up-Scaling: cara memperbesar skala model secara efektif dengan menumpuk lebih banyak layer pada model yang ada
3 komentar
Saya cek lisensinya ternyata CC BY-NC-ND 4.0..?? Kalau NonCommercial, apakah itu berarti perusahaan selain Kakao tidak boleh memakainya... Saya kurang paham maksudnya.
wkwkwkwk
wkwkwk