Laporan Teknis Kanana, model bahasa milik Kakao, dirilis

(tech.kakao.com)

10 poin oleh GN⁺ 2025-02-27 | 3 komentar | Bagikan ke WhatsApp

Kakao sedang mengembangkan ‘Kanana Model Family’, dengan tujuan menghadirkan model AI yang dioptimalkan untuk penerapan layanan, sambil mempertimbangkan performa tinggi dan efisiensi biaya secara bersamaan
Kakao telah menyelesaikan pelatihan model bahasa raksasa ‘Kanana Flag’ dan melengkapi lini model bahasa termasuk Kanana Essence dan Kanana Nano
Untuk berkontribusi pada ekosistem riset AI dan berkolaborasi dengan komunitas AI global, Kakao merilis model ‘Kanana Nano 2.1B’ (base, instruct, embedding) sebagai open source

1. Mencapai performa bahasa Korea dan Inggris kelas global top

Dengan tujuan mengembangkan model yang memiliki daya saing global, Kakao bereksperimen dengan berbagai teknik pelatihan untuk mencapai performa terbaik dalam sumber daya yang terbatas
Kanana Flag mencatat performa tingkat tertinggi (SOTA) sekaligus mengurangi biaya pelatihan lebih dari 50% dibanding model perusahaan lain melalui optimalisasi sumber daya pelatihan
Pada benchmark bahasa Inggris (MMLU, MT-Bench), performanya setara dengan model global, sementara pada benchmark bahasa Korea (KMMLU, KoMT-Bench), model ini membuktikan performa yang jauh lebih unggul dibanding model pesaing
Ringkasan performa benchmark
- Performa percakapan dan pelaksanaan permintaan
  - Kanana Flag 32.5B mencatat skor lebih tinggi dibanding model pesaing dalam percakapan berbasis bahasa Inggris dan Korea
  - Terutama menunjukkan performa unggul pada percakapan bahasa Korea berbasis pengetahuan (KoMT-Bench) dan evaluasi penalaran logis (LogicKor)
- Performa pengetahuan, coding, dan matematika
  - Mencatat skor tinggi pada evaluasi pengetahuan bahasa Inggris (81.08) dan bahasa Korea (64.19), serta menunjukkan hasil yang lebih baik dibanding model pesaing
  - Model ini juga menunjukkan akurasi tinggi dalam code completion dan code solution, serta mencapai performa unggul dengan skor 90.83 pada matematika dasar (GSM8K)

2. Efisiensi pelatihan menurunkan biaya menjadi kurang dari setengah dibanding model berukuran serupa

Karena pelatihan model bahasa skala besar membutuhkan sumber daya komputasi yang sangat besar, Kakao menerapkan strategi pre-training yang memaksimalkan efisiensi pelatihan
Dengan memanfaatkan metode Staged pre-training, Kakao terlebih dahulu melatih model berukuran 8B dan 26.8B, lalu melalui optimasi membangun model Kanana Nano 2.1B
Kakao mengoptimalkan model ringan dengan memanfaatkan teknik pruning dan distillation
Dengan menerapkan teknik DUS (Depth Up-Scaling), Kakao mengembangkan Kanana Essence 9.8B dan Kanana Flag 32.5B
Melalui pendekatan ini, Kakao berhasil mengoptimalkan pelatihan dengan biaya kurang dari setengah dibanding model global berukuran serupa

3. Kanana Nano 2.1B, model ringan berperforma tinggi yang dapat digunakan juga di perangkat, dirilis sebagai open source

Dengan mempertimbangkan kegunaan bagi peneliti dan pengembang, Kakao merilis versi base, instruct, embedding dari ‘Kanana Nano 2.1B’ sebagai open source
Kanana Nano 2.1B dirancang agar dapat berjalan lancar di lingkungan on-device, sehingga dapat dimanfaatkan untuk keperluan riset dan pengembangan
Dengan mempertimbangkan tingginya biaya model besar dan rendahnya akurasi model kecil, Kakao memutuskan untuk merilisnya pada ukuran yang paling praktis
Meski merupakan model yang relatif kecil, model ini menunjukkan performa yang dapat menyaingi model global dan menawarkan berbagai kemungkinan aplikasi
Namun, pada tugas tingkat tinggi seperti penalaran kompleks atau pemecahan soal matematika, model ini mungkin memiliki keterbatasan, tetapi Kakao berencana mendukung agar peneliti dan pengembang dapat melakukan berbagai riset berdasarkan model ini

Penutup

Melalui laporan teknis ini, Kakao memperkenalkan seluruh lini model bahasa Kanana dan model open source Kanana Nano 2.1B
Ke depan, Kakao berencana menggabungkan teknologi berbasis reinforcement learning (RL) untuk memperkuat kemampuan reasoning, performa matematika, dan coding
Kakao juga berencana meningkatkan kemampuan continual learning agar model dapat terus mempelajari data baru sambil mempertahankan hasil pembelajaran sebelumnya
Kakao akan memajukan teknologi alignment untuk memperkuat kemampuan menjalankan permintaan pengguna, serta mengembangkan AI agar dapat memahami dan berdialog dengan lebih alami
Pada akhirnya, model Kanana akan berevolusi menjadi multimodal AI yang dapat melihat, mendengar, berbicara, dan berkomunikasi secara intuitif layaknya manusia
Kakao berencana terus menantang diri dan memperkuat daya saing teknologinya agar AI dapat menambah nilai dalam kehidupan sehari-hari pengguna

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning: teknik memangkas komponen model AI agar hanya elemen penting yang dipertahankan
[2] Distillation: teknik mentransfer pengetahuan dari model besar ke model yang lebih kecil
[3] Depth Up-Scaling: cara memperbesar skala model secara efektif dengan menumpuk lebih banyak layer pada model yang ada

3 komentar

rtyu1120 2025-02-27

Saya cek lisensinya ternyata CC BY-NC-ND 4.0..?? Kalau NonCommercial, apakah itu berarti perusahaan selain Kakao tidak boleh memakainya... Saya kurang paham maksudnya.

bobross0 2025-03-13

wkwkwkwk

cosine20 2025-03-03

wkwkwk