Mi:dm 2.0 - LLM open source yang dikembangkan sendiri oleh KT

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" adalah model open source yang dapat digunakan secara komersial dan mencerminkan karakteristik bahasa/budaya masyarakat Korea Menggunakan strategi optimasi berlapis seperti pemilihan data bahasa Korea berkualitas tinggi dan pembuatan data sintetis, curriculum learning, serta tokenizer khusus yang dioptimalkan untuk bahasa Korea Tiga model tersedia: mini untuk on-device (2.3B), base yang menyeimbangkan performa dan efisiensi (11.5B), dan pro kelas frontier (41B, akan dirilis) Mi:dm 2.0 Mini (2.3B): model ringan yang dioptimalkan untuk lingkungan embedded dan tujuan khusus Mi:dm 2.0 Base (11.5B): model umum berskala besar, memperkuat performa dengan memperdalam model 8B yang ada melalui teknik Depth-up Scaling Base dan Mini sama-sama mendukung input 32K token Menunjukkan performa tingkat tertinggi pada benchmark bahasa Korea seperti KMMLU dan HAERAE, serta dirilis dengan lisensi MIT yang memungkinkan penggunaan bebas untuk riset maupun komersial Komposisi dan strategi data Berfokus pada pengamanan dokumen bahasa Korea berkualitas tinggi, dengan pemilihan berdasarkan kriteria kontekstualitas, keterbacaan, dan tidak berbahaya Memanfaatkan data sintetis (terjemahan, pembuatan materi ajar berbasis kata kunci, Chain-of-Thought, dll.) untuk memastikan keberagaman domain Mengatasi ketimpangan data pelatihan melalui curriculum learning dan domain balancing Memperkuat efisiensi kompresi dan pencerminan struktur bahasa dengan tokenizer yang dioptimalkan untuk bahasa Korea Sistem klasifikasi data Menerapkan sistem klasifikasi multidimensi seperti bahasa, domain, sumber data, dan ekspresi/gaya 6 domain utama (humaniora, STEM, ilmu terapan, kesehatan/pangan, kehidupan/budaya, lainnya) dan 20 subdomain Lebih dari 85.7% terdiri dari data alami (organic), dan 14% adalah data sintetis Pipeline kontrol kualitas Penyaringan dokumen web skala besar dalam 8 tahap: deduplikasi, heuristik, perplexity, kerusakan/perbaikan karakter, filter kualitas berbasis model, filter konten berbahaya, duplikasi baris, de-identifikasi PII, dll. Menerapkan pemurnian dan aturan terpisah untuk tiap sumber (misalnya berita, dokumen hukum, makalah akademik, dll.) Pembuatan data sintetis Untuk bidang dengan cakupan rendah seperti STEM dan ekonomi, digunakan data open source berkepercayaan tinggi sebagai seed, lalu diperkuat dengan materi ajar/penjelasan/soal sintetis dalam bahasa Korea Dokumen web yang tidak lolos kriteria juga dimanfaatkan dengan hanya mengekstrak dan menulis ulang topik intinya Keberagaman struktural dokumen web bahasa Inggris diubah dan diperluas ke dalam bahasa Korea untuk memperoleh data QA panjang dan penulisan Memperkuat pembelajaran penalaran bertahap seperti matematika dan kode dengan data Chain-of-Thought Arsitektur model dan pelatihan Struktur decoder-only Transformer Base: model 8B → Depth-up Scaling (32→48 layer) → diperluas menjadi 11.5B, lalu dilatih berkelanjutan dalam 2 tahap dengan data berkualitas tinggi Mini: pengetahuan dari Base diringankan melalui width pruning dan distillation multistage, memungkinkan inferensi yang efisien Mendukung input hingga 32.768 token melalui long-context training Menerapkan teknologi terbaru seperti GQA, SiLU, RoPE Ulasan penggunaan dan artikel pengenalan Ulasan penggunaan model AI Korea: KT Mi:dm 2.0 Pengenalan AI bahasa Korea buatan KT, Midm 2.0 Mencoba AI Korea milik KT, Mi:dm 2.0 Halaman pengenalan Mi:dm 2.0 milik KT Materi promosi saat peluncuran Mi:dm 1.0 oleh KT - Mi:dm, mengekspresikan individualitas melampaui rasionalitas dan emosi

(huggingface.co)

10 poin oleh xguru 2025-07-10 | 16 komentar | Bagikan ke WhatsApp

"Mi:dm" adalah model open source yang dapat digunakan secara komersial dan mencerminkan karakteristik bahasa/budaya masyarakat Korea
Menggunakan strategi optimasi berlapis seperti pemilihan data bahasa Korea berkualitas tinggi dan pembuatan data sintetis, curriculum learning, serta tokenizer khusus yang dioptimalkan untuk bahasa Korea
Tiga model tersedia: mini untuk on-device (2.3B), base yang menyeimbangkan performa dan efisiensi (11.5B), dan pro kelas frontier (41B, akan dirilis)
- Mi:dm 2.0 Mini (2.3B): model ringan yang dioptimalkan untuk lingkungan embedded dan tujuan khusus
- Mi:dm 2.0 Base (11.5B): model umum berskala besar, memperkuat performa dengan memperdalam model 8B yang ada melalui teknik Depth-up Scaling
- Base dan Mini sama-sama mendukung input 32K token
Menunjukkan performa tingkat tertinggi pada benchmark bahasa Korea seperti KMMLU dan HAERAE, serta dirilis dengan lisensi MIT yang memungkinkan penggunaan bebas untuk riset maupun komersial

Komposisi dan strategi data

Berfokus pada pengamanan dokumen bahasa Korea berkualitas tinggi, dengan pemilihan berdasarkan kriteria kontekstualitas, keterbacaan, dan tidak berbahaya
Memanfaatkan data sintetis (terjemahan, pembuatan materi ajar berbasis kata kunci, Chain-of-Thought, dll.) untuk memastikan keberagaman domain
Mengatasi ketimpangan data pelatihan melalui curriculum learning dan domain balancing
Memperkuat efisiensi kompresi dan pencerminan struktur bahasa dengan tokenizer yang dioptimalkan untuk bahasa Korea

Sistem klasifikasi data
- Menerapkan sistem klasifikasi multidimensi seperti bahasa, domain, sumber data, dan ekspresi/gaya
- 6 domain utama (humaniora, STEM, ilmu terapan, kesehatan/pangan, kehidupan/budaya, lainnya) dan 20 subdomain
- Lebih dari 85.7% terdiri dari data alami (organic), dan 14% adalah data sintetis
Pipeline kontrol kualitas
- Penyaringan dokumen web skala besar dalam 8 tahap: deduplikasi, heuristik, perplexity, kerusakan/perbaikan karakter, filter kualitas berbasis model, filter konten berbahaya, duplikasi baris, de-identifikasi PII, dll.
- Menerapkan pemurnian dan aturan terpisah untuk tiap sumber (misalnya berita, dokumen hukum, makalah akademik, dll.)
Pembuatan data sintetis
- Untuk bidang dengan cakupan rendah seperti STEM dan ekonomi, digunakan data open source berkepercayaan tinggi sebagai seed, lalu diperkuat dengan materi ajar/penjelasan/soal sintetis dalam bahasa Korea
- Dokumen web yang tidak lolos kriteria juga dimanfaatkan dengan hanya mengekstrak dan menulis ulang topik intinya
- Keberagaman struktural dokumen web bahasa Inggris diubah dan diperluas ke dalam bahasa Korea untuk memperoleh data QA panjang dan penulisan
- Memperkuat pembelajaran penalaran bertahap seperti matematika dan kode dengan data Chain-of-Thought

Arsitektur model dan pelatihan

Struktur decoder-only Transformer
Base: model 8B → Depth-up Scaling (32→48 layer) → diperluas menjadi 11.5B, lalu dilatih berkelanjutan dalam 2 tahap dengan data berkualitas tinggi
Mini: pengetahuan dari Base diringankan melalui width pruning dan distillation multistage, memungkinkan inferensi yang efisien
Mendukung input hingga 32.768 token melalui long-context training
Menerapkan teknologi terbaru seperti GQA, SiLU, RoPE

Ulasan penggunaan dan artikel pengenalan

Halaman pengenalan Mi:dm 2.0 milik KT
Materi promosi saat peluncuran Mi:dm 1.0 oleh KT - Mi:dm, mengekspresikan individualitas melampaui rasionalitas dan emosi

16 komentar

miseenscene 2025-07-11

Saya mendukung upayanya, tetapi...
semoga mereka tidak melakukan hal seperti membuat organisasi baru lalu membuang versi 1.0 begitu saja.

bakyeono 2025-07-11

Sekadar melihat namanya saja sudah terasa kurang meyakinkan.
Mengapa ada tanda titik dua di tengah nama itu? Apakah ada alasan dari segi makna? Atau jangan-jangan mereka mengira itu terlihat keren?
Lalu, kalau 믿:음, bukankah dalam alfabet Latin seharusnya ditulis mid:m?

xguru 2025-07-11

Akan ada beragam pendapat, tetapi pada dasarnya saya merasa semua proyek terkait AI yang dicoba di dalam negeri punya makna. Daripada menilai levelnya dengan membandingkannya dengan pihak lain, saya pikir saat ini yang perlu dilakukan adalah mengapresiasi upaya untuk mencoba itu sendiri.

Memang benar responsnya terlambat, dan dari sisi dana maupun GPU kita juga kalah dibandingkan Amerika Serikat/Tiongkok, tetapi bukankah akan menjadi lebih baik jika kita memberi apresiasi, menggunakannya bersama-sama, lalu memperbaikinya?

crawler 2025-07-11

Saya setuju sebagian.
Saya pikir membuat wrapper yang mengaku sebagai layanan AI tetapi memakai API eksternal adalah pekerjaan yang sama sekali tidak produktif dan sekadar bisnis ambil komisi,
tetapi jika perusahaan setidaknya melakukan fine-tuning model lalu merilisnya, pada akhirnya itu berarti mereka mengeluarkannya ke publik dengan memakai sumber daya mereka sendiri, jadi menurut saya tidak ada alasan untuk memandangnya secara negatif.

Namun, kalau mulai menerima uang dari pihak luar, misalnya dari negara, rasanya akan sulit untuk melihatnya hanya dari sisi positif saja...

crawler 2025-07-11

> Saya pribadi menganggap membuat wrapper yang memakai API eksternal lalu menyebutnya sebagai layanan AI itu bukan pekerjaan yang punya produktivitas berarti, melainkan sekadar bisnis mengambil fee.

Menambahkan pada pernyataan ini, meski memakai API, kalau bisa dimanfaatkan dengan sangat baik sampai level manus, itu masih bisa dianggap sebagai pencapaian, tetapi sepertinya di Korea belum ada wrapper yang sampai tingkat seperti itu.

mssmss 2025-07-11

Karena tidak mungkin tampil kompetitif hanya dengan tugas meningkatkan performa dasar.

strn18 2025-07-10

Mengapa perusahaan Korea atau pemerintah berfokus pada model bahasa yang dioptimalkan untuk bahasa Korea? Kalau melihat tren LLM belakangan ini yang meningkatkan performa dengan melatih pada data berskala internet dalam jumlah besar, justru model umum yang tidak bergantung pada bahasa mana pun terasa lebih masuk akal. Jadi saya kurang paham, apa sebenarnya kelebihan LM yang secara khusus dioptimalkan untuk bahasa Korea?

ryj0902 2025-07-11

Kalau benar menganggap AI sebagai fondasi generasi berikutnya, tidaklah ideal jika teknologi infrastruktur inti nasional memiliki ketergantungan pada teknologi negara lain...?

roxie 2025-07-11

Menurut saya, teknologi negara lain != data negara lain

dbs0829 2025-07-11

Memang benar kualitas untuk bahasa yang jumlah penggunanya sedikit cenderung lebih rendah, tapi bukan berarti mereka hanya akan dibuat bagus untuk bahasa Korea. Juga tidak ada alasan khusus untuk itu. Dan masalahnya, kita justru termasuk pengguna dari bahasa yang jumlah penggunanya sedikit itu....

greenday 2025-07-11

Kalau bicara terus terang, itu karena daya saingnya tidak ada.
Pengembangan model open source frontier biasanya dilakukan oleh tim yang terdiri dari para Research Engineer dengan gaji tahunan miliaran won di big tech, dengan dukungan sumber daya GPU yang sangat besar. (Dulu saya ingat GPU yang dialokasikan Meta untuk satu proyek saja adalah 10.000 unit A100, dan itu lebih banyak daripada total stok A100 yang ada di Korea saat itu.)

Tenaga kerja dan sumber daya GPU yang dialokasikan untuk pengembangan LLM di Korea, secara realistis, berada pada tingkat yang sulit bersaing di panggung global.
Bukan berarti kita yang sangat buruk, melainkan Amerika Serikat dan Tiongkok terlalu dominan sehingga memang sulit untuk dikejar.

helio 2025-07-11

Saya juga kurang paham, tetapi jika melihat proses think, terkadang meskipun pertanyaannya diajukan dalam bahasa Korea, prosesnya dilakukan dalam bahasa Inggris. Kalau proses seperti itu bisa dilakukan dalam bahasa Korea, bukankah jawaban yang dihasilkan bisa lebih sesuai dengan nuansa lokal di dalam negeri?

truestar 2025-07-11

Bukankah ini soal berinvestasi dengan mempertimbangkan AI baru yang akan dikembangkan atau ditingkatkan ke depannya, atau peningkatan standar secara menyeluruh pada AI yang sudah ada? Seperti DeepSeek. Jika nuansa emosional Korea bisa dituangkan ke dalam AI seperti ini, tampaknya akan punya daya saing. Tapi ini masih cerita masa depan.

zihado 2025-07-10

Sepertinya mereka mencoba menyedot dana pemerintah yang dibagikan tanpa pertimbangan.

clastneo 2025-07-10

Mungkin karena bahasa Koreanya rusak? Gemini juga begitu, dan kalau dipakai terus sering sekali pada titik tertentu tiba-tiba lompat ke bahasa lain..

cckn1985 2025-07-10

Nama model AI-nya terdengar seperti nama yang menyeramkan, cocok muncul di cerita post-apocalyptic atau dystopian wkwk

Mi:dm 2.0 - LLM open source yang dikembangkan sendiri oleh KT

Komposisi dan strategi data

Sistem klasifikasi data

Pipeline kontrol kualitas

Pembuatan data sintetis

Arsitektur model dan pelatihan

Ulasan penggunaan dan artikel pengenalan

Bacaan terkait

16 komentar