NVIDIA Nemotron-Personas-Korea - Dataset persona sintetis 1 juta entri berbasis distribusi populasi

Dataset persona berbahasa Korea skala besar pertama yang mencerminkan distribusi demografis, geografis, dan kepribadian nyata berdasarkan data publik dari Statistics Korea, Mahkamah Agung, National Health Insurance Service, dan lainnya di Korea Selatan
Mencakup 1 juta record dengan 7 juta persona, tersusun atas 26 field seperti nama, jenis kelamin, usia, status pernikahan, tingkat pendidikan, pekerjaan, wilayah tempat tinggal, dan lainnya
Dibuat menggunakan NeMo Data Designer, sistem pembuatan data sintetis kelas enterprise, serta model google/gemma-4-31B-it
Dibandingkan dataset persona yang sudah ada, dataset ini lebih setia merefleksikan lansia, wilayah pedesaan, serta distribusi pendidikan dan pekerjaan yang beragam, sehingga membantu mengurangi bias pada model sovereign AI
Berlisensi CC BY 4.0 dan bebas digunakan untuk keperluan komersial maupun nonkomersial

Masalah pada persona Korea yang dihasilkan LLM saat ini

Persona adalah deskripsi tentang karakteristik unik, minat, kepribadian, pekerjaan, dan aspek lain dari seseorang; karena itu, dataset yang berisi kumpulan persona harus merefleksikan karakteristik budaya dan distribusional dari kelompok tersebut secara tepat
Bahkan jika foreign LLM diberi prompt seperti "buat profil tokoh yang realistis dan beragam dalam masyarakat Korea", hasilnya sangat terdistorsi
- Misalnya, 40% persona yang dihasilkan memilih salad sebagai makanan favorit, atau muncul hasil yang tidak realistis seperti "Saya mengelola kebun apel di Andong, Gyeongsangbuk-do"
Saat 2.000 persona Korea diambil secara acak menggunakan Claude Opus 4.7, ditemukan bias ekstrem pada distribusi pekerjaan: 77,6% dihasilkan sebagai "petani budidaya yuzu"
Pada GPT-5.4, 90,1% dihasilkan sebagai "caregiver lansia"
Ada bias yang tidak sesuai dengan kondisi nyata Korea Selatan di hampir semua aspek, termasuk distribusi kota, bentuk keluarga, status kepemilikan hunian, dan preferensi makanan

Ikhtisar dan tujuan dataset

Dataset persona sintetis open source yang dirancang untuk merefleksikan keragaman dan karakteristik populasi Korea Selatan secara luas
Ditulis dalam bahasa Korea agar mudah dibaca siapa pun
Tujuan utamanya adalah mengurangi missing data dan potensi bias pada data pelatihan saat membangun sistem sovereign AI
Berfokus pada pengurangan bias yang ada pada dataset persona sebelumnya untuk pembuatan data sintetis, terutama pada sumbu usia, wilayah, tingkat pendidikan, dan pekerjaan

Sumber data dan cara pembuatan

Memanfaatkan data sensus dari KOSIS (Portal Statistik Nasional Statistics Korea) terkait jenis kelamin, wilayah, industri, pekerjaan, perjalanan, dan aktivitas rekreasi
Juga menggunakan data tahun kelahiran, jenis kelamin, dan nama dari Mahkamah Agung, informasi pemeriksaan kesehatan dari National Health Insurance Service, serta hasil survei perilaku konsumsi pangan dari Korea Rural Economic Institute
NAVER Cloud menyediakan data awal dan pengetahuan domain pada tahap perancangan
Menggunakan probabilistic graphical model (PGM) buatan sendiri, model google/gemma-4-31B-it berlisensi Apache-2.0, serta metode verifikasi dan evaluasi dari NeMo Data Designer
Mencakup nama, usia, jenis kelamin, wilayah, pernikahan, keluarga, hunian, pendidikan, bidang studi, aktivitas ekonomi, pendapatan, sektor industri, kelompok pekerjaan, tekanan darah, gula darah, lingkar pinggang, BMI, perjalanan, aktivitas rekreasi, jenis restoran favorit, frekuensi pesan-antar dan makan di luar, dan banyak lagi
Semua data merefleksikan distribusi nyata tetapi sepenuhnya disintesis secara artifisial, dan kemiripan dengan orang nyata hanyalah kebetulan

Skala dan komposisi dataset

Terdiri dari total 1,7 miliar token (1 miliar token persona) dalam 1 juta record
26 field: 7 field persona, 6 field atribut persona, 12 field konteks demografis dan geografis, serta 1 pengenal unik
Cakupan administratif yang komprehensif untuk 17 provinsi/kota setingkat provinsi dan 252 kota/kabupaten/distrik
Sekitar 209 ribu kombinasi nama unik (118 marga, 21.400 nama depan)
7 jenis persona: pekerjaan, olahraga, seni, perjalanan, makanan, keluarga, ringkasan
Atribut persona tambahan: latar budaya, teknologi dan keahlian, tujuan karier dan aspirasi, hobi dan minat

Distribusi nama

Saat ini, data nama yang dipublikasikan di Korea Selatan hanya terbatas setelah 2008
Nemotron-Personas-Korea adalah dataset publik pertama yang berbasis data nama Korea Selatan lengkap sejak 1940
Menyelesaikan masalah penetapan nama yang tidak sesuai zaman seperti "Kim Ha-yul berusia 82 tahun?" atau "Kim Soon-ja berusia 21 tahun?"
Pada distribusi marga, lima marga teratas—Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%), dan Choi (4,7%)—mencakup sekitar 54% dari total
Nama mencerminkan tren penamaan antar generasi berdasarkan jenis kelamin dan tahun kelahiran
- Perempuan: nama untuk kelompok usia tua seperti Young-sook, Jeong-sook, Soon-ja hidup berdampingan dengan nama generasi muda seperti Ji-young, Yoo-jin, Ji-hyun
- Laki-laki: nama modern seperti Ji-hoon, Hyun-woo, Jun-ho berada di peringkat atas
Nama lengkap yang paling sering muncul adalah Kim Young-sook, sesuai dengan hasil survei nyata

Distribusi usia

Berbentuk guci dengan bagian tengah menonjol, merefleksikan struktur populasi saat ini yang sekaligus mengalami angka kelahiran rendah dan penuaan
Kelompok paling tebal adalah usia 50–64 tahun (porsi sekitar 0,09), yang sesuai dengan generasi baby boom 1960–70-an
Pada kelompok lansia usia 70 tahun ke atas, proporsi perempuan jelas lebih besar daripada laki-laki
- Pada rentang 80–89 tahun, proporsi perempuan sekitar 1,52 kali proporsi laki-laki

Distribusi status pernikahan

Rasio belum menikah berada di atas 95% pada usia 19–24 tahun, lalu turun dari 55% menjadi 31% pada usia 30-an, sejalan dengan tren menikah lebih lambat dengan usia rata-rata pernikahan pertama 31–33 tahun
Rasio menikah naik menjadi 64% mulai usia 35 tahun, lalu mencapai puncak 78% pada akhir usia 50-an
Status duda/janda meningkat tajam mulai usia 60-an hingga mencapai 66% pada akhir usia 80-an, dan 74–81% pada usia 90-an
Perceraian tertinggi pada akhir usia 50-an hingga awal 60-an, sekitar 12%, sejalan dengan tren perceraian usia senja

Distribusi tipe rumah tangga

Di semua kelompok usia, rumah tangga pasangan + anak belum menikah memiliki porsi tertinggi, dengan puncak 63,6% pada usia 19 tahun
Setelah usia 50-an, rumah tangga pasangan saja meningkat tajam dan mencapai puncak 45,7% pada usia 65–69 tahun
Rumah tangga satu orang menunjukkan pola dua puncak: awal usia 20-an (15–22%) dan setelah usia 75 tahun (21–32%)
Rumah tangga ibu + anak belum menikah (5–14%) lebih tinggi daripada ayah + anak belum menikah (2–5%), menunjukkan asimetri gender pada rumah tangga orang tua tunggal

Distribusi tingkat pendidikan

Pada generasi muda usia 20–34 tahun, lulusan universitas 4 tahun melebihi 50%, dan jika termasuk diploma, sekitar 75% memiliki pendidikan tinggi
Pada usia 80 tahun ke atas, tidak bersekolah (36%) dan lulusan sekolah dasar (37%) mencakup 73% dari total
Berdasarkan wilayah, proporsi sarjana atau lebih tinggi tertinggi ada di Sejong (49,0%), Seoul (45,1%), lalu Daejeon (39,7%)
- Sejong dipengaruhi perpindahan aparatur sipil dan tenaga riset berpendidikan tinggi setelah relokasi Kompleks Pemerintahan Sejong

Distribusi pekerjaan

Profesional dan pekerja kantoran memiliki porsi terbesar, mencerminkan struktur ekonomi berbasis layanan dan pengetahuan
Di kategori penjualan, penjual belanja online berada di urutan pertama dengan 19,8%, menunjukkan tingginya porsi e-commerce
Pada pekerjaan kasar sederhana, konsentrasi terlihat pada satpam gedung (21,3%) dan petugas kebersihan gedung (16,0%)
Personel militer mencakup sekitar 1% dari seluruh pekerja, dan lebih dari dua pertiganya berada di Angkatan Darat

Keterbatasan dan batasan teknis

Karena keterbatasan realistis pada ketersediaan dan kemutakhiran data publik serta model PGM, diterapkan asumsi independensi antar variabel tertentu
- Contoh: saat menetapkan pekerjaan rinci, diasumsikan bahwa jenis kelamin, pendapatan, pendidikan, dan bidang studi memengaruhi hasil secara independen, tanpa memodelkan interaksi antarvariabel
Statistik yang komprehensif tentang gender tidak tersedia dalam data publik domestik, sehingga tidak tercermin
Hanya mencakup persona orang dewasa usia 19 tahun ke atas
Persona terkait pelanggan enterprise seperti sektor finansial dan healthcare tidak disertakan

Hasil perbaikan dibanding pendekatan yang bergantung pada LLM

Jika hanya bergantung pada LLM, distribusi kota cenderung berat ke Suncheon dan Changwon, sedangkan Nemotron-Personas-Korea merefleksikan distribusi proporsional terhadap populasi nyata seperti Hwaseong di Gyeonggi, Namyangju, dan Songpa-gu di Seoul
Bentuk keluarga diperluas dari dominasi rumah tangga satu orang menjadi beragam bentuk, termasuk tinggal dengan pasangan, pasangan + anak, dan tinggal dengan orang tua
Status kepemilikan hunian juga berubah dari 100% milik sendiri menjadi mencerminkan rasio nyata antara kepemilikan dan sewa
Distribusi makanan juga bergeser dari dominasi salad menjadi mencerminkan budaya makan nyata, seperti bibimbap, masakan Jepang, ayam, galbi, samgyeopsal, tteokbokki, makanan ringan Korea, roti, doenjang-jjigae, dan jjajangmyeon

Contoh refleksi budaya

"Jeong Jun, 33 tahun, kangaroo-jok, yang melepas lelah sepulang kerja dengan samgyeopsal dan soju bersama rekan kerja" — tinggal di Songpa-gu, Seoul, lulusan universitas 4 tahun, belum menikah, tinggal dengan orang tua; mencerminkan fenomena kangaroo-jok dalam masyarakat Korea
"Kim Chun-hee, 73 tahun dari Ulsan, yang menyukai lagu Sim Soo-bong dan senang mengunggah foto ke grup chat keluarga" — perempuan, tidak sekolah, menikah, tidak bekerja; mencerminkan populasi perempuan lansia

Mengapa dataset persona membantu LLM

Setiap orang memiliki pengetahuan unik masing-masing, dan persona adalah fenotipe yang merangkum pengetahuan unik tersebut
- Contoh: persona teknisi listrik dapat menjadi medium untuk mengekstrak pengetahuan terkait kelistrikan dari LLM
Dalam data sintetis, keragaman adalah metrik yang sangat penting, dan manusia merupakan sumber keragaman terbaik
Memungkinkan pembuatan beragam data pelatihan sintetis per persona dalam bentuk seperti "buat soal penalaran logis yang terkait dengan {persona yang diberikan}"

Contoh penggunaan nyata

Peningkatan performa penggunaan tool secara umum: tool set dan persona diberikan bersama ke user-LLM untuk sintesis data dan pelatihan. Nemotron-Nano-9B-v2-Japanese mengadopsi metodologi ini dan meraih peringkat 1 di leaderboard Nejumi. Metode serupa juga diterapkan pada Nemotron Nano v3 dan Super v3
Peningkatan keamanan model: digunakan sebagai seed data untuk dataset Sensitive-safety-category-refusals (SSCR). Dataset SSCR termasuk dalam nemotron-safety-blend

Cara penggunaan dan lisensi

Dapat dimuat melalui pustaka Python datasets dengan memanggil load_dataset("nvidia/Nemotron-Personas-Korea")
Berlisensi CC BY 4.0, sehingga bebas digunakan untuk keperluan komersial maupun nonkomersial
Tersedia juga versi ekstensi terpisah yang bisa langsung digunakan di NeMo Data Designer

NVIDIA Nemotron-Personas-Korea - Dataset persona sintetis 1 juta entri berbasis distribusi populasi nyata Korea Selatan

Masalah pada persona Korea yang dihasilkan LLM saat ini

Ikhtisar dan tujuan dataset

Sumber data dan cara pembuatan

Skala dan komposisi dataset

Distribusi nama

Distribusi usia

Distribusi status pernikahan

Distribusi tipe rumah tangga

Distribusi tingkat pendidikan

Distribusi pekerjaan

Keterbatasan dan batasan teknis

Hasil perbaikan dibanding pendekatan yang bergantung pada LLM

Contoh refleksi budaya

Mengapa dataset persona membantu LLM

Contoh penggunaan nyata

Cara penggunaan dan lisensi

10 komentar

NVIDIA Nemotron-Personas-Korea - Dataset persona sintetis 1 juta entri berbasis distribusi populasi nyata Korea Selatan

Masalah pada persona Korea yang dihasilkan LLM saat ini

Ikhtisar dan tujuan dataset

Sumber data dan cara pembuatan

Skala dan komposisi dataset

Distribusi nama

Distribusi usia

Distribusi status pernikahan

Distribusi tipe rumah tangga

Distribusi tingkat pendidikan

Distribusi pekerjaan

Keterbatasan dan batasan teknis

Hasil perbaikan dibanding pendekatan yang bergantung pada LLM

Contoh refleksi budaya

Mengapa dataset persona membantu LLM

Contoh penggunaan nyata

Cara penggunaan dan lisensi

Bacaan terkait

10 komentar