- Dataset persona berbahasa Korea skala besar pertama yang mencerminkan distribusi demografis, geografis, dan kepribadian nyata berdasarkan data publik dari Statistics Korea, Mahkamah Agung, National Health Insurance Service, dan lainnya di Korea Selatan
- Mencakup 1 juta record dengan 7 juta persona, tersusun atas 26 field seperti nama, jenis kelamin, usia, status pernikahan, tingkat pendidikan, pekerjaan, wilayah tempat tinggal, dan lainnya
- Dibuat menggunakan NeMo Data Designer, sistem pembuatan data sintetis kelas enterprise, serta model google/gemma-4-31B-it
- Dibandingkan dataset persona yang sudah ada, dataset ini lebih setia merefleksikan lansia, wilayah pedesaan, serta distribusi pendidikan dan pekerjaan yang beragam, sehingga membantu mengurangi bias pada model sovereign AI
- Berlisensi CC BY 4.0 dan bebas digunakan untuk keperluan komersial maupun nonkomersial
Masalah pada persona Korea yang dihasilkan LLM saat ini
- Persona adalah deskripsi tentang karakteristik unik, minat, kepribadian, pekerjaan, dan aspek lain dari seseorang; karena itu, dataset yang berisi kumpulan persona harus merefleksikan karakteristik budaya dan distribusional dari kelompok tersebut secara tepat
- Bahkan jika foreign LLM diberi prompt seperti "buat profil tokoh yang realistis dan beragam dalam masyarakat Korea", hasilnya sangat terdistorsi
- Misalnya, 40% persona yang dihasilkan memilih salad sebagai makanan favorit, atau muncul hasil yang tidak realistis seperti "Saya mengelola kebun apel di Andong, Gyeongsangbuk-do"
- Saat 2.000 persona Korea diambil secara acak menggunakan Claude Opus 4.7, ditemukan bias ekstrem pada distribusi pekerjaan: 77,6% dihasilkan sebagai "petani budidaya yuzu"
- Pada GPT-5.4, 90,1% dihasilkan sebagai "caregiver lansia"
- Ada bias yang tidak sesuai dengan kondisi nyata Korea Selatan di hampir semua aspek, termasuk distribusi kota, bentuk keluarga, status kepemilikan hunian, dan preferensi makanan
Ikhtisar dan tujuan dataset
- Dataset persona sintetis open source yang dirancang untuk merefleksikan keragaman dan karakteristik populasi Korea Selatan secara luas
- Ditulis dalam bahasa Korea agar mudah dibaca siapa pun
- Tujuan utamanya adalah mengurangi missing data dan potensi bias pada data pelatihan saat membangun sistem sovereign AI
- Berfokus pada pengurangan bias yang ada pada dataset persona sebelumnya untuk pembuatan data sintetis, terutama pada sumbu usia, wilayah, tingkat pendidikan, dan pekerjaan
Sumber data dan cara pembuatan
- Memanfaatkan data sensus dari KOSIS (Portal Statistik Nasional Statistics Korea) terkait jenis kelamin, wilayah, industri, pekerjaan, perjalanan, dan aktivitas rekreasi
- Juga menggunakan data tahun kelahiran, jenis kelamin, dan nama dari Mahkamah Agung, informasi pemeriksaan kesehatan dari National Health Insurance Service, serta hasil survei perilaku konsumsi pangan dari Korea Rural Economic Institute
- NAVER Cloud menyediakan data awal dan pengetahuan domain pada tahap perancangan
- Menggunakan probabilistic graphical model (PGM) buatan sendiri, model google/gemma-4-31B-it berlisensi Apache-2.0, serta metode verifikasi dan evaluasi dari NeMo Data Designer
- Mencakup nama, usia, jenis kelamin, wilayah, pernikahan, keluarga, hunian, pendidikan, bidang studi, aktivitas ekonomi, pendapatan, sektor industri, kelompok pekerjaan, tekanan darah, gula darah, lingkar pinggang, BMI, perjalanan, aktivitas rekreasi, jenis restoran favorit, frekuensi pesan-antar dan makan di luar, dan banyak lagi
- Semua data merefleksikan distribusi nyata tetapi sepenuhnya disintesis secara artifisial, dan kemiripan dengan orang nyata hanyalah kebetulan
Skala dan komposisi dataset
- Terdiri dari total 1,7 miliar token (1 miliar token persona) dalam 1 juta record
- 26 field: 7 field persona, 6 field atribut persona, 12 field konteks demografis dan geografis, serta 1 pengenal unik
- Cakupan administratif yang komprehensif untuk 17 provinsi/kota setingkat provinsi dan 252 kota/kabupaten/distrik
- Sekitar 209 ribu kombinasi nama unik (118 marga, 21.400 nama depan)
- 7 jenis persona: pekerjaan, olahraga, seni, perjalanan, makanan, keluarga, ringkasan
- Atribut persona tambahan: latar budaya, teknologi dan keahlian, tujuan karier dan aspirasi, hobi dan minat
Distribusi nama
- Saat ini, data nama yang dipublikasikan di Korea Selatan hanya terbatas setelah 2008
- Nemotron-Personas-Korea adalah dataset publik pertama yang berbasis data nama Korea Selatan lengkap sejak 1940
- Menyelesaikan masalah penetapan nama yang tidak sesuai zaman seperti "Kim Ha-yul berusia 82 tahun?" atau "Kim Soon-ja berusia 21 tahun?"
- Pada distribusi marga, lima marga teratas—Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%), dan Choi (4,7%)—mencakup sekitar 54% dari total
- Nama mencerminkan tren penamaan antar generasi berdasarkan jenis kelamin dan tahun kelahiran
- Perempuan: nama untuk kelompok usia tua seperti Young-sook, Jeong-sook, Soon-ja hidup berdampingan dengan nama generasi muda seperti Ji-young, Yoo-jin, Ji-hyun
- Laki-laki: nama modern seperti Ji-hoon, Hyun-woo, Jun-ho berada di peringkat atas
- Nama lengkap yang paling sering muncul adalah Kim Young-sook, sesuai dengan hasil survei nyata
Distribusi usia
- Berbentuk guci dengan bagian tengah menonjol, merefleksikan struktur populasi saat ini yang sekaligus mengalami angka kelahiran rendah dan penuaan
- Kelompok paling tebal adalah usia 50–64 tahun (porsi sekitar 0,09), yang sesuai dengan generasi baby boom 1960–70-an
- Pada kelompok lansia usia 70 tahun ke atas, proporsi perempuan jelas lebih besar daripada laki-laki
- Pada rentang 80–89 tahun, proporsi perempuan sekitar 1,52 kali proporsi laki-laki
Distribusi status pernikahan
- Rasio belum menikah berada di atas 95% pada usia 19–24 tahun, lalu turun dari 55% menjadi 31% pada usia 30-an, sejalan dengan tren menikah lebih lambat dengan usia rata-rata pernikahan pertama 31–33 tahun
- Rasio menikah naik menjadi 64% mulai usia 35 tahun, lalu mencapai puncak 78% pada akhir usia 50-an
- Status duda/janda meningkat tajam mulai usia 60-an hingga mencapai 66% pada akhir usia 80-an, dan 74–81% pada usia 90-an
- Perceraian tertinggi pada akhir usia 50-an hingga awal 60-an, sekitar 12%, sejalan dengan tren perceraian usia senja
Distribusi tipe rumah tangga
- Di semua kelompok usia, rumah tangga pasangan + anak belum menikah memiliki porsi tertinggi, dengan puncak 63,6% pada usia 19 tahun
- Setelah usia 50-an, rumah tangga pasangan saja meningkat tajam dan mencapai puncak 45,7% pada usia 65–69 tahun
- Rumah tangga satu orang menunjukkan pola dua puncak: awal usia 20-an (15–22%) dan setelah usia 75 tahun (21–32%)
- Rumah tangga ibu + anak belum menikah (5–14%) lebih tinggi daripada ayah + anak belum menikah (2–5%), menunjukkan asimetri gender pada rumah tangga orang tua tunggal
Distribusi tingkat pendidikan
- Pada generasi muda usia 20–34 tahun, lulusan universitas 4 tahun melebihi 50%, dan jika termasuk diploma, sekitar 75% memiliki pendidikan tinggi
- Pada usia 80 tahun ke atas, tidak bersekolah (36%) dan lulusan sekolah dasar (37%) mencakup 73% dari total
- Berdasarkan wilayah, proporsi sarjana atau lebih tinggi tertinggi ada di Sejong (49,0%), Seoul (45,1%), lalu Daejeon (39,7%)
- Sejong dipengaruhi perpindahan aparatur sipil dan tenaga riset berpendidikan tinggi setelah relokasi Kompleks Pemerintahan Sejong
Distribusi pekerjaan
- Profesional dan pekerja kantoran memiliki porsi terbesar, mencerminkan struktur ekonomi berbasis layanan dan pengetahuan
- Di kategori penjualan, penjual belanja online berada di urutan pertama dengan 19,8%, menunjukkan tingginya porsi e-commerce
- Pada pekerjaan kasar sederhana, konsentrasi terlihat pada satpam gedung (21,3%) dan petugas kebersihan gedung (16,0%)
- Personel militer mencakup sekitar 1% dari seluruh pekerja, dan lebih dari dua pertiganya berada di Angkatan Darat
Keterbatasan dan batasan teknis
- Karena keterbatasan realistis pada ketersediaan dan kemutakhiran data publik serta model PGM, diterapkan asumsi independensi antar variabel tertentu
- Contoh: saat menetapkan pekerjaan rinci, diasumsikan bahwa jenis kelamin, pendapatan, pendidikan, dan bidang studi memengaruhi hasil secara independen, tanpa memodelkan interaksi antarvariabel
- Statistik yang komprehensif tentang gender tidak tersedia dalam data publik domestik, sehingga tidak tercermin
- Hanya mencakup persona orang dewasa usia 19 tahun ke atas
- Persona terkait pelanggan enterprise seperti sektor finansial dan healthcare tidak disertakan
Hasil perbaikan dibanding pendekatan yang bergantung pada LLM
- Jika hanya bergantung pada LLM, distribusi kota cenderung berat ke Suncheon dan Changwon, sedangkan Nemotron-Personas-Korea merefleksikan distribusi proporsional terhadap populasi nyata seperti Hwaseong di Gyeonggi, Namyangju, dan Songpa-gu di Seoul
- Bentuk keluarga diperluas dari dominasi rumah tangga satu orang menjadi beragam bentuk, termasuk tinggal dengan pasangan, pasangan + anak, dan tinggal dengan orang tua
- Status kepemilikan hunian juga berubah dari 100% milik sendiri menjadi mencerminkan rasio nyata antara kepemilikan dan sewa
- Distribusi makanan juga bergeser dari dominasi salad menjadi mencerminkan budaya makan nyata, seperti bibimbap, masakan Jepang, ayam, galbi, samgyeopsal, tteokbokki, makanan ringan Korea, roti, doenjang-jjigae, dan jjajangmyeon
Contoh refleksi budaya
- "Jeong Jun, 33 tahun, kangaroo-jok, yang melepas lelah sepulang kerja dengan samgyeopsal dan soju bersama rekan kerja" — tinggal di Songpa-gu, Seoul, lulusan universitas 4 tahun, belum menikah, tinggal dengan orang tua; mencerminkan fenomena kangaroo-jok dalam masyarakat Korea
- "Kim Chun-hee, 73 tahun dari Ulsan, yang menyukai lagu Sim Soo-bong dan senang mengunggah foto ke grup chat keluarga" — perempuan, tidak sekolah, menikah, tidak bekerja; mencerminkan populasi perempuan lansia
Mengapa dataset persona membantu LLM
- Setiap orang memiliki pengetahuan unik masing-masing, dan persona adalah fenotipe yang merangkum pengetahuan unik tersebut
- Contoh: persona teknisi listrik dapat menjadi medium untuk mengekstrak pengetahuan terkait kelistrikan dari LLM
- Dalam data sintetis, keragaman adalah metrik yang sangat penting, dan manusia merupakan sumber keragaman terbaik
- Memungkinkan pembuatan beragam data pelatihan sintetis per persona dalam bentuk seperti "buat soal penalaran logis yang terkait dengan {persona yang diberikan}"
Contoh penggunaan nyata
- Peningkatan performa penggunaan tool secara umum: tool set dan persona diberikan bersama ke user-LLM untuk sintesis data dan pelatihan. Nemotron-Nano-9B-v2-Japanese mengadopsi metodologi ini dan meraih peringkat 1 di leaderboard Nejumi. Metode serupa juga diterapkan pada Nemotron Nano v3 dan Super v3
- Peningkatan keamanan model: digunakan sebagai seed data untuk dataset Sensitive-safety-category-refusals (SSCR). Dataset SSCR termasuk dalam nemotron-safety-blend
Cara penggunaan dan lisensi
- Dapat dimuat melalui pustaka Python
datasets dengan memanggil load_dataset("nvidia/Nemotron-Personas-Korea")
- Berlisensi CC BY 4.0, sehingga bebas digunakan untuk keperluan komersial maupun nonkomersial
- Tersedia juga versi ekstensi terpisah yang bisa langsung digunakan di NeMo Data Designer
10 komentar
Saya juga sebenarnya sudah ingin sekali memposting ini di GeekNews..
https://manyperson.com/
Saya sedang membuat layanan persona yang terkait. Sama-sama menggunakan data MDIS, dan saya memanfaatkan Gemini.
Show GN: ManyPerson - simulator opini persona AI Korea berbasis MDIS dari Statistics Korea
Terima kasih atas materinya.
Terima kasih atas materi yang bagus. Jadi, persona disusun dengan cara seperti ini.
Bermanfaat!
https://github.com/civilian7/korean-people-persona
Karena kebutuhan pribadi,
saya membuat dan mengunggah program Python yang dapat mengonversi materi yang dipublikasikan ke sqlite3, serta contoh server mcp.
Rasanya belum lama sejak angka masuk universitas 4 tahun di kalangan usia 20-an masih belum mencapai 50%, tapi sekarang sepertinya sudah melampauinya.
Banyak statistik yang menarik ya
Saya melengkapi penjelasannya dengan merujuk pada materi presentasi untuk dataset tersebut.
Nemotron-Personas-Korea, kami merilis dataset persona pertama di Korea Selatan! - LinkedIn
Nemotron-Personas-Korea: dataset persona pertama di Korea Selatan - tautan PDF
Dibandingkan dengan yang dibuat LLM luar negeri, persona-persona ini terasa terlalu realistis.
"Park Ho-cheol adalah konselor veteran di pusat asuransi Wonju yang setiap hari dengan tenang menerima puluhan keluhan bernada tinggi sambil mengenakan headset, dan menguraikan ketentuan asuransi yang rumit dengan mudah seolah dijelaskan oleh tetangga sebelah.
"Ia telah menghabiskan puluhan tahun di tengah pemandangan tenang tepi Sungai Imjin di Paju, dan memiliki kebijaksanaan hidup yang mendalam yang ditempa langsung di lapangan perpipaan setelah lulus SMA. Belakangan ini, ia juga menyimak ulasan peralatan elektronik terbaru dan video tentang perkembangan dunia lewat smartphone, sambil membuka telinga pada informasi baru."