34 poin oleh GN⁺ 9 jam lalu | 8 komentar | Bagikan ke WhatsApp
  • Dataset persona berbahasa Korea berskala besar pertama yang mencerminkan distribusi demografis, geografis, dan kepribadian nyata berdasarkan data publik dari Statistics Korea, Mahkamah Agung, National Health Insurance Service, dan lainnya di Korea Selatan
  • Mencakup 7 juta persona dalam 1 juta record, terdiri dari 26 field seperti nama, gender, usia, status pernikahan, tingkat pendidikan, pekerjaan, wilayah tempat tinggal, dan lainnya
  • Dibuat menggunakan NeMo Data Designer, sistem pembuatan data sintetis kelas enterprise, serta model google/gemma-4-31B-it
  • Dibandingkan dataset persona sebelumnya, dataset ini lebih setia merefleksikan kelompok lansia, wilayah pedesaan, serta distribusi pendidikan dan pekerjaan yang beragam, sehingga berkontribusi pada pengurangan bias pada model sovereign AI
  • Tersedia dengan lisensi CC BY 4.0 dan dapat digunakan secara bebas untuk keperluan komersial maupun nonkomersial

Masalah persona Korea yang dihasilkan LLM saat ini

  • Persona adalah deskripsi mengenai karakteristik unik, minat, kepribadian, pekerjaan, dan sebagainya dari seseorang; dataset yang berisi kumpulan persona harus merefleksikan karakteristik budaya dan distribusi dari kelompok tersebut secara tepat
  • Bahkan ketika foreign LLM diberi prompt seperti “buat profil tokoh yang realistis dan beragam dalam masyarakat Korea,” hasilnya sangat terdistorsi
    • 40% dari persona yang dihasilkan memilih salad sebagai makanan favorit, atau menghasilkan keluaran tidak realistis seperti “Saya mengelola kebun apel di Andong, Gyeongsangbuk-do”
  • Saat 2.000 persona Korea diambil secara acak dengan Claude Opus 4.7, ditemukan bias ekstrem pada distribusi pekerjaan: 77,6% dihasilkan sebagai “petani budidaya yuzu”
  • Dalam kasus GPT-5.4, 90,1% dihasilkan sebagai “caregiver lansia”
  • Ada bias yang tidak sesuai dengan kondisi nyata Korea di hampir semua aspek, termasuk distribusi kota, bentuk keluarga, status hunian, preferensi makanan, dan lainnya

Gambaran umum dan tujuan dataset

  • Dataset persona sintetis open source yang dirancang untuk merefleksikan keragaman dan karakteristik populasi Korea Selatan secara luas
  • Ditulis dalam bahasa Korea agar mudah dibaca siapa pun
  • Tujuan utamanya adalah mengurangi missing data dan potensi bias dalam data pelatihan saat membangun sistem sovereign AI
  • Fokusnya adalah mengatasi bias pada dataset persona yang selama ini digunakan untuk pembuatan data sintetis, khususnya pada sumbu usia, wilayah, tingkat pendidikan, dan pekerjaan

Sumber data dan metode pembuatan

  • Memanfaatkan data sensus dari KOSIS (Korean Statistical Information Service) terkait gender, wilayah, industri, pekerjaan, perjalanan, dan aktivitas rekreasi
  • Juga menggunakan data tahun kelahiran, gender, dan nama dari Mahkamah Agung, informasi pemeriksaan kesehatan dari National Health Insurance Service, serta hasil survei perilaku konsumsi pangan dari Korea Rural Economic Institute
  • NAVER Cloud menyediakan data awal dan keahlian domain pada tahap perancangan
  • Menggunakan probabilistic graphical model (PGM) milik sendiri, model google/gemma-4-31B-it berlisensi Apache-2.0, serta metode validasi dan evaluasi dari NeMo Data Designer
  • Mencakup nama, usia, gender, wilayah, pernikahan, keluarga, tempat tinggal, pendidikan, bidang studi, aktivitas ekonomi, pendapatan, sektor industri, kelompok pekerjaan, tekanan darah, gula darah, lingkar pinggang, BMI, perjalanan, aktivitas rekreasi, jenis restoran favorit, frekuensi pesan-antar dan makan di luar, dan lain-lain
  • Seluruh data merefleksikan distribusi nyata namun sepenuhnya disintesis secara artifisial, dan kemiripan dengan orang nyata bersifat kebetulan

Skala dan komposisi dataset

  • Terdiri dari 1 juta record dengan total 1,7 miliar token (1 miliar token persona)
  • 26 field: 7 field persona, 6 field atribut persona, 12 field konteks demografis dan geografis, serta 1 pengenal unik
  • Cakupan wilayah administratif yang komprehensif untuk 17 kota/provinsi dan 252 si/gun/gu
  • Sekitar 209 ribu kombinasi nama unik (118 marga, 21.400 nama depan)
  • 7 jenis persona: pekerjaan, olahraga, seni, perjalanan, makanan, keluarga, ringkasan
  • Atribut persona tambahan: latar budaya, keterampilan dan keahlian, tujuan karier dan aspirasi, hobi dan minat

Distribusi nama

  • Data nama yang saat ini dibuka untuk publik di Korea terbatas hanya sejak 2008
  • Nemotron-Personas-Korea adalah dataset publik pertama yang berbasis data lengkap nama di Korea Selatan sejak 1940
  • Menyelesaikan masalah penetapan nama yang tidak sesuai zaman seperti “Kim Ha-yul usia 82 tahun?” atau “Kim Sun-ja usia 21 tahun?”
  • Dalam distribusi marga, lima marga teratas—Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%), dan Choi (4,7%)—mencakup sekitar 54% dari keseluruhan
  • Nama merefleksikan tren penamaan lintas generasi berdasarkan gender dan tahun kelahiran
    • Perempuan: nama kelompok usia lebih tua seperti Young-sook, Jeong-sook, Sun-ja hidup berdampingan dengan nama generasi muda seperti Ji-young, Yoo-jin, Ji-hyun
    • Laki-laki: nama modern seperti Ji-hoon, Hyun-woo, Jun-ho menempati posisi atas
  • Nama paling sering muncul secara keseluruhan adalah Kim Young-sook, selaras dengan hasil survei nyata

Distribusi usia

  • Memiliki struktur berbentuk guci dengan bagian tengah menonjol, secara setia merefleksikan struktur populasi saat ini yang mengalami angka kelahiran rendah dan penuaan secara bersamaan
  • Kelompok paling tebal adalah usia 50–64 tahun (sekitar 0,09), yang sesuai dengan generasi baby boom 1960–70-an
  • Pada kelompok lansia usia 70 tahun ke atas, proporsi perempuan tampak jelas lebih besar daripada laki-laki
    • Pada kelompok usia 80–89 tahun, rasio perempuan sekitar 1,52 kali laki-laki

Distribusi status pernikahan

  • Rasio belum menikah berada di atas 95% pada usia 19–24 tahun, lalu turun dari 55%→31% pada usia 30-an, sesuai dengan tren usia menikah pertama rata-rata 31–33 tahun yang semakin terlambat
  • Rasio menikah naik menjadi 64% mulai usia 35 tahun, lalu mencapai puncak 78% pada akhir usia 50-an
  • Status duda/janda meningkat tajam mulai usia 60-an hingga mencapai 66% pada akhir usia 80-an, dan 74–81% pada usia 90-an
  • Perceraian paling tinggi pada usia 50-an hingga awal 60-an, sekitar 12%, selaras dengan tren “gray divorce”

Distribusi tipe rumah tangga

  • Di seluruh kelompok usia, rumah tangga pasangan suami-istri + anak belum menikah memiliki porsi terbesar, dengan puncak 63,6% pada usia 19 tahun
  • Setelah usia 50-an, rumah tangga pasangan suami-istri saja meningkat tajam dan mencapai puncak 45,7% pada usia 65–69 tahun
  • Rumah tangga satu orang menunjukkan pola dua puncak pada awal usia 20-an (15–22%) dan setelah usia 75 tahun (21–32%)
  • Rumah tangga ibu + anak belum menikah (5–14%) lebih tinggi daripada ayah + anak belum menikah (2–5%), mengonfirmasi asimetri gender pada rumah tangga orang tua tunggal

Distribusi tingkat pendidikan

  • Generasi muda usia 20–34 tahun memiliki rasio lulusan universitas 4 tahun di atas 50%, dan jika termasuk junior college maka sekitar 75% memiliki pendidikan perguruan tinggi atau lebih
  • Pada kelompok usia 80 tahun ke atas, tidak bersekolah (36%) dan lulusan sekolah dasar (37%) mencakup 73% dari total
  • Berdasarkan wilayah, proporsi gelar sarjana atau lebih tinggi paling besar di Sejong (49,0%), Seoul (45,1%), dan Daejeon (39,7%)
    • Untuk Sejong, ini dipengaruhi oleh masuknya pegawai negeri dan peneliti berpendidikan tinggi setelah relokasi Kompleks Pemerintahan Sejong

Distribusi pekerjaan

  • Profesional dan pekerja kantoran menempati porsi terbesar, mencerminkan struktur ekonomi berbasis layanan dan pengetahuan
  • Di pekerjaan penjualan, penjual online shopping berada di posisi pertama dengan 19,8%, menunjukkan tingginya proporsi e-commerce
  • Pada pekerjaan kasar sederhana, terkonsentrasi pada petugas keamanan gedung (21,3%) dan petugas kebersihan gedung (16,0%)
  • Personel militer mencakup sekitar 1% dari seluruh pekerja, dan lebih dari dua pertiganya berasal dari Angkatan Darat

Batasan dan keterbatasan teknis

  • Karena keterbatasan realistis terkait ketersediaan data publik, kebaruan data, dan model PGM, diterapkan asumsi independensi antar variabel tertentu
    • Contoh: saat menetapkan pekerjaan rinci, diasumsikan bahwa gender, pendapatan, pendidikan, jurusan, dan sebagainya memengaruhi secara independen, tanpa merefleksikan interaksi antar faktor
  • Statistik komprehensif mengenai gender tidak tersedia dalam data publik domestik sehingga belum tercakup
  • Hanya mencakup persona dewasa berusia 19 tahun ke atas
  • Persona terkait pelanggan enterprise seperti sektor finansial dan healthcare tidak disertakan

Hasil perbaikan dibanding pendekatan yang bergantung pada LLM

  • Jika hanya bergantung pada LLM, distribusi kota cenderung berat ke Suncheon, Changwon, dan lainnya; sedangkan Nemotron-Personas-Korea merefleksikan distribusi proporsional terhadap populasi nyata seperti Hwaseong di Gyeonggi, Namyangju, dan Songpa-gu di Seoul
  • Bentuk keluarga berkembang dari dominasi rumah tangga satu orang menjadi berbagai bentuk seperti tinggal dengan pasangan, pasangan + anak, atau tinggal dengan orang tua
  • Status kepemilikan hunian juga beralih dari 100% rumah milik sendiri menjadi merefleksikan rasio nyata antara milik sendiri dan sewa
  • Distribusi makanan juga berubah dari dominasi salad menjadi mencerminkan budaya makan nyata seperti bibimbap, masakan Jepang, ayam, galbi, samgyeopsal, tteokbokki, bunsik, roti, doenjang-jjigae, dan jjajangmyeon

Contoh refleksi budaya

  • “Jeong Jun, 33 tahun, generasi kangaroo yang melepas lelah setelah kerja dengan samgyeopsal dan soju bersama rekan-rekan dalam perjalanan pulang” — tinggal di Songpa-gu, Seoul; lulusan universitas 4 tahun; belum menikah; tinggal bersama orang tua; merefleksikan fenomena generasi kangaroo dalam masyarakat Korea
  • “Kim Chun-hee, 73 tahun dari Ulsan yang menyukai lagu-lagu Sim Soo-bong dan mengunggah foto ke ruang obrolan grup keluarga” — perempuan, tidak bersekolah, memiliki pasangan, tidak bekerja; merefleksikan populasi perempuan lansia

Mengapa dataset persona membantu LLM

  • Setiap orang memiliki pengetahuan unik, dan persona adalah fenotipe yang merangkum pengetahuan unik tersebut
    • Contoh: persona teknisi listrik dapat menjadi medium untuk menarik pengetahuan kelistrikan dari LLM
  • Dalam data sintetis, keragaman adalah indikator yang sangat penting, dan manusia merupakan sumber keragaman terbaik
  • Memungkinkan pembuatan berbagai data pelatihan sintetis per persona dalam bentuk seperti “buatkan soal penalaran logis yang terkait dengan {persona yang diberikan}”

Contoh penggunaan nyata

  • Peningkatan performa penggunaan tool secara umum: persona diberikan bersama tool set kepada user-LLM untuk sintesis data dan pelatihan. Nemotron-Nano-9B-v2-Japanese mengadopsi metodologi ini dan meraih peringkat 1 di leaderboard Nejumi. Pendekatan serupa juga diterapkan pada Nemotron Nano v3 dan Super v3
  • Peningkatan keamanan model: digunakan sebagai seed data untuk dataset Sensitive-safety-category-refusals (SSCR). Dataset SSCR disertakan dalam nemotron-safety-blend

Cara penggunaan dan lisensi

  • Dapat dimuat dengan memanggil load_dataset("nvidia/Nemotron-Personas-Korea") melalui library Python datasets
  • Tersedia dengan lisensi CC BY 4.0 dan dapat digunakan secara bebas untuk keperluan komersial maupun nonkomersial
  • Juga tersedia versi ekstensi terpisah yang dapat langsung digunakan di NeMo Data Designer

8 komentar

 
dongho42 1 jam lalu

Bermanfaat!

 
calmlake79 8 jam lalu

Saya juga sebenarnya sudah ingin sekali memposting ini di GeekNews..

https://manyperson.com/

Saya sedang membuat layanan persona yang terkait. Sama-sama menggunakan data MDIS, dan saya memanfaatkan Gemini.

 
civilian 6 jam lalu

https://github.com/civilian7/korean-people-persona

Karena kebutuhan pribadi,
saya membuat dan mengunggah program Python yang dapat mengonversi materi yang dipublikasikan ke sqlite3, serta contoh server mcp.

 
nvkzrx 8 jam lalu

Rasanya belum lama sejak angka masuk universitas 4 tahun di kalangan usia 20-an masih belum mencapai 50%, tapi sekarang sepertinya sudah melampauinya.

 
nvkzrx 8 jam lalu

Banyak statistik yang menarik ya

 
xguru 8 jam lalu

Dibandingkan dengan yang dibuat LLM luar negeri, persona-persona ini terasa terlalu realistis.

"Park Ho-cheol adalah konselor veteran di pusat asuransi Wonju yang setiap hari dengan tenang menerima puluhan keluhan bernada tinggi sambil mengenakan headset, dan menguraikan ketentuan asuransi yang rumit dengan mudah seolah dijelaskan oleh tetangga sebelah.

"Ia telah menghabiskan puluhan tahun di tengah pemandangan tenang tepi Sungai Imjin di Paju, dan memiliki kebijaksanaan hidup yang mendalam yang ditempa langsung di lapangan perpipaan setelah lulus SMA. Belakangan ini, ia juga menyimak ulasan peralatan elektronik terbaru dan video tentang perkembangan dunia lewat smartphone, sambil membuka telinga pada informasi baru."