Data Science Keuangan Part.0: 7 Hal yang Membuat Data Science Keuangan Berbeda dari ML Umum

(han-co.com)

2 poin oleh hanco1104 7 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Saya memulai serial 「Dasar-Dasar Data Science Keuangan」. Tulisan ini adalah edisi pertama (Part 0). Mulai dari Part 0, saya berencana menguraikan secara berurutan seperti buku mengapa data science bekerja berbeda dari ML umum di lapangan penilaian kredit. Topik yang akan dibahas mencakup reject inference, inferensi kausal, kalibrasi, validasi, fairness, dan regulasi.
Versi asli lebih dulu saya unggah di blog saya → https://han-co.com/ko/blog/part0-finance-ds-7-differences

Saya bukan veteran yang sudah sangat lama berkecimpung di bidang ini. Saya pindah dari pekerjaan sebagai engineer di industri manufaktur ke sektor keuangan, dan sekarang bekerja sebagai data scientist di bidang penilaian kredit. Jadi, alih-alih menganggap tulisan ini sebagai “inilah jawaban yang benar”, saya akan senang jika Anda melihatnya sebagai rangkuman hal-hal yang dulu sempat membuat saya bingung ketika masuk ke bidang ini, hal-hal seperti, “loh, saya sudah mengikuti buku, tapi kenapa hasilnya terus salah?”

Yang menarik, ternyata itu bukan hanya saya yang mengalaminya. Bahkan orang yang sangat mahir mulai dari membangun sampai mengevaluasi model ML umum pun sering melakukan kesalahan serupa ketika masuk ke penilaian kredit. Metrik validasinya bagus, tetapi performanya tidak keluar di lapangan; akurasinya 99%, tetapi tak seorang pun senang; performa diperas naik 0,01 lagi, tetapi departemen risiko malah menghentikan deployment…

Ini bukan semata soal kemampuan, melainkan karena keuangan (terutama penilaian kredit) bukan sekadar “menerapkan ML pada data keuangan”, tetapi sebuah bidang dengan aturan yang sedikit berbeda. Dan hampir semua hal yang akan dibahas dalam serial ini ke depan—yakni reject inference, inferensi kausal, kalibrasi, validasi, dan fairness—pada akhirnya berlandaskan aturan-aturan ini.

1. Selection bias adalah kondisi default

Sebenarnya ada satu lubang besar dalam data pelatihan yang kita miliki. Kita hanya bisa melihat hasil pembayaran kembali dari pelanggan yang disetujui. Untuk pelanggan yang ditolak, kita tidak akan pernah tahu apakah mereka sebenarnya akan membayar kembali atau gagal bayar. Sejak awal, kartu memang tidak pernah diterbitkan untuk mereka.

ML umum biasanya berasumsi bahwa “data merepresentasikan populasi”. Namun dalam penilaian kredit, asumsi ini sudah rusak sejak awal. Data pelatihan adalah pelanggan yang telah disetujui di masa lalu, sementara objek yang sebenarnya harus dinilai model adalah seluruh pemohon yang belum disetujui. Keduanya adalah populasi yang berbeda.

Seluruh pemohon  
├─ Disetujui (hasil teramati)  
│   ├─ Melunasi  → pembayaran normal  
│   └─ Gagal bayar  → tunggakan/gagal bayar  
└─ Ditolak (hasil tidak teramati)  → ??? tidak diketahui apakah akan membayar atau gagal bayar

Model hanya belajar dari “pelanggan yang disetujui”. Hasil nyata dari pelanggan yang ditolak tidak tersimpan dalam data.

Satu hal ini memunculkan jauh lebih banyak masalah daripada yang dibayangkan. Karena tidak ada data pasca-penolakan untuk “pelanggan yang ditolak”, model tidak bisa mempelajari area yang dulu ditolaknya sendiri dan mewarisi bias dari kebijakan penilaian masa lalu begitu saja. Karena itu, di bidang ini reject inference (inferensi penolakan) dan inferensi kausal bukan teknik khusus, melainkan fondasi dasar. (Keduanya akan saya bahas lebih dalam di episode terpisah nanti.)

2. Waktu mengalir satu arah, dan model menua

Jika Anda mengacak data lalu menjalankan K-fold, sebenarnya itu sama saja dengan sedikit mengintip masa depan. Soalnya, data masa lalu dan masa depan bercampur dalam data validasi.

Data kredit mengalir mengikuti waktu. Model yang dilatih dengan data pelanggan tahun 2024 akan menilai pelanggan tahun 2026. Di antaranya, kondisi ekonomi berubah, suku bunga naik, perilaku pelanggan dan produk pun berubah. Distribusi mengalami drift. K-fold acak mencampur masa lalu dan masa depan menjadi satu, sehingga diam-diam menyisipkan informasi ke dalam validasi yang dalam praktik nyata tidak mungkin didapatkan.

Karena itu, validasi dasar di keuangan adalah OOT (out-of-time), yaitu mengevaluasi pada periode yang lebih akhir daripada periode pelatihan. Setelah deployment, kita juga harus terus memantau seberapa jauh distribusi bergeser dan bagaimana pelanggan berubah seiring waktu. Sejak saat model dirilis, proses penuaannya pun dimulai.

3. “Siapa yang lebih berisiko” saja tidak cukup; yang dibutuhkan adalah “tepatnya berapa %”

Masalah klasifikasi umum biasanya cukup jika urutannya benar. Asal bisa menyusun siapa yang lebih berisiko, itu sudah cukup, dan AUC mengukur kemampuan tersebut.

Namun kredit tidak bisa berhenti di situ. Yang dibutuhkan adalah probabilitas absolut, yaitu PD yang terkalibrasi (calibrated PD). Harus ada angka seperti “probabilitas gagal bayar pelanggan ini tepat 3,2%” agar kita bisa menentukan harga (risk-based pricing), membentuk pencadangan (provisioning), dan menghitung expected loss. Dengan urutan saja, tak satu pun dari itu bisa dilakukan.

Karena itu, situasi seperti ini cukup sering terjadi dalam kredit: AUC sangat bagus, tetapi PD modelnya salah. Daya diskriminasi (discrimination) dan kalibrasi (calibration) adalah dua sumbu yang berbeda, jadi keduanya harus dijaga. (Saya juga sudah menyiapkan edisi khusus yang hanya membahas kalibrasi. Ternyata cukup sering hal ini terlewat.)

4. Biaya bersifat asimetris, datang sangat terlambat, dan dinyatakan dalam satuan nominal

Akurasi (accuracy) menghitung semua kesalahan secara sama. Tetapi dalam kredit, bobot kesalahan sama sekali tidak setara.

Keuntungan dari menyetujui satu pelanggan berkualitas baik adalah margin (beberapa ribu yen), sedangkan biaya dari satu gagal bayar adalah LGD × EAD (ratusan ribu yen). Satu sisi bisa puluhan kali lebih berat. Jadi, yang harus kita optimalkan bukan akurasi, melainkan expected profit dan expected loss.

Expected profit = (1 − PD) × margin − PD × LGD × EAD

Expected loss (EL) saat gagal bayar kembali dapat diuraikan menjadi hasil kali tiga elemen.

EL = PD × LGD × EAD

PD: probabilitas gagal bayar
LGD: loss given default
EAD: exposure at default

Tiga elemen ini masing-masing adalah masalah pemodelan yang berbeda. Inti dari scoring adalah PD.

Selain itu, label yang benar datang jauh belakangan. Apakah pelanggan yang disetujui hari ini akan gagal bayar atau tidak, biasanya baru bisa dipastikan 12–24 bulan kemudian. Fakta bahwa label datang seterlambat ini cukup berbenturan dengan pola pikir ML yang terbiasa dengan umpan balik cepat. Kita harus terus menumpuk keputusan sambil belum mengetahui hasilnya.

5. Stabilitas mengalahkan performa batas atas

Dalam kompetisi ML, memeras AUC naik 0,001 pun dianggap kebajikan. Seperti kompetisi Kaggle, misalnya. Namun dalam model kredit di dunia kerja, hal itu sering justru merugikan.

Model yang menjadi tidak stabil demi mendapat setetes performa tambahan akan segera berubah menjadi biaya dalam operasional. Misalnya, model yang skornya berayun hebat hanya karena input sedikit berubah, tidak bisa direproduksi, atau memiliki segmen aneh seperti “semakin tinggi pendapatan, semakin rendah skornya”. Stabilitas operasional, reproduktibilitas, dan monotonicity sering kali lebih penting daripada performa di belakang koma. Inilah salah satu alasan mengapa regresi logistik tetap bertahan sebagai standar scoring bahkan di era GBM.

6. Interpretabilitas bukan pilihan, melainkan kewajiban

Di bidang lain, kemampuan menjelaskan “mengapa prediksi ini keluar?” hanyalah bonus yang bagus jika ada. Tetapi dalam kredit, jika itu tidak ada, sering kali modelnya menjadi ilegal atau tidak bisa dideploy.

Pemberitahuan alasan penolakan (adverse action, 否決理由), penjelasan kepada otoritas pengawas, dan tata kelola internal semuanya menuntut penjelasan “mengapa skor ini muncul”. Karena itu, black box bukanlah sesuatu yang keren, tetapi risiko itu sendiri. Inilah sebabnya di praktik kerja orang cenderung menyukai struktur seperti WOE atau scorecard yang alasan keputusannya keluar secara alami, dan bahkan saat memakai boosting pun mereka menyiapkan mekanisme seperti SHAP untuk mengekstrak alasannya.

7. Overhead regulasi dan tata kelola selalu menyertai

Terakhir, model tidak bisa dideploy secara bebas.

Pekerjaan tidak selesai hanya karena model sudah dibuat. Model risk management (MRM), validasi independen, dokumentasi, dan audit trail adalah bagian dari proses pengembangan. Pengembang dan validator dipisahkan, dan model baru biasanya diamati cukup lama dalam shadow mode sebelum akhirnya dipakai dalam pengambilan keputusan nyata. Intuisi ala startup seperti “ayo cepat deploy model yang performanya bagus” tidak terlalu berlaku di sini. Ada alasan mengapa prosesnya lambat. Satu model bisa berdampak sampai ke pencadangan dan perhitungan modal.

(Kalau bekerja di Jepang, hal ini terasa lebih nyata. Untuk penerbitan kartu dan penetapan limit, ada kewajiban menghitung estimated payable amount (支払可能見込額) menurut Installment Sales Act (割賦販売法), sehingga model langsung menjadi dasar hukum. Soal ini akan saya bahas tersendiri di edisi regulasi.)

Bukankah AI akan mengerjakan semua ini?

Belakangan saya sering mendapat pertanyaan seperti ini. Dengan generative AI dan agent yang berkembang secepat ini, apakah pengetahuan pemodelan seperti ini masih perlu dipelajari? Jawaban jujurnya, justru malah semakin perlu (setidaknya untuk saat ini).

Tujuh hal yang sudah kita lihat sampai sekarang bukan soal algoritma tertentu, melainkan struktur masalah di bidang ini: counterfactual yang tidak teramati, data yang mengalir menurut waktu, biaya asimetris, probabilitas absolut, stabilitas, kewajiban penjelasan, dan regulasi. Menempelkan LLM pada proses ini tidak serta-merta membuat masalah-masalah itu hilang. Justru harus ada orang yang tahu bahwa masalah-masalah itu ada, agar model yang dibuat secara otomatis tidak dengan percaya diri menghasilkan jawaban yang salah.

Khususnya poin 6 dan 7 adalah inti. Kita harus bisa menjelaskan alasan penolakan, harus memvalidasi model secara independen, dan hasilnya menjadi dasar pencadangan serta perhitungan modal. Model black box secara struktural terhambat oleh persyaratan-persyaratan ini. Karena itu, generative AI tidak akan begitu saja mengambil alih seluruh penilaian kredit; sebaliknya, orang yang memahami “mengapa model harus dapat dijelaskan dan bagaimana memvalidasinya” akan tetap berada di posisi untuk menilai hasil yang dikeluarkan AI tersebut.

Tentu ada juga yang berubah. Penulisan kode yang repetitif atau analisis dasar lambat laun menjadi peran AI. Karena itu, pusat gravitasi praktik kerja bergeser dari kemampuan menyusun model dengan tangan, menuju kemampuan menilai untuk merumuskan masalah dengan benar, memvalidasi, dan mengauditnya. Dan serial ini memang ingin membahas yang kedua itu.

Jadi, apa sebenarnya keahlian di bidang ini?

Jika tujuh hal tadi dirangkum dalam satu kalimat, hasilnya seperti ini.

Data science keuangan bukanlah “kompetisi akurasi prediksi”, melainkan pekerjaan mengestimasi counterfactual yang tidak teramati secara dapat dijelaskan dan stabil, dalam lingkungan di mana waktu terus berjalan dan biaya bersifat asimetris.

Metrik evaluasi dan scorecard hanyalah semacam tiket masuk. Perbedaan kemampuan yang sesungguhnya ditentukan oleh selection bias, kausalitas, validasi, dan tata kelola.

Dalam serial ini, saya berencana membedah ketujuh hal tersebut satu per satu secara perlahan. Bagaimana menyelesaikan reject inference, mengapa banyak orang salah dalam kalibrasi, mengapa inferensi kausal adalah inti penilaian, dan bagaimana melakukan validasi agar model bisa bertahan di production. Mari lanjut bersama mulai edisi berikutnya.

Tulisan ini pertama kali diterbitkan di han-co.com, dan diserialkan dalam bahasa Korea serta Jepang. Versi asli dengan diagram gambar tangan dan langganan email ada di sini → https://han-co.com/ko/blog/part0-finance-ds-7-differences