Mengapa pencocokan kuadrat terkecil pada data sederhana tampak seolah memiliki bias

(stats.stackexchange.com)

1 poin oleh GN⁺ 2026-01-06 | 1 komentar | Bagikan ke WhatsApp

Alasan garis regresi kuadrat terkecil linear tampak lebih miring daripada yang sebenarnya pada data uji sederhana adalah karena karakteristik proses pembangkitan data
Model regresi mengikuti bentuk ( Y = \beta_0 + \beta_1 X + \varepsilon ) dengan asumsi suku galat independen terhadap X
Saat varians galat makin besar, sebaran data membesar ke arah vertikal, dan arah komponen utama PCA makin mendekati vertikal
Sebaliknya, saat varians X jauh lebih besar daripada galat, garis PCA dan regresi OLS hampir berimpit
Perbedaan ini terjadi karena PCA dan OLS memiliki tujuan yang berbeda (memaksimalkan varians vs. meminimalkan galat), sehingga secara visual dapat menghasilkan hasil yang berbeda tergantung bentuk distribusi data

Model regresi dan proses pembangkitan data

OLS sederhana (metode kuadrat terkecil) berbentuk ( Y = \beta_0 + \beta_1 X + \varepsilon ), dengan asumsi X dan suku galat (\varepsilon) saling independen
Saat suku galat bernilai 0, semua titik berada di atas garis regresi, dan arah komponen utama PCA sama dengan garis regresi
Jika galat ditambahkan, varians meningkat ke arah vertikal, dan PCA memilih arah dengan kemiringan lebih curam sebagai komponen utama karena mencerminkan varians tersebut

Saat varians galat mendominasi

Dari hubungan ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
jika ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), maka sebagian besar variasi terkonsentrasi pada arah vertikal
Dalam kondisi ini, arah komponen utama PCA menjadi hampir vertikal, sehingga tampak lebih curam daripada garis regresi
Sebaliknya, jika ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), maka PCA dan OLS hampir sama

Elips kovarians dan bentuk distribusi

Elips kovarians (covariance ellipse) hanya merepresentasikan bentuk data dengan baik ketika ( (X, Y) ) mengikuti distribusi normal bersama
Meski distribusi X berubah menjadi binomial, uniform, bimodal, segitiga, dan lain-lain,
jika varians X besar maka PCA dan garis regresi tetap selaras, sedangkan jika galat besar maka PCA bergeser ke arah vertikal
Elips menunjukkan arah data, tetapi tidak secara akurat merepresentasikan kepadatan atau bentuk distribusi aktualnya

Sifat X dan pertimbangan pemodelan

Dalam kode, fungsi make_y_from_x membangkitkan Y sebagai fungsi linear dari X dengan noise Gaussian IID, sesuai asumsi OLS
X tidak harus merupakan variabel acak, dan dalam desain eksperimen bisa berupa nilai tetap
Elips kovarians memperlakukan X dan Y secara simetris, tetapi proses pembangkitan data yang nyata bersifat asimetris

Ringkasan inti

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA dan OLS berimpit
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA bergeser ke arah vertikal
X tidak harus berupa variabel acak, dan tidak harus mengikuti distribusi normal
PCA berfokus pada arah varians, sedangkan OLS berfokus pada meminimalkan galat prediksi, sehingga hasilnya dapat berbeda

1 komentar

GN⁺ 2026-01-06

Komentar Hacker News

Regresi linear, yaitu Ordinary Least Squares (OLS), mengasumsikan bahwa noise hanya ada pada Y dan X akurat
Sebaliknya, pendekatan yang secara visual menganggap ada noise pada X dan Y disebut Total Least Squares (TLS)
- Dengan melihat gambar Total Least Squares di Wikipedia, hal ini bisa dipahami secara intuitif
- Jika x dan y ditukar lalu kemiringannya dihitung ulang, akan lebih terasa apa yang dilakukan TLS
Dulu profesor QuantSci pernah bertanya, “coba sebutkan skenario pengumpulan data di mana data x sama sekali tidak memiliki error”
Karena itu beliau mengajarkan bahwa secara umum regresi Deming lebih disukai (Deming regression)
- Pada sebagian besar data sensor, noise pada sumbu Y jauh lebih besar daripada pada sumbu X
  Misalnya, untuk sensor yang melakukan sampling pada 1kHz, noise sensor itu sendiri jauh lebih besar daripada clock jitter MCU
- Dalam regresi Deming, delta (δ) adalah rasio varians y terhadap varians x
  Jika varians x sangat kecil, delta menjadi besar sehingga dapat menghasilkan model dengan condition number yang buruk
- Di bidang saya, jitter pengukuran pada data X berada di bawah 10ns, jadi secara praktis dapat dianggap tanpa error
- OLS istimewa karena merupakan BLUE (Best Linear Unbiased Estimator), yaitu estimator linear dengan varians minimum
- Pada sebagian besar deret waktu, noise pengukuran waktu dapat diabaikan, tetapi pada variabel lain seperti koordinat GPS bisa muncul efek keterikatan yang kompleks
Regresi linear hanya memodelkan noise pada Y, tetapi elips/eigenvektor PCA mempertimbangkan noise pada X dan Y sekaligus
- Menarik bahwa pada banyak sistem, noise pada Y lebih besar daripada pada X
  Misalnya, pada analog-to-digital converter, waktu stabil karena osilator kristal, tetapi nilai pengukurannya tidak
- Dalam analisis data, muncul pertanyaan apakah akan lebih baik menggunakan arah eigenvektor PCA saat mencari garis tren
- Akan menarik jika jaringan saraf dilatih dengan asumsi bahwa baik input maupun output sama-sama memiliki noise
- Jika diketahui bahwa Y n kali lebih berisik daripada X, saya penasaran apakah informasi itu bisa dipakai untuk fitting yang lebih baik
Sudah lama saya tidak berkutat dengan statistika, jadi saya tidak paham kenapa harus selalu memakai kuadrat (squares)
Ada pangkat lain seperti pangkat 1, 3, 4, dan seterusnya, jadi muncul pertanyaan kenapa yang selalu muncul justru kuadrat
- Meminimalkan jumlah kuadrat memberikan estimasi likelihood maksimum (MLE) saat diasumsikan bahwa error berdistribusi normal iid
  Jika distribusi error berbeda, fungsi loss lain bisa lebih sesuai
  Misalnya, Huber loss bekerja secara kuadrat untuk error kecil dan linear untuk error besar, sehingga lebih robust terhadap outlier
  Untuk rumus lebih rinci, lihat Convex Optimization oleh Boyd & Vandenberghe halaman 352–353
  Selain itu, ANOVA berbasis pada teorema Pythagoras, sehingga suku kuadrat bersifat esensial
- Rata-rata meminimalkan norma L2, jadi jika OLS dilihat dari sudut pandang variabel acak, L2 muncul secara alami sebagai bentuk untuk mengestimasi ekspektasi kondisional E[Y|X]
  Teorema Gauss–Markov menjamin bahwa estimator ini tidak bias dan memiliki varians minimum
- Pangkat 1 tidak memberikan solusi yang unik. Misalnya pada tiga titik (0,0), (1,0), (1,1), semua nilai a antara 0 sampai 1 menghasilkan jumlah error yang sama
  Pangkat di bawah 1 memiliki sifat aneh, yaitu lebih memilih satu error besar daripada beberapa error kecil
  Sebaliknya, kuadrat mudah ditangani secara matematis, dan sifat numerik regresi linear sederhana juga baik
- Artikel Least Squares di Wikipedia merangkum berbagai pendekatan
  Suku orde lebih tinggi seperti pangkat 4 ke atas memiliki banyak optimum lokal dan diferensiasinya rumit, sehingga kesederhanaan komputasional menurun
- Singkatnya, abs tidak dapat didiferensialkan di sekitar 0, pangkat 4 terlalu sensitif terhadap noise, dan pangkat 3 merusak linearitas varians
Sebagian besar isi thread ini sebenarnya sudah dirangkum dengan baik dalam diskusi di StackExchange
Tidak mudah menghadirkan sudut pandang yang benar-benar baru
- Jawaban di StackExchange sendiri sudah sangat matang
  Ini menarik terutama sebagai pengamatan matematis semata
- Meski begitu, membawa topik seperti ini ke sini tetap bermakna karena memungkinkan percakapan yang lebih bebas dibandingkan StackExchange
- Bisa jadi ini jawaban yang terlalu matang untuk forum ini
Least Squares dan PCA meminimalkan fungsi loss yang berbeda
Yang pertama meminimalkan jumlah kuadrat jarak pada arah sumbu Y, sedangkan yang kedua meminimalkan jumlah kuadrat jarak ortogonal terhadap garis
- Kalau begitu, kenapa garis least squares tampak seolah miring ke bawah? Arah itu terasa seperti sewenang-wenang
- Akan lebih mudah dipahami jika least squares dilihat sebagai proses fitting ke distribusi Gaussian
Jika y diregresikan terhadap x, lalu x diregresikan terhadap y, akan muncul dua garis yang berbeda
Saya pernah menemukan ini di kelas dan merasa bingung. Saya sempat berpikir apakah normalisasi bisa menyelesaikannya
- Tetapi cara yang benar untuk menghilangkan bias bukanlah normalisasi, melainkan memakai metode regresi yang independen terhadap koordinat
Sebagai tambahan untuk penertiban istilah, model least squares memberikan prediksi dengan rata-rata error 0, yaitu prediksi yang secara statistik tidak bias, terlepas dari apakah x memiliki noise atau tidak
Saat melihat hasil regresi, meskipun garisnya secara visual tampak salah, modelnya sebenarnya bisa saja benar
Untuk memastikan kemiringan yang benar, periksa apakah residual pada x tertentu seimbang ke kedua sisi
Misalnya, jika data dibuat dengan y = 1.5x + noise, garis regresi dapat memulihkan kemiringan 1.5 dengan baik, meskipun secara visual bisa terlihat janggal
- Hal ini paling jelas dapat dikonfirmasi dengan membandingkan plot residual
Masalah ini sering disebut Regression Dilution (tautan Wikipedia)
- Namun Regression Dilution merujuk pada kasus ketika garis regresi menjadi bias akibat error pada data X
  Pertanyaan di StackExchange menanyakan mengapa, bahkan tanpa error pada X, garis regresi tidak sejajar dengan sumbu elips 3σ
  Jawaban ini menunjukkan contoh ketika error X = 0

Mengapa pencocokan kuadrat terkecil pada data sederhana tampak seolah memiliki bias

Model regresi dan proses pembangkitan data

Saat varians galat mendominasi

Elips kovarians dan bentuk distribusi

Sifat X dan pertimbangan pemodelan

Ringkasan inti

Bacaan terkait

1 komentar

Komentar Hacker News