- Alasan garis regresi kuadrat terkecil linear tampak lebih miring daripada yang sebenarnya pada data uji sederhana adalah karena karakteristik proses pembangkitan data
- Model regresi mengikuti bentuk ( Y = \beta_0 + \beta_1 X + \varepsilon ) dengan asumsi suku galat independen terhadap X
- Saat varians galat makin besar, sebaran data membesar ke arah vertikal, dan arah komponen utama PCA makin mendekati vertikal
- Sebaliknya, saat varians X jauh lebih besar daripada galat, garis PCA dan regresi OLS hampir berimpit
- Perbedaan ini terjadi karena PCA dan OLS memiliki tujuan yang berbeda (memaksimalkan varians vs. meminimalkan galat), sehingga secara visual dapat menghasilkan hasil yang berbeda tergantung bentuk distribusi data
Model regresi dan proses pembangkitan data
- OLS sederhana (metode kuadrat terkecil) berbentuk ( Y = \beta_0 + \beta_1 X + \varepsilon ), dengan asumsi X dan suku galat (\varepsilon) saling independen
- Saat suku galat bernilai 0, semua titik berada di atas garis regresi, dan arah komponen utama PCA sama dengan garis regresi
- Jika galat ditambahkan, varians meningkat ke arah vertikal, dan PCA memilih arah dengan kemiringan lebih curam sebagai komponen utama karena mencerminkan varians tersebut
Saat varians galat mendominasi
- Dari hubungan ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
jika ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), maka sebagian besar variasi terkonsentrasi pada arah vertikal
- Dalam kondisi ini, arah komponen utama PCA menjadi hampir vertikal, sehingga tampak lebih curam daripada garis regresi
- Sebaliknya, jika ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), maka PCA dan OLS hampir sama
Elips kovarians dan bentuk distribusi
- Elips kovarians (covariance ellipse) hanya merepresentasikan bentuk data dengan baik ketika ( (X, Y) ) mengikuti distribusi normal bersama
- Meski distribusi X berubah menjadi binomial, uniform, bimodal, segitiga, dan lain-lain,
jika varians X besar maka PCA dan garis regresi tetap selaras, sedangkan jika galat besar maka PCA bergeser ke arah vertikal
- Elips menunjukkan arah data, tetapi tidak secara akurat merepresentasikan kepadatan atau bentuk distribusi aktualnya
Sifat X dan pertimbangan pemodelan
- Dalam kode, fungsi
make_y_from_x membangkitkan Y sebagai fungsi linear dari X dengan noise Gaussian IID, sesuai asumsi OLS
- X tidak harus merupakan variabel acak, dan dalam desain eksperimen bisa berupa nilai tetap
- Elips kovarians memperlakukan X dan Y secara simetris, tetapi proses pembangkitan data yang nyata bersifat asimetris
Ringkasan inti
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA dan OLS berimpit
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA bergeser ke arah vertikal
- X tidak harus berupa variabel acak, dan tidak harus mengikuti distribusi normal
- PCA berfokus pada arah varians, sedangkan OLS berfokus pada meminimalkan galat prediksi, sehingga hasilnya dapat berbeda
1 komentar
Komentar Hacker News
Sebaliknya, pendekatan yang secara visual menganggap ada noise pada X dan Y disebut Total Least Squares (TLS)
Karena itu beliau mengajarkan bahwa secara umum regresi Deming lebih disukai (Deming regression)
Misalnya, untuk sensor yang melakukan sampling pada 1kHz, noise sensor itu sendiri jauh lebih besar daripada clock jitter MCU
Jika varians x sangat kecil, delta menjadi besar sehingga dapat menghasilkan model dengan condition number yang buruk
Misalnya, pada analog-to-digital converter, waktu stabil karena osilator kristal, tetapi nilai pengukurannya tidak
Ada pangkat lain seperti pangkat 1, 3, 4, dan seterusnya, jadi muncul pertanyaan kenapa yang selalu muncul justru kuadrat
Jika distribusi error berbeda, fungsi loss lain bisa lebih sesuai
Misalnya, Huber loss bekerja secara kuadrat untuk error kecil dan linear untuk error besar, sehingga lebih robust terhadap outlier
Untuk rumus lebih rinci, lihat Convex Optimization oleh Boyd & Vandenberghe halaman 352–353
Selain itu, ANOVA berbasis pada teorema Pythagoras, sehingga suku kuadrat bersifat esensial
Teorema Gauss–Markov menjamin bahwa estimator ini tidak bias dan memiliki varians minimum
Pangkat di bawah 1 memiliki sifat aneh, yaitu lebih memilih satu error besar daripada beberapa error kecil
Sebaliknya, kuadrat mudah ditangani secara matematis, dan sifat numerik regresi linear sederhana juga baik
Suku orde lebih tinggi seperti pangkat 4 ke atas memiliki banyak optimum lokal dan diferensiasinya rumit, sehingga kesederhanaan komputasional menurun
Tidak mudah menghadirkan sudut pandang yang benar-benar baru
Ini menarik terutama sebagai pengamatan matematis semata
Yang pertama meminimalkan jumlah kuadrat jarak pada arah sumbu Y, sedangkan yang kedua meminimalkan jumlah kuadrat jarak ortogonal terhadap garis
Saya pernah menemukan ini di kelas dan merasa bingung. Saya sempat berpikir apakah normalisasi bisa menyelesaikannya
Untuk memastikan kemiringan yang benar, periksa apakah residual pada x tertentu seimbang ke kedua sisi
Misalnya, jika data dibuat dengan y = 1.5x + noise, garis regresi dapat memulihkan kemiringan 1.5 dengan baik, meskipun secara visual bisa terlihat janggal
Pertanyaan di StackExchange menanyakan mengapa, bahkan tanpa error pada X, garis regresi tidak sejajar dengan sumbu elips 3σ
Jawaban ini menunjukkan contoh ketika error X = 0