1 poin oleh GN⁺ 2026-01-06 | 1 komentar | Bagikan ke WhatsApp
  • Alasan garis regresi kuadrat terkecil linear tampak lebih miring daripada yang sebenarnya pada data uji sederhana adalah karena karakteristik proses pembangkitan data
  • Model regresi mengikuti bentuk ( Y = \beta_0 + \beta_1 X + \varepsilon ) dengan asumsi suku galat independen terhadap X
  • Saat varians galat makin besar, sebaran data membesar ke arah vertikal, dan arah komponen utama PCA makin mendekati vertikal
  • Sebaliknya, saat varians X jauh lebih besar daripada galat, garis PCA dan regresi OLS hampir berimpit
  • Perbedaan ini terjadi karena PCA dan OLS memiliki tujuan yang berbeda (memaksimalkan varians vs. meminimalkan galat), sehingga secara visual dapat menghasilkan hasil yang berbeda tergantung bentuk distribusi data

Model regresi dan proses pembangkitan data

  • OLS sederhana (metode kuadrat terkecil) berbentuk ( Y = \beta_0 + \beta_1 X + \varepsilon ), dengan asumsi X dan suku galat (\varepsilon) saling independen
  • Saat suku galat bernilai 0, semua titik berada di atas garis regresi, dan arah komponen utama PCA sama dengan garis regresi
  • Jika galat ditambahkan, varians meningkat ke arah vertikal, dan PCA memilih arah dengan kemiringan lebih curam sebagai komponen utama karena mencerminkan varians tersebut

Saat varians galat mendominasi

  • Dari hubungan ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ),
    jika ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ), maka sebagian besar variasi terkonsentrasi pada arah vertikal
  • Dalam kondisi ini, arah komponen utama PCA menjadi hampir vertikal, sehingga tampak lebih curam daripada garis regresi
  • Sebaliknya, jika ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ), maka PCA dan OLS hampir sama

Elips kovarians dan bentuk distribusi

  • Elips kovarians (covariance ellipse) hanya merepresentasikan bentuk data dengan baik ketika ( (X, Y) ) mengikuti distribusi normal bersama
  • Meski distribusi X berubah menjadi binomial, uniform, bimodal, segitiga, dan lain-lain,
    jika varians X besar maka PCA dan garis regresi tetap selaras, sedangkan jika galat besar maka PCA bergeser ke arah vertikal
  • Elips menunjukkan arah data, tetapi tidak secara akurat merepresentasikan kepadatan atau bentuk distribusi aktualnya

Sifat X dan pertimbangan pemodelan

  • Dalam kode, fungsi make_y_from_x membangkitkan Y sebagai fungsi linear dari X dengan noise Gaussian IID, sesuai asumsi OLS
  • X tidak harus merupakan variabel acak, dan dalam desain eksperimen bisa berupa nilai tetap
  • Elips kovarians memperlakukan X dan Y secara simetris, tetapi proses pembangkitan data yang nyata bersifat asimetris

Ringkasan inti

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA dan OLS berimpit
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA bergeser ke arah vertikal
  • X tidak harus berupa variabel acak, dan tidak harus mengikuti distribusi normal
  • PCA berfokus pada arah varians, sedangkan OLS berfokus pada meminimalkan galat prediksi, sehingga hasilnya dapat berbeda

1 komentar

 
GN⁺ 2026-01-06
Komentar Hacker News
  • Regresi linear, yaitu Ordinary Least Squares (OLS), mengasumsikan bahwa noise hanya ada pada Y dan X akurat
    Sebaliknya, pendekatan yang secara visual menganggap ada noise pada X dan Y disebut Total Least Squares (TLS)
  • Dulu profesor QuantSci pernah bertanya, “coba sebutkan skenario pengumpulan data di mana data x sama sekali tidak memiliki error”
    Karena itu beliau mengajarkan bahwa secara umum regresi Deming lebih disukai (Deming regression)
    • Pada sebagian besar data sensor, noise pada sumbu Y jauh lebih besar daripada pada sumbu X
      Misalnya, untuk sensor yang melakukan sampling pada 1kHz, noise sensor itu sendiri jauh lebih besar daripada clock jitter MCU
    • Dalam regresi Deming, delta (δ) adalah rasio varians y terhadap varians x
      Jika varians x sangat kecil, delta menjadi besar sehingga dapat menghasilkan model dengan condition number yang buruk
    • Di bidang saya, jitter pengukuran pada data X berada di bawah 10ns, jadi secara praktis dapat dianggap tanpa error
    • OLS istimewa karena merupakan BLUE (Best Linear Unbiased Estimator), yaitu estimator linear dengan varians minimum
    • Pada sebagian besar deret waktu, noise pengukuran waktu dapat diabaikan, tetapi pada variabel lain seperti koordinat GPS bisa muncul efek keterikatan yang kompleks
  • Regresi linear hanya memodelkan noise pada Y, tetapi elips/eigenvektor PCA mempertimbangkan noise pada X dan Y sekaligus
    • Menarik bahwa pada banyak sistem, noise pada Y lebih besar daripada pada X
      Misalnya, pada analog-to-digital converter, waktu stabil karena osilator kristal, tetapi nilai pengukurannya tidak
    • Dalam analisis data, muncul pertanyaan apakah akan lebih baik menggunakan arah eigenvektor PCA saat mencari garis tren
    • Akan menarik jika jaringan saraf dilatih dengan asumsi bahwa baik input maupun output sama-sama memiliki noise
    • Jika diketahui bahwa Y n kali lebih berisik daripada X, saya penasaran apakah informasi itu bisa dipakai untuk fitting yang lebih baik
  • Sudah lama saya tidak berkutat dengan statistika, jadi saya tidak paham kenapa harus selalu memakai kuadrat (squares)
    Ada pangkat lain seperti pangkat 1, 3, 4, dan seterusnya, jadi muncul pertanyaan kenapa yang selalu muncul justru kuadrat
    • Meminimalkan jumlah kuadrat memberikan estimasi likelihood maksimum (MLE) saat diasumsikan bahwa error berdistribusi normal iid
      Jika distribusi error berbeda, fungsi loss lain bisa lebih sesuai
      Misalnya, Huber loss bekerja secara kuadrat untuk error kecil dan linear untuk error besar, sehingga lebih robust terhadap outlier
      Untuk rumus lebih rinci, lihat Convex Optimization oleh Boyd & Vandenberghe halaman 352–353
      Selain itu, ANOVA berbasis pada teorema Pythagoras, sehingga suku kuadrat bersifat esensial
    • Rata-rata meminimalkan norma L2, jadi jika OLS dilihat dari sudut pandang variabel acak, L2 muncul secara alami sebagai bentuk untuk mengestimasi ekspektasi kondisional E[Y|X]
      Teorema Gauss–Markov menjamin bahwa estimator ini tidak bias dan memiliki varians minimum
    • Pangkat 1 tidak memberikan solusi yang unik. Misalnya pada tiga titik (0,0), (1,0), (1,1), semua nilai a antara 0 sampai 1 menghasilkan jumlah error yang sama
      Pangkat di bawah 1 memiliki sifat aneh, yaitu lebih memilih satu error besar daripada beberapa error kecil
      Sebaliknya, kuadrat mudah ditangani secara matematis, dan sifat numerik regresi linear sederhana juga baik
    • Artikel Least Squares di Wikipedia merangkum berbagai pendekatan
      Suku orde lebih tinggi seperti pangkat 4 ke atas memiliki banyak optimum lokal dan diferensiasinya rumit, sehingga kesederhanaan komputasional menurun
    • Singkatnya, abs tidak dapat didiferensialkan di sekitar 0, pangkat 4 terlalu sensitif terhadap noise, dan pangkat 3 merusak linearitas varians
  • Sebagian besar isi thread ini sebenarnya sudah dirangkum dengan baik dalam diskusi di StackExchange
    Tidak mudah menghadirkan sudut pandang yang benar-benar baru
    • Jawaban di StackExchange sendiri sudah sangat matang
      Ini menarik terutama sebagai pengamatan matematis semata
    • Meski begitu, membawa topik seperti ini ke sini tetap bermakna karena memungkinkan percakapan yang lebih bebas dibandingkan StackExchange
    • Bisa jadi ini jawaban yang terlalu matang untuk forum ini
  • Least Squares dan PCA meminimalkan fungsi loss yang berbeda
    Yang pertama meminimalkan jumlah kuadrat jarak pada arah sumbu Y, sedangkan yang kedua meminimalkan jumlah kuadrat jarak ortogonal terhadap garis
    • Kalau begitu, kenapa garis least squares tampak seolah miring ke bawah? Arah itu terasa seperti sewenang-wenang
    • Akan lebih mudah dipahami jika least squares dilihat sebagai proses fitting ke distribusi Gaussian
  • Jika y diregresikan terhadap x, lalu x diregresikan terhadap y, akan muncul dua garis yang berbeda
    Saya pernah menemukan ini di kelas dan merasa bingung. Saya sempat berpikir apakah normalisasi bisa menyelesaikannya
    • Tetapi cara yang benar untuk menghilangkan bias bukanlah normalisasi, melainkan memakai metode regresi yang independen terhadap koordinat
  • Sebagai tambahan untuk penertiban istilah, model least squares memberikan prediksi dengan rata-rata error 0, yaitu prediksi yang secara statistik tidak bias, terlepas dari apakah x memiliki noise atau tidak
  • Saat melihat hasil regresi, meskipun garisnya secara visual tampak salah, modelnya sebenarnya bisa saja benar
    Untuk memastikan kemiringan yang benar, periksa apakah residual pada x tertentu seimbang ke kedua sisi
    Misalnya, jika data dibuat dengan y = 1.5x + noise, garis regresi dapat memulihkan kemiringan 1.5 dengan baik, meskipun secara visual bisa terlihat janggal
    • Hal ini paling jelas dapat dikonfirmasi dengan membandingkan plot residual
  • Masalah ini sering disebut Regression Dilution (tautan Wikipedia)
    • Namun Regression Dilution merujuk pada kasus ketika garis regresi menjadi bias akibat error pada data X
      Pertanyaan di StackExchange menanyakan mengapa, bahkan tanpa error pada X, garis regresi tidak sejajar dengan sumbu elips 3σ
      Jawaban ini menunjukkan contoh ketika error X = 0