Telinga tidak melakukan transformasi Fourier (2024)

(dissonances.blog)

4 poin oleh GN⁺ 2025-10-31 | 1 komentar | Bagikan ke WhatsApp

Koklea (cochlea) memproses suara dengan menerima getaran yang timbul dari perubahan tekanan udara melalui struktur fisik yang memisahkan berdasarkan frekuensi
Setiap posisi pada membran basilar (basilar membrane) beresonansi pada frekuensi tertentu; frekuensi tinggi merespons di bagian dasar yang kaku, sementara frekuensi rendah merespons di ujung yang lentur
Dalam proses ini, sel rambut (hair cell) membuka dan menutup saluran ion sesuai getaran lalu mengubahnya menjadi sinyal listrik, dan serabut saraf menyaring informasi waktu dan frekuensi
Namun filter ini, tidak seperti transformasi Fourier, mempertahankan resolusi waktu, dan pada praktiknya bekerja dalam bentuk di antara wavelet dan Gabor
Struktur ini merupakan strategi pengodean efisien (efficient coding) yang mengurangi informasi redundan dari suara alami, dan bahasa manusia menempati ruang waktu-frekuensi yang khas

Struktur pemisahan frekuensi pada koklea

Membran timpani (tympanic membrane) bergetar sesuai perubahan tekanan udara, dan tulang-tulang telinga tengah memperkuatnya lalu meneruskannya ke cairan di koklea
- Getaran bergerak sepanjang membran basilar (basilar membrane), dan beresonansi pada frekuensi tertentu sesuai sifat fisik tiap posisi
- Bagian dasar yang kaku dan ringan merespons frekuensi tinggi, sedangkan ujung yang lentur dan berat merespons frekuensi rendah
Frekuensi resonansi membran basilar menurun secara logaritmik (logarithmic) dalam ruang
- Ini sesuai dengan karakteristik bahwa persepsi pitch manusia juga berubah secara logaritmik

Transduksi mekanik-elektrik pada sel rambut

Sel rambut (hair cell) di atas membran basilar bergetar sesuai frekuensi pada posisinya, dan gerakan ini memicu pembukaan dan penutupan saluran ion
- Struktur pegas di ujung sel rambut bekerja seperti “trapdoor”, melepaskan neurotransmiter sesuai frekuensi getaran
Iklan
Melalui proses ini, getaran mekanis diubah menjadi sinyal listrik lalu diteruskan ke saraf pendengaran

Filter auditori dan resolusi waktu-frekuensi

Serabut saraf pendengaran bekerja sebagai filter yang mengekstrak informasi waktu dan frekuensi
- Filter yang terkonsentrasi pada waktu singkat memiliki resolusi waktu tinggi, tetapi distribusi frekuensinya tidak merata
- Filter yang berlangsung dalam waktu lama memiliki resolusi frekuensi tinggi, tetapi informasi waktunya menjadi kabur
Transformasi Fourier (Fourier transform) tidak memiliki informasi waktu, dan seperti pada gambar di sebelah kanan memiliki distribusi frekuensi yang seragam, tetapi ini berbeda dari filter telinga yang sebenarnya
Filter pada koklea adalah bentuk peralihan antara filter wavelet dan Gabor, dengan
- wilayah frekuensi tinggi yang meningkatkan resolusi waktu dan
- wilayah frekuensi rendah yang meningkatkan resolusi frekuensi, membentuk struktur saling mengompensasi

Pengodean efisien dan analisis suara alami

Studi Lewicki (2002) menunjukkan bahwa struktur filter ini adalah strategi untuk mengurangi redundansi suara alami
- Melalui ICA (Independent Component Analysis) untuk memaksimalkan independensi, suara lingkungan, vokalisasi hewan, dan suara manusia dibandingkan
- Suara lingkungan dan suara manusia menghasilkan hasil yang dekat dengan filter berbentuk wavelet, sedangkan vokalisasi hewan lebih dekat ke filter berbentuk Fourier
Bahasa manusia menempati ruang waktu-frekuensi yang unik, dan
- beberapa peneliti menyebut kemungkinan bahwa bahasa berevolusi untuk mengisi wilayah yang belum ditempati suara alami yang sudah ada

Pengodean ekologis dan pemrosesan sensorik

Sistem sensorik membentuk metode pengodean yang sesuai dengan lingkungan, dan pendengaran juga diajukan sebagai contohnya
- Representasi yang relevan secara ekologis (ecologically-relevant representation) ini didasarkan pada interaksi antara perilaku dan lingkungan
Di bagian akhir tulisan, dijelaskan bahwa pada kuliah berikutnya fokus akan berpindah ke perhitungan biofisik pada tingkat neuron
Secara keseluruhan, telinga bekerja sebagai sistem penyaringan yang efisien dan adaptif, bukan transformasi Fourier

1 komentar

GN⁺ 2025-10-31

Opini Hacker News

Singkatnya, telinga tidak melakukan Transformasi Fourier (Fourier Transform), tetapi melakukan transformasi frekuensi yang terlokalisasi dalam waktu yang berada di suatu titik antara transformasi wavelet dan Gabor
Ini karena suara terlokalisasi secara temporal
Juga diperkenalkan teori bahwa bahasa manusia berevolusi untuk menempati area yang sebelumnya kosong dalam ruang durasi frekuensi–selubung
Ada kemungkinan koklea manusia dioptimalkan untuk suara manusia
- Tulisan ini terasa terlalu membangun argumen manusia jerami
  Siapa pun yang memahami pemrosesan sinyal tidak akan mengklaim bahwa telinga melakukan transformasi Fourier pada rentang waktu tak terbatas
  Telinga pada dasarnya melakukan pemrosesan yang mirip FFT (Fast Fourier Transform), yaitu menghitung intensitas per frekuensi
  Wavelet atau transformasi Gabor memang berbeda secara matematis, tetapi pada akhirnya menghasilkan 95~99% hasil yang sama
  Jadi, jika dijelaskan secara sederhana, telinga bisa dianggap melakukan transformasi Fourier diskret berjendela
- Pada frekuensi tinggi, resolusi frekuensi dikorbankan untuk meningkatkan resolusi waktu, dan pada frekuensi rendah berlaku sebaliknya
  Ini dapat dijelaskan dengan prinsip ketidakpastian waktu-frekuensi
  Akan lebih mudah dipahami jika filter bank telinga dipandang sebagai kumpulan filter arbitrer berdasarkan hasil fisiologis
  Ukuran hewan juga berpengaruh — semakin kecil hewan, semakin mampu ia menghasilkan dan mendengar suara di wilayah ultrasonik
- Jika karakteristik koklea manusia memang sesuai dengan suara manusia, tampaknya ini bisa dimanfaatkan dalam mastering audio dialog film atau TV agar dialog terdengar lebih jelas
- Rasanya, jika telinga benar-benar melakukan transformasi Fourier, bukankah kita harus menunggu seumur hidup? Fakta bahwa kita mendengar suara secara real-time jelas menunjukkan sebaliknya
- Jika pemikiran ini diperluas lebih jauh, kata dan fonem tertentu akan menempati area tertentu dalam ruang trade-off frekuensi–waktu
  Misalnya, peringatan “harimau menyerang” dan “suara untuk menenangkan bayi” akan berada di area yang berbeda
Judulnya agak clickbait, dan isinya juga secara ketat tidak tepat
Transformasi Gabor atau wavelet adalah bentuk generalisasi dari transformasi Fourier yang menyediakan analisis spektrum per waktu
Telinga sebenarnya melakukan sesuatu yang sangat mirip Fourier (Fourier-y)
- Saya setuju bahwa ini clickbait, tetapi kalau benar-benar ketat, ini tidak salah
  Transformasi Fourier bersifat tak terbatas dan kontinu, sedangkan DFT bersifat terbatas dan diskret
  Pendengaran manusia bisa dianggap lebih dekat ke Deret Fourier (Fourier Series) di antara keduanya
  Wavelet adalah pendekatan lain, yang menggunakan bentuk gelombang termodifikasi alih-alih gelombang sinus
  Pada akhirnya, dalam bahasa sehari-hari, telinga memang melakukan pemrosesan yang “mirip Fourier”
- Tulisan ini adalah catatan journal club dari seorang mahasiswa pascasarjana yang memperkenalkan makalah Lewicki 2002
  Abstrak makalah itu secara eksplisit menyebutkan bahwa “jika dioptimalkan untuk vokalisasi hewan, hasilnya mirip transformasi Fourier, dan jika dioptimalkan untuk suara lingkungan nonhayati, hasilnya mirip transformasi wavelet”
Jika ingin memahami lebih dalam, model CARFAC milik Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) layak dijadikan rujukan
Ini dinilai sebagai penelitian yang paling akurat dalam memodelkan pendengaran manusia secara digital
PDF bukunya dapat dilihat di sini
- Materi yang luar biasa. Terima kasih
Gagasan bahwa suara manusia menempati wilayah spektrum yang kurang padat sejalan dengan buku 『The Great Animal Orchestra』
Tautan buku
Buku itu membahas bagaimana berbagai spesies berevolusi untuk menempati relung akustik (acoustic niche) mereka masing-masing
Namun agak menyedihkan bahwa fenomena ini melemah akibat perusakan habitat
- Burung juga berevolusi untuk memilih waktu saat mereka paling mudah terdengar
  Di kota, mereka berkicau pada waktu yang lebih awal sebelum kebisingan lalu lintas muncul; di hutan, pada waktu yang lebih larut ketika kebisingan serangga berkurang
- Ketika sifat evolusioner yang dulu memberi daya saing di alam menghilang, sifat yang sesuai dengan lingkungan perkotaan akan menggantikannya
  Evolusi bisa bergerak menuju keragaman temporal alih-alih keragaman spasial
Ada kebingungan istilah, tetapi transformasi Fourier mengasumsikan rentang waktu tak terbatas
Untuk rentang waktu terbatas, Deret Fourier adalah istilah yang lebih tepat
Cara kerja telinga sebenarnya berada di tengah-tengah deret Fourier dan transformasi Fourier, dalam bentuk penerapan fungsi pembobot waktu
Tulisan ini menangkap poin itu dengan baik
- Pada akhirnya, telinga bukan melakukan satu transformasi Fourier, melainkan berbagai transformasi dengan trade-off antara resolusi waktu dan frekuensi
  Ada juga kemungkinan bahwa suara manusia dan struktur pendengaran manusia telah berevolusi bersama (co-evolution)
- Judulnya memang agak provokatif, tetapi tetap menarik karena membahas implementasi fisiologis rinci dari pendengaran manusia (misalnya mekanisme transduksi silia koklea) dengan baik
Telinga tidak melakukan transformasi Fourier atas waktu tak terbatas
Sebaliknya, ia melakukan transformasi diskret dan berjendela, yang mirip dengan prinsip ketidakpastian antara resolusi waktu dan frekuensi
Jendela panjang meningkatkan resolusi frekuensi dan menurunkan resolusi waktu, sedangkan jendela pendek melakukan kebalikannya
Koklea manusia bekerja dengan meningkatkan resolusi frekuensi pada frekuensi rendah untuk membedakan formant, dan meningkatkan resolusi waktu pada frekuensi tinggi untuk mendeteksi bunyi letup (plosive)
- Sepertinya yang dimaksud bukan ‘prinsip eksklusi Pauli’, melainkan prinsip ketidakpastian Heisenberg
- Telinga tidak bekerja dengan mengambil sampel data, melainkan sebagai proses mekanis berkelanjutan
- Akan lebih mudah dipahami jika membayangkan STFT (Short-Time Fourier Transform)
Membran basilar adalah struktur biologis yang menakjubkan
Dalam pemrosesan audio komputer, FFT memang berguna, tetapi ada keterbatasan saat digunakan untuk pemodelan pendengaran manusia berbasis persepsi waktu
Video yang menunjukkan tip link dan kanal ion pada sel rambut itu menarik
Video terkait
Jika struktur ini rusak, tinnitus dapat terjadi
Telinga juga memiliki fungsi penguatan aktif (active amplification), sehingga sel dapat dibuat bergetar dengan sinyal listrik
Video di atas berakhir dengan nada frekuensi sangat tinggi, jadi jika Anda memakai headphone, perlu berhati-hati
Korteks asosiasi auditori di lobus parietal membedakan frekuensi, sehingga ada transformasi waktu-frekuensi antara telinga dan otak
Karena penembakan neuron bersifat diskret, ini merupakan transformasi diskret yang berlangsung dalam waktu terbatas
Cara sederhana untuk memperluas sinyal terbatas menjadi sinyal tak terbatas adalah dengan mengasumsikan sinyal itu berulang tanpa batas ke masa lalu dan masa depan

Telinga tidak melakukan transformasi Fourier (2024)

Struktur pemisahan frekuensi pada koklea

Transduksi mekanik-elektrik pada sel rambut

Filter auditori dan resolusi waktu-frekuensi

Pengodean efisien dan analisis suara alami

Pengodean ekologis dan pemrosesan sensorik

Bacaan terkait

1 komentar

Opini Hacker News