Telinga tidak melakukan transformasi Fourier (2024)
(dissonances.blog)- Koklea (cochlea) memproses suara dengan menerima getaran yang timbul dari perubahan tekanan udara melalui struktur fisik yang memisahkan berdasarkan frekuensi
- Setiap posisi pada membran basilar (basilar membrane) beresonansi pada frekuensi tertentu; frekuensi tinggi merespons di bagian dasar yang kaku, sementara frekuensi rendah merespons di ujung yang lentur
- Dalam proses ini, sel rambut (hair cell) membuka dan menutup saluran ion sesuai getaran lalu mengubahnya menjadi sinyal listrik, dan serabut saraf menyaring informasi waktu dan frekuensi
- Namun filter ini, tidak seperti transformasi Fourier, mempertahankan resolusi waktu, dan pada praktiknya bekerja dalam bentuk di antara wavelet dan Gabor
- Struktur ini merupakan strategi pengodean efisien (efficient coding) yang mengurangi informasi redundan dari suara alami, dan bahasa manusia menempati ruang waktu-frekuensi yang khas
Struktur pemisahan frekuensi pada koklea
- Membran timpani (tympanic membrane) bergetar sesuai perubahan tekanan udara, dan tulang-tulang telinga tengah memperkuatnya lalu meneruskannya ke cairan di koklea
- Getaran bergerak sepanjang membran basilar (basilar membrane), dan beresonansi pada frekuensi tertentu sesuai sifat fisik tiap posisi
- Bagian dasar yang kaku dan ringan merespons frekuensi tinggi, sedangkan ujung yang lentur dan berat merespons frekuensi rendah
- Frekuensi resonansi membran basilar menurun secara logaritmik (logarithmic) dalam ruang
- Ini sesuai dengan karakteristik bahwa persepsi pitch manusia juga berubah secara logaritmik
Transduksi mekanik-elektrik pada sel rambut
- Sel rambut (hair cell) di atas membran basilar bergetar sesuai frekuensi pada posisinya, dan gerakan ini memicu pembukaan dan penutupan saluran ion
- Struktur pegas di ujung sel rambut bekerja seperti “trapdoor”, melepaskan neurotransmiter sesuai frekuensi getaran
- Melalui proses ini, getaran mekanis diubah menjadi sinyal listrik lalu diteruskan ke saraf pendengaran
Filter auditori dan resolusi waktu-frekuensi
- Serabut saraf pendengaran bekerja sebagai filter yang mengekstrak informasi waktu dan frekuensi
- Filter yang terkonsentrasi pada waktu singkat memiliki resolusi waktu tinggi, tetapi distribusi frekuensinya tidak merata
- Filter yang berlangsung dalam waktu lama memiliki resolusi frekuensi tinggi, tetapi informasi waktunya menjadi kabur
- Transformasi Fourier (Fourier transform) tidak memiliki informasi waktu, dan seperti pada gambar di sebelah kanan memiliki distribusi frekuensi yang seragam, tetapi ini berbeda dari filter telinga yang sebenarnya
- Filter pada koklea adalah bentuk peralihan antara filter wavelet dan Gabor, dengan
- wilayah frekuensi tinggi yang meningkatkan resolusi waktu dan
- wilayah frekuensi rendah yang meningkatkan resolusi frekuensi, membentuk struktur saling mengompensasi
Pengodean efisien dan analisis suara alami
- Studi Lewicki (2002) menunjukkan bahwa struktur filter ini adalah strategi untuk mengurangi redundansi suara alami
- Melalui ICA (Independent Component Analysis) untuk memaksimalkan independensi, suara lingkungan, vokalisasi hewan, dan suara manusia dibandingkan
- Suara lingkungan dan suara manusia menghasilkan hasil yang dekat dengan filter berbentuk wavelet, sedangkan vokalisasi hewan lebih dekat ke filter berbentuk Fourier
- Bahasa manusia menempati ruang waktu-frekuensi yang unik, dan
- beberapa peneliti menyebut kemungkinan bahwa bahasa berevolusi untuk mengisi wilayah yang belum ditempati suara alami yang sudah ada
Pengodean ekologis dan pemrosesan sensorik
- Sistem sensorik membentuk metode pengodean yang sesuai dengan lingkungan, dan pendengaran juga diajukan sebagai contohnya
- Representasi yang relevan secara ekologis (ecologically-relevant representation) ini didasarkan pada interaksi antara perilaku dan lingkungan
- Di bagian akhir tulisan, dijelaskan bahwa pada kuliah berikutnya fokus akan berpindah ke perhitungan biofisik pada tingkat neuron
- Secara keseluruhan, telinga bekerja sebagai sistem penyaringan yang efisien dan adaptif, bukan transformasi Fourier
1 komentar
Opini Hacker News
Singkatnya, telinga tidak melakukan Transformasi Fourier (Fourier Transform), tetapi melakukan transformasi frekuensi yang terlokalisasi dalam waktu yang berada di suatu titik antara transformasi wavelet dan Gabor
Ini karena suara terlokalisasi secara temporal
Juga diperkenalkan teori bahwa bahasa manusia berevolusi untuk menempati area yang sebelumnya kosong dalam ruang durasi frekuensi–selubung
Ada kemungkinan koklea manusia dioptimalkan untuk suara manusia
Siapa pun yang memahami pemrosesan sinyal tidak akan mengklaim bahwa telinga melakukan transformasi Fourier pada rentang waktu tak terbatas
Telinga pada dasarnya melakukan pemrosesan yang mirip FFT (Fast Fourier Transform), yaitu menghitung intensitas per frekuensi
Wavelet atau transformasi Gabor memang berbeda secara matematis, tetapi pada akhirnya menghasilkan 95~99% hasil yang sama
Jadi, jika dijelaskan secara sederhana, telinga bisa dianggap melakukan transformasi Fourier diskret berjendela
Ini dapat dijelaskan dengan prinsip ketidakpastian waktu-frekuensi
Akan lebih mudah dipahami jika filter bank telinga dipandang sebagai kumpulan filter arbitrer berdasarkan hasil fisiologis
Ukuran hewan juga berpengaruh — semakin kecil hewan, semakin mampu ia menghasilkan dan mendengar suara di wilayah ultrasonik
Misalnya, peringatan “harimau menyerang” dan “suara untuk menenangkan bayi” akan berada di area yang berbeda
Judulnya agak clickbait, dan isinya juga secara ketat tidak tepat
Transformasi Gabor atau wavelet adalah bentuk generalisasi dari transformasi Fourier yang menyediakan analisis spektrum per waktu
Telinga sebenarnya melakukan sesuatu yang sangat mirip Fourier (Fourier-y)
Transformasi Fourier bersifat tak terbatas dan kontinu, sedangkan DFT bersifat terbatas dan diskret
Pendengaran manusia bisa dianggap lebih dekat ke Deret Fourier (Fourier Series) di antara keduanya
Wavelet adalah pendekatan lain, yang menggunakan bentuk gelombang termodifikasi alih-alih gelombang sinus
Pada akhirnya, dalam bahasa sehari-hari, telinga memang melakukan pemrosesan yang “mirip Fourier”
Abstrak makalah itu secara eksplisit menyebutkan bahwa “jika dioptimalkan untuk vokalisasi hewan, hasilnya mirip transformasi Fourier, dan jika dioptimalkan untuk suara lingkungan nonhayati, hasilnya mirip transformasi wavelet”
Jika ingin memahami lebih dalam, model CARFAC milik Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) layak dijadikan rujukan
Ini dinilai sebagai penelitian yang paling akurat dalam memodelkan pendengaran manusia secara digital
PDF bukunya dapat dilihat di sini
Gagasan bahwa suara manusia menempati wilayah spektrum yang kurang padat sejalan dengan buku 『The Great Animal Orchestra』
Tautan buku
Buku itu membahas bagaimana berbagai spesies berevolusi untuk menempati relung akustik (acoustic niche) mereka masing-masing
Namun agak menyedihkan bahwa fenomena ini melemah akibat perusakan habitat
Di kota, mereka berkicau pada waktu yang lebih awal sebelum kebisingan lalu lintas muncul; di hutan, pada waktu yang lebih larut ketika kebisingan serangga berkurang
Evolusi bisa bergerak menuju keragaman temporal alih-alih keragaman spasial
Ada kebingungan istilah, tetapi transformasi Fourier mengasumsikan rentang waktu tak terbatas
Untuk rentang waktu terbatas, Deret Fourier adalah istilah yang lebih tepat
Cara kerja telinga sebenarnya berada di tengah-tengah deret Fourier dan transformasi Fourier, dalam bentuk penerapan fungsi pembobot waktu
Tulisan ini menangkap poin itu dengan baik
Ada juga kemungkinan bahwa suara manusia dan struktur pendengaran manusia telah berevolusi bersama (co-evolution)
Telinga tidak melakukan transformasi Fourier atas waktu tak terbatas
Sebaliknya, ia melakukan transformasi diskret dan berjendela, yang mirip dengan prinsip ketidakpastian antara resolusi waktu dan frekuensi
Jendela panjang meningkatkan resolusi frekuensi dan menurunkan resolusi waktu, sedangkan jendela pendek melakukan kebalikannya
Koklea manusia bekerja dengan meningkatkan resolusi frekuensi pada frekuensi rendah untuk membedakan formant, dan meningkatkan resolusi waktu pada frekuensi tinggi untuk mendeteksi bunyi letup (plosive)
Membran basilar adalah struktur biologis yang menakjubkan
Dalam pemrosesan audio komputer, FFT memang berguna, tetapi ada keterbatasan saat digunakan untuk pemodelan pendengaran manusia berbasis persepsi waktu
Video yang menunjukkan tip link dan kanal ion pada sel rambut itu menarik
Video terkait
Jika struktur ini rusak, tinnitus dapat terjadi
Telinga juga memiliki fungsi penguatan aktif (active amplification), sehingga sel dapat dibuat bergetar dengan sinyal listrik
Video di atas berakhir dengan nada frekuensi sangat tinggi, jadi jika Anda memakai headphone, perlu berhati-hati
Korteks asosiasi auditori di lobus parietal membedakan frekuensi, sehingga ada transformasi waktu-frekuensi antara telinga dan otak
Karena penembakan neuron bersifat diskret, ini merupakan transformasi diskret yang berlangsung dalam waktu terbatas
Cara sederhana untuk memperluas sinyal terbatas menjadi sinyal tak terbatas adalah dengan mengasumsikan sinyal itu berulang tanpa batas ke masa lalu dan masa depan