4 poin oleh GN⁺ 2025-10-31 | 1 komentar | Bagikan ke WhatsApp
  • Koklea (cochlea) memproses suara dengan menerima getaran yang timbul dari perubahan tekanan udara melalui struktur fisik yang memisahkan berdasarkan frekuensi
  • Setiap posisi pada membran basilar (basilar membrane) beresonansi pada frekuensi tertentu; frekuensi tinggi merespons di bagian dasar yang kaku, sementara frekuensi rendah merespons di ujung yang lentur
  • Dalam proses ini, sel rambut (hair cell) membuka dan menutup saluran ion sesuai getaran lalu mengubahnya menjadi sinyal listrik, dan serabut saraf menyaring informasi waktu dan frekuensi
  • Namun filter ini, tidak seperti transformasi Fourier, mempertahankan resolusi waktu, dan pada praktiknya bekerja dalam bentuk di antara wavelet dan Gabor
  • Struktur ini merupakan strategi pengodean efisien (efficient coding) yang mengurangi informasi redundan dari suara alami, dan bahasa manusia menempati ruang waktu-frekuensi yang khas

Struktur pemisahan frekuensi pada koklea

  • Membran timpani (tympanic membrane) bergetar sesuai perubahan tekanan udara, dan tulang-tulang telinga tengah memperkuatnya lalu meneruskannya ke cairan di koklea
    • Getaran bergerak sepanjang membran basilar (basilar membrane), dan beresonansi pada frekuensi tertentu sesuai sifat fisik tiap posisi
    • Bagian dasar yang kaku dan ringan merespons frekuensi tinggi, sedangkan ujung yang lentur dan berat merespons frekuensi rendah
  • Frekuensi resonansi membran basilar menurun secara logaritmik (logarithmic) dalam ruang
    • Ini sesuai dengan karakteristik bahwa persepsi pitch manusia juga berubah secara logaritmik

Transduksi mekanik-elektrik pada sel rambut

  • Sel rambut (hair cell) di atas membran basilar bergetar sesuai frekuensi pada posisinya, dan gerakan ini memicu pembukaan dan penutupan saluran ion
    • Struktur pegas di ujung sel rambut bekerja seperti “trapdoor”, melepaskan neurotransmiter sesuai frekuensi getaran
    Iklan
  • Melalui proses ini, getaran mekanis diubah menjadi sinyal listrik lalu diteruskan ke saraf pendengaran

Filter auditori dan resolusi waktu-frekuensi

  • Serabut saraf pendengaran bekerja sebagai filter yang mengekstrak informasi waktu dan frekuensi
    • Filter yang terkonsentrasi pada waktu singkat memiliki resolusi waktu tinggi, tetapi distribusi frekuensinya tidak merata
    • Filter yang berlangsung dalam waktu lama memiliki resolusi frekuensi tinggi, tetapi informasi waktunya menjadi kabur
  • Transformasi Fourier (Fourier transform) tidak memiliki informasi waktu, dan seperti pada gambar di sebelah kanan memiliki distribusi frekuensi yang seragam, tetapi ini berbeda dari filter telinga yang sebenarnya
  • Filter pada koklea adalah bentuk peralihan antara filter wavelet dan Gabor, dengan
    • wilayah frekuensi tinggi yang meningkatkan resolusi waktu dan
    • wilayah frekuensi rendah yang meningkatkan resolusi frekuensi, membentuk struktur saling mengompensasi
Iklan

Pengodean efisien dan analisis suara alami

  • Studi Lewicki (2002) menunjukkan bahwa struktur filter ini adalah strategi untuk mengurangi redundansi suara alami
    • Melalui ICA (Independent Component Analysis) untuk memaksimalkan independensi, suara lingkungan, vokalisasi hewan, dan suara manusia dibandingkan
    • Suara lingkungan dan suara manusia menghasilkan hasil yang dekat dengan filter berbentuk wavelet, sedangkan vokalisasi hewan lebih dekat ke filter berbentuk Fourier
  • Bahasa manusia menempati ruang waktu-frekuensi yang unik, dan
    • beberapa peneliti menyebut kemungkinan bahwa bahasa berevolusi untuk mengisi wilayah yang belum ditempati suara alami yang sudah ada

Pengodean ekologis dan pemrosesan sensorik

  • Sistem sensorik membentuk metode pengodean yang sesuai dengan lingkungan, dan pendengaran juga diajukan sebagai contohnya
    • Representasi yang relevan secara ekologis (ecologically-relevant representation) ini didasarkan pada interaksi antara perilaku dan lingkungan
  • Di bagian akhir tulisan, dijelaskan bahwa pada kuliah berikutnya fokus akan berpindah ke perhitungan biofisik pada tingkat neuron
  • Secara keseluruhan, telinga bekerja sebagai sistem penyaringan yang efisien dan adaptif, bukan transformasi Fourier

1 komentar

 
GN⁺ 2025-10-31
Opini Hacker News
  • Singkatnya, telinga tidak melakukan Transformasi Fourier (Fourier Transform), tetapi melakukan transformasi frekuensi yang terlokalisasi dalam waktu yang berada di suatu titik antara transformasi wavelet dan Gabor
    Ini karena suara terlokalisasi secara temporal
    Juga diperkenalkan teori bahwa bahasa manusia berevolusi untuk menempati area yang sebelumnya kosong dalam ruang durasi frekuensi–selubung
    Ada kemungkinan koklea manusia dioptimalkan untuk suara manusia

    • Tulisan ini terasa terlalu membangun argumen manusia jerami
      Siapa pun yang memahami pemrosesan sinyal tidak akan mengklaim bahwa telinga melakukan transformasi Fourier pada rentang waktu tak terbatas
      Telinga pada dasarnya melakukan pemrosesan yang mirip FFT (Fast Fourier Transform), yaitu menghitung intensitas per frekuensi
      Wavelet atau transformasi Gabor memang berbeda secara matematis, tetapi pada akhirnya menghasilkan 95~99% hasil yang sama
      Jadi, jika dijelaskan secara sederhana, telinga bisa dianggap melakukan transformasi Fourier diskret berjendela
    • Pada frekuensi tinggi, resolusi frekuensi dikorbankan untuk meningkatkan resolusi waktu, dan pada frekuensi rendah berlaku sebaliknya
      Ini dapat dijelaskan dengan prinsip ketidakpastian waktu-frekuensi
      Akan lebih mudah dipahami jika filter bank telinga dipandang sebagai kumpulan filter arbitrer berdasarkan hasil fisiologis
      Ukuran hewan juga berpengaruh — semakin kecil hewan, semakin mampu ia menghasilkan dan mendengar suara di wilayah ultrasonik
    • Jika karakteristik koklea manusia memang sesuai dengan suara manusia, tampaknya ini bisa dimanfaatkan dalam mastering audio dialog film atau TV agar dialog terdengar lebih jelas
    • Rasanya, jika telinga benar-benar melakukan transformasi Fourier, bukankah kita harus menunggu seumur hidup? Fakta bahwa kita mendengar suara secara real-time jelas menunjukkan sebaliknya
    • Jika pemikiran ini diperluas lebih jauh, kata dan fonem tertentu akan menempati area tertentu dalam ruang trade-off frekuensi–waktu
      Misalnya, peringatan “harimau menyerang” dan “suara untuk menenangkan bayi” akan berada di area yang berbeda
  • Judulnya agak clickbait, dan isinya juga secara ketat tidak tepat
    Transformasi Gabor atau wavelet adalah bentuk generalisasi dari transformasi Fourier yang menyediakan analisis spektrum per waktu
    Telinga sebenarnya melakukan sesuatu yang sangat mirip Fourier (Fourier-y)

    • Saya setuju bahwa ini clickbait, tetapi kalau benar-benar ketat, ini tidak salah
      Transformasi Fourier bersifat tak terbatas dan kontinu, sedangkan DFT bersifat terbatas dan diskret
      Pendengaran manusia bisa dianggap lebih dekat ke Deret Fourier (Fourier Series) di antara keduanya
      Wavelet adalah pendekatan lain, yang menggunakan bentuk gelombang termodifikasi alih-alih gelombang sinus
      Pada akhirnya, dalam bahasa sehari-hari, telinga memang melakukan pemrosesan yang “mirip Fourier”
    • Tulisan ini adalah catatan journal club dari seorang mahasiswa pascasarjana yang memperkenalkan makalah Lewicki 2002
      Abstrak makalah itu secara eksplisit menyebutkan bahwa “jika dioptimalkan untuk vokalisasi hewan, hasilnya mirip transformasi Fourier, dan jika dioptimalkan untuk suara lingkungan nonhayati, hasilnya mirip transformasi wavelet”
  • Jika ingin memahami lebih dalam, model CARFAC milik Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) layak dijadikan rujukan
    Ini dinilai sebagai penelitian yang paling akurat dalam memodelkan pendengaran manusia secara digital
    PDF bukunya dapat dilihat di sini

    • Materi yang luar biasa. Terima kasih
  • Gagasan bahwa suara manusia menempati wilayah spektrum yang kurang padat sejalan dengan buku 『The Great Animal Orchestra』
    Tautan buku
    Buku itu membahas bagaimana berbagai spesies berevolusi untuk menempati relung akustik (acoustic niche) mereka masing-masing
    Namun agak menyedihkan bahwa fenomena ini melemah akibat perusakan habitat

    • Burung juga berevolusi untuk memilih waktu saat mereka paling mudah terdengar
      Di kota, mereka berkicau pada waktu yang lebih awal sebelum kebisingan lalu lintas muncul; di hutan, pada waktu yang lebih larut ketika kebisingan serangga berkurang
    • Ketika sifat evolusioner yang dulu memberi daya saing di alam menghilang, sifat yang sesuai dengan lingkungan perkotaan akan menggantikannya
      Evolusi bisa bergerak menuju keragaman temporal alih-alih keragaman spasial
  • Ada kebingungan istilah, tetapi transformasi Fourier mengasumsikan rentang waktu tak terbatas
    Untuk rentang waktu terbatas, Deret Fourier adalah istilah yang lebih tepat
    Cara kerja telinga sebenarnya berada di tengah-tengah deret Fourier dan transformasi Fourier, dalam bentuk penerapan fungsi pembobot waktu
    Tulisan ini menangkap poin itu dengan baik

    • Pada akhirnya, telinga bukan melakukan satu transformasi Fourier, melainkan berbagai transformasi dengan trade-off antara resolusi waktu dan frekuensi
      Ada juga kemungkinan bahwa suara manusia dan struktur pendengaran manusia telah berevolusi bersama (co-evolution)
    • Judulnya memang agak provokatif, tetapi tetap menarik karena membahas implementasi fisiologis rinci dari pendengaran manusia (misalnya mekanisme transduksi silia koklea) dengan baik
  • Telinga tidak melakukan transformasi Fourier atas waktu tak terbatas
    Sebaliknya, ia melakukan transformasi diskret dan berjendela, yang mirip dengan prinsip ketidakpastian antara resolusi waktu dan frekuensi
    Jendela panjang meningkatkan resolusi frekuensi dan menurunkan resolusi waktu, sedangkan jendela pendek melakukan kebalikannya
    Koklea manusia bekerja dengan meningkatkan resolusi frekuensi pada frekuensi rendah untuk membedakan formant, dan meningkatkan resolusi waktu pada frekuensi tinggi untuk mendeteksi bunyi letup (plosive)

    • Sepertinya yang dimaksud bukan ‘prinsip eksklusi Pauli’, melainkan prinsip ketidakpastian Heisenberg
    • Telinga tidak bekerja dengan mengambil sampel data, melainkan sebagai proses mekanis berkelanjutan
    • Akan lebih mudah dipahami jika membayangkan STFT (Short-Time Fourier Transform)
  • Membran basilar adalah struktur biologis yang menakjubkan
    Dalam pemrosesan audio komputer, FFT memang berguna, tetapi ada keterbatasan saat digunakan untuk pemodelan pendengaran manusia berbasis persepsi waktu

  • Video yang menunjukkan tip link dan kanal ion pada sel rambut itu menarik
    Video terkait
    Jika struktur ini rusak, tinnitus dapat terjadi
    Telinga juga memiliki fungsi penguatan aktif (active amplification), sehingga sel dapat dibuat bergetar dengan sinyal listrik

  • Video di atas berakhir dengan nada frekuensi sangat tinggi, jadi jika Anda memakai headphone, perlu berhati-hati

  • Korteks asosiasi auditori di lobus parietal membedakan frekuensi, sehingga ada transformasi waktu-frekuensi antara telinga dan otak
    Karena penembakan neuron bersifat diskret, ini merupakan transformasi diskret yang berlangsung dalam waktu terbatas
    Cara sederhana untuk memperluas sinyal terbatas menjadi sinyal tak terbatas adalah dengan mengasumsikan sinyal itu berulang tanpa batas ke masa lalu dan masa depan