Deep Learning adalah Topologi Terapan

(theahura.substack.com)

7 poin oleh GN⁺ 2025-05-21 | 1 komentar | Bagikan ke WhatsApp

Deep learning dapat dilihat sebagai proses menempatkan data di atas manifold dalam ruang berdimensi tinggi, lalu menemukan struktur yang dapat dipisahkan dengan membengkokkan atau meregangkan permukaan itu melalui transformasi pada lapisan neural network
Lapisan seperti tanh(Wx+b) adalah transformasi kontinu yang menggabungkan transformasi matriks, pergeseran vektor, dan fungsi nonlinear; dengan menumpuk beberapa lapisan, dataset yang kompleks pun dapat berubah menjadi bentuk lain
Data berbentuk lingkaran yang tidak bisa dipisahkan oleh satu garis di dimensi rendah juga dapat dipisahkan jika dinaikkan ke dimensi yang lebih tinggi, dan neural network dapat mempelajari ruang representasi seperti ini
Vektor embedding merepresentasikan teks, gambar, dan konsep sebagai titik dalam ruang numerik; pada permukaan yang terbentuk dengan baik, operasi konsep seperti king - man + woman = queen menjadi mungkin
Pelatihan model penalaran saat ini dapat ditafsirkan sebagai proses bergerak di manifold penalaran dengan memilih reasoning trace yang baik, dan reinforcement learning ala DeepSeek R1 diperlakukan sebagai cara untuk mengurangi biaya pemilihan langsung oleh manusia

Melihat Neural Network melalui Topologi

Topologi adalah cabang matematika yang membahas sifat-sifat yang tetap terjaga meski suatu permukaan dibengkokkan, dipelintir, atau diregangkan, selama tidak disobek atau dilubangi
Lingkaran yang digambar di permukaan tanah liat tidak tiba-tiba menjadi garis, menjadi dua lingkaran, atau berpotongan dengan dirinya sendiri hanya karena diputar atau dibengkokkan
Masalah klasifikasi data juga dapat dilihat dengan cara serupa
- Meski data pada bidang 2D tidak dapat dipisahkan dengan rapi oleh satu garis, struktur yang dapat dipisahkan bisa muncul jika permukaannya ditransformasikan dengan tepat
- Ini adalah sudut pandang bahwa manipulasi ruang semacam ini berada di inti deep learning

Lapisan Neural Network adalah Transformasi Kontinu yang Mengubah Permukaan

Penjelasan yang melihat neural network sebagai tumpukan aljabar linear pada umumnya benar, dan matriks dapat ditafsirkan sebagai operasi yang mentransformasikan permukaan geometris
Tulisan Chris Olah tahun 2014 juga membahas manifold deep learning dengan cara ini
Lapisan tanh(Wx+b) terdiri dari tiga tahap
- Transformasi linear oleh W
- Pergeseran oleh vektor b
- Distorsi nonlinear yang muncul dari penerapan tanh secara pointwise
Jika transformasi seperti ini ditumpuk menjadi beberapa lapisan, dataset yang kompleks pun dapat berubah menjadi bentuk yang dapat dipisahkan
Namun ada juga kasus yang secara topologis sulit dipisahkan dengan satu garis, seperti titik-titik di dalam lingkaran dan titik-titik yang mengelilinginya di luar
- Dalam kasus ini, data dapat dipisahkan dengan rapi jika dinaikkan dari 2D ke 3D
- Pemisahan yang mustahil di dimensi rendah bisa menjadi mudah di dimensi tinggi

Embedding dan Manifold Semantik

Neural network besar dapat dilihat seperti generator topologi (topology generator)
- Ia menerima data input dan mencari permukaan yang memenuhi sifat yang diminta oleh loss function
- Dalam tugas klasifikasi, model belajar agar anjing dan kucing berada di wilayah ruang yang berbeda
- Dalam tugas terjemahan, model belajar agar item seperti bread dan pan, atau foto kucing dan cat, berada di posisi yang berdekatan
- Dalam prediksi token berikutnya, model mempelajari permukaan tempat token dikelompokkan berdasarkan cara penggunaannya
Data berada di atas manifold berdimensi tinggi dan saling terkait secara semantik, dan membuat manifold beririsan dengan merepresentasikan dataset secara semantik
Contoh warna menunjukkan bahwa struktur semacam ini bisa melekat pada data itu sendiri
- [128, 0, 0] merepresentasikan merah, sedangkan [0, 0, 128] merepresentasikan biru
- Jika kedua vektor dijumlahkan, warna ungu dapat dibuat
- Dimensionalitas warna, kemiripan antarwarna, dan cara mencampur warna dapat dilihat sebagai struktur yang melekat pada data
Gambar juga dapat diperlakukan sebagai titik di atas manifold
- Gambar direpresentasikan sebagai nilai piksel RGB berukuran Height x Width x 3
- Jika direntangkan menjadi satu vektor, semua gambar dengan ukuran tertentu dapat dilihat sebagai titik dalam ruang berdimensi tinggi
- Wilayah gambar Brad Pitt sedang makan sandwich dan gambar Mona Lisa dapat menjadi titik yang berbeda di dalam ruang gambar yang sama
Sebagian besar ruang gambar adalah noise, dan mengelompokkannya hanya berdasarkan kemiripan piksel tidaklah berguna
- Model deep learning dapat membengkokkan dan meregangkan permukaan gambar agar gambar yang diminati berada dekat, sementara noise ditempatkan jauh
Di dalam model, informasi seperti teks dan gambar direpresentasikan sebagai daftar angka yang disebut vektor embedding
- Setiap embedding sekaligus terhubung ke suatu konsep dan merupakan titik dalam ruang
- Pada permukaan yang terbentuk dengan baik, operasi konsep matematis seperti king - man + woman = queen dapat dilakukan

Melihat Pelatihan Penalaran sebagai Pergerakan di Manifold

Dari sudut pandang bahwa segala sesuatu berada di atas manifold, penalaran juga dapat dianggap sebagai sebuah manifold
- Kita dapat membayangkan penalaran yang baik berkelompok di satu sisi ruang, dan penalaran yang buruk berkelompok di sisi lain
- Meski baik dan buruk tidak dapat didefinisikan sebagai istilah matematika yang ketat, neural network dapat dilatih selama keduanya bisa dibedakan
Perusahaan AI besar seperti Google, Anthropic, OAI, dan DeepSeek juga dapat ditafsirkan bergerak ke arah ini
Di industri AI, tampaknya ada konsensus bahwa secara umum hampir semua yang bisa diperoleh dari statistik bahasa murni sudah diekstraksi
- Sebagian besar LLM dilatih dengan triliunan token
- Menaikkannya menjadi kuadriliunan token mungkin tidak memberi manfaat tambahan yang besar
- Prediksi token berikutnya mirip dengan penalaran, tetapi alih-alih mencapai penalaran itu sendiri, ia membuat model menjadi bagus dalam memprediksi token berikutnya
Instruction tuning dan RLHF dapat ditafsirkan sebagai cara berpindah dari wilayah prediksi token berikutnya ke wilayah penalaran tanya-jawab
Chain of Thought adalah cara untuk bergerak lebih eksplisit ke wilayah penalaran pada manifold penalaran
- Proses berpikir yang terlihat sebagai Thinking… pada model seperti o3 atau Gemini 2.5 disebut reasoning trace
- Jika banyak kueri dijalankan, reasoning trace yang baik dan yang buruk dapat dibedakan
- Misalnya, jika dari 1 juta kueri diperoleh 10 ribu trace yang sangat baik, data itu dapat digunakan untuk melatih model baru yang hanya menghasilkan trace yang lebih baik
Jika proses ini diulang, model berikutnya dapat di-bootstrap dari model sebelumnya
- Selama ada cara untuk menilai mana dari dua reasoning trace yang lebih baik, kita dapat terus bergerak di atas manifold penalaran
- Ini juga dapat dilihat sebagai cara distill-train model saat ini dengan memperlakukan 10 ribu sampel yang baik seolah-olah berasal dari model hipotetis yang lebih maju
Ada pernyataan bahwa pendekatan ini sudah cukup untuk mencapai AGI, tetapi catatan kaki menyebut bahwa klaim sudah adanya AGI masih kontroversial
Pendekatan ini dianggap tidak cukup untuk ASI
- Kemampuan memilih penalaran terbaik menjadi batasnya
- Mengumpulkan reasoning trace yang baik membutuhkan banyak uang dan waktu
- Bahkan jika banyak orang pintar memilihnya sepanjang hari, hasilnya bisa subjektif dan penuh noise

DeepSeek R1, Reinforcement Learning, dan Model yang Menghasilkan Model

DeepSeek R1 dan metode reinforcement learning lainnya muncul ke arah yang tidak mengandalkan manusia untuk memilih penalaran yang baik secara langsung
Pendekatan DeepSeek berfokus pada pembuatan heuristik kuantitatif untuk penalaran yang baik
- Unit test atau soal matematika yang harus dilalui AI dapat dibuat
- Jika kode lolos tes atau soal matematika dijawab benar, reasoning trace yang menghasilkan output tersebut dapat dianggap lebih baik daripada trace yang menghasilkan output salah
- Analisis subjektif terhadap reasoning trace itu sendiri tidak diperlukan
RL saja dianggap berhasil melatih model yang cukup baik pada sekumpulan reasoning task
Namun pendekatan RL saja tidak akan mencapai ASI
- Model RL pada akhirnya juga akan menabrak batas asimtotik
- Setelah itu, reasoning trace yang dihasilkan model RL dikurasi untuk fine-tuning model kedua yang sepenuhnya berbeda
- Akibatnya, DeepSeek lebih mirip metode untuk menghasilkan banyak reasoning trace berkualitas tinggi dengan biaya lebih murah daripada membuatnya langsung oleh manusia, dibandingkan RL itu sendiri
Sudut pandangnya adalah bahwa membuat sistem yang membedakan penalaran buruk dan penalaran baik lebih mudah daripada membuat sistem yang sejak awal bernalar dengan baik
Neural network itu sendiri juga dapat direpresentasikan sebagai manifold
- Neural network adalah daftar angka bobot yang disusun dengan cara tertentu
- Jika semua parameter direntangkan menjadi vektor, ia dapat dipetakan sebagai titik di atas permukaan
- Wilayah tertentu dapat berkorespondensi dengan semantic segmentation, wilayah lain dengan text translation, dan wilayah lain lagi dengan autoencoding
- Karena bobot output akhir mudah direpresentasikan sebagai tensor, backprop dapat diterapkan langsung pada output
Metode diffusion dalam pembuatan gambar diusulkan juga dapat diterapkan pada pembuatan model
- Diffusion menambahkan noise ke gambar secara bertahap, lalu melatih model untuk membalik proses penambahan noise itu
- Noise dapat ditambahkan ke berbagai checkpoint pretrained transformer layer dari Hugging Face untuk membuat set pelatihan diffusion
- Jika deskripsi model pretrained dimasukkan sebagai kondisi teks, kita dapat membayangkan model yang menghasilkan model pretrained lain dengan diffusion dari deskripsi teks
- Kemungkinan yang diajukan adalah memasukkan prompt seperti "Spanish to English", lalu model mengeluarkan model yang sudah sepenuhnya terlatih tanpa pelatihan terpisah
Saat ini sebagian besar model dimulai dari inisialisasi acak, tetapi model diffusion yang menghasilkan model lain bisa lebih baik daripada inisialisasi acak dan dapat sangat mengurangi waktu pelatihan
Deep learning tetap menjadi bidang yang informal karena kurangnya teori kerja yang baik tentang apa yang dilakukan model dan mengapa ia bekerja; memahami ruang embedding secara topologis menghubungkan berbagai konsep

1 komentar

GN⁺ 2025-05-21

Pendapat Hacker News

Karena tulisan ini didasarkan pada posting blog saya tahun 2014 (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/), saya ingin meninggalkan satu komentar
Saya benar-benar berusaha keras memakai topologi sebagai cara memahami jaringan saraf, dan juga menulis tulisan lanjutannya: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Ada titik-titik ketika sudut pandang topologis berguna, tetapi setelah lebih dari 10 tahun bergelut untuk melihat apa yang terjadi di dalam jaringan saraf, saya tidak memperoleh banyak hasil besar
Yang jauh lebih membuahkan hasil adalah hipotesis representasi linear, yaitu bahwa “konsep/fitur berkorespondensi dengan arah dalam jaringan saraf”, serta konsep circuit, yakni jaringan dari konsep-konsep yang saling terhubung semacam itu
Tulisan terkait mencakup https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- Ada kesalahpahaman yang sering terlihat terkait cara memahami jaringan saraf: gagasan bahwa LLM pada dasarnya hanyalah model n-gram yang sedikit lebih baik, dan bahwa model seharusnya bodoh hanya karena ia hanya memprediksi token berikutnya
  Saya bertanya-tanya apakah respons terkenal[1] terhadap tulisan RNN Karpathy[2] ikut bertanggung jawab membuat jaringan saraf bahasa disamakan dengan model n-gram
  Makalah Stochastic Parrots[3] juga sampai batas tertentu menyamakan LLM dan model n-gram, dengan cara mengatakan bahwa “meski terutama memikirkan model n-gram, kesimpulannya tetap tepat dan relevan”
  Sepertinya sebelum jaringan saraf benar-benar menjadi bagus, pernah ada masa ketika keduanya lebih mirip
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Saya sudah mengikuti aliran circuits selama beberapa tahun, dan hipotesis representasi linear terlihat sangat meyakinkan
  Draf ulasan Toy Models of Superposition juga masih saya simpan di catatan
  Namun, circuits terasa kurang meyakinkan karena analisisnya tampak terlalu terikat khusus pada arsitektur Transformer
  Saya merasa hipotesis representasi linear mungkin bergantung pada arsitektur. GAN, VAE, CLIP, dan lainnya tampak memodelkan manifold secara eksplisit
  Model sederhana pun, karena tekanan optimisasi, kemungkinan akan melipat fitur-fitur yang cukup mirip ke dalam arah linear yang sama
  Memang sulit menyelaraskan bukti empiris bahwa model sederhana menempatkan fitur yang mirip pada arah ortogonal dengan hipotesis manifold, tetapi pada akhirnya itu tampak lebih terkait dengan fungsi loss yang dioptimalkan
  Dalam Toy Models of Superposition, mereka memakai MSE sehingga model pada dasarnya belajar tugas regresi/kompresi autoencoder, dan karena itu wajar jika pola interferensi di antara fitur-fitur yang muncul bersama menjadi penting
  Sebaliknya, pada tujuan lain seperti contrastive loss, saya rasa perilaku minimisasi interferensi yang sama tidak akan muncul
- Setelah pertama kali mempelajari topologi pada 2011, saya beberapa kali mencoba “menerapkan” topologi pada masalah dunia nyata, dan pengalaman saya juga serupa
  Sekarang saya bahkan ragu-ragu terhadap ungkapan umum bahwa “data nyata itu mulus dan dekat dengan manifold berdimensi rendah”
  Saya ingin menyelidiki dengan benar sejauh mana pernyataan ini cocok dengan data nyata, dan seberapa besar ia terdistorsi oleh metode reduksi dimensi yang dipakai untuk menangani dataset alami secara efisien, tetapi saya kekurangan waktu
- Dalam fisika, menarik bahwa simetri global atau manifold topologis yang berbeda dapat memenuhi struktur metrik yang sama, yaitu geometri lokal yang sama
  Misalnya, solusi tensor metrik yang sama dari persamaan medan Einstein dapat ada di atas manifold yang berbeda secara topologis
  Sebaliknya, jika melihat solusi Ising Model, topologi kisi yang sama dapat memiliki banyak solusi berbeda, dan jika sistem berada di dekat titik kritis, topologi kisi itu sendiri kadang tidak penting
  Ini hanya analogi, tetapi menunjukkan bahwa detail menarik dari dinamika tidak tertanam dalam topologi sistem. Masalahnya lebih kompleks
- Ada beberapa diskusi kecil HN tentang tulisan lama itu
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - Februari 2019, 25 komentar
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - Juli 2015, 7 komentar
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - April 2014, 29 komentar
Kalau ini benar-benar topologi, kita tidak perlu membengkokkan manifold hanya untuk melakukan pencarian kemiripan. Ini lebih dekat ke geometri yang memiliki metrik
Seperti di dunia nyata, kita harus bisa membandingkan benda-benda
Karena transformasi topologis pada manifold juga terjadi selama pelatihan, saya penasaran bagaimana topologi berevolusi selama pelatihan
Sepertinya awalnya berubah dengan hebat lalu stabil, kemudian dilanjutkan dengan penyetelan detail geometris
Makalah terkait antara lain Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042), dan Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9)
- Kalau pernah mengutak-atik GAN atau VAE, pertanyaan ini sebenarnya bisa dijawab. Jawabannya umumnya mendekati “ya”
  Kita bisa melihat GAN pada berbagai checkpoint selama pelatihan, lalu memakai alat seperti UMAP atau t-SNE untuk memeriksa bagaimana titik-titik berbeda di ruang berdimensi tinggi bergerak
  Benar juga bahwa setelah perubahan hebat di awal, terjadi stabilisasi dan penyetelan detail geometris, tetapi perubahan awal juga dipengaruhi oleh learning rate dan pilihan optimizer
- Kalau harus dikatakan, saya melihatnya lebih dekat ke aljabar linear terapan. Hanya saja kalau disebut begitu terdengarnya kurang eksotis
Tulisannya sendiri bagus, tetapi saya tidak paham mengapa ide mencari permukaan pemisah yang membagi dua himpunan titik disebut “topologi”
Ada kalimat seperti “jika mempelajari terjemahan Inggris-Spanyol atau transformasi gambar-teks, model mempelajari topologi di mana bread dekat dengan pan dan foto kucing dekat dengan kata cat”, tetapi itu lebih dekat ke sesuatu yang tidak dibahas oleh topologi
Konsep bahwa titik-titik “dekat” atau “jauh” adalah ranah metrik, bukan topologi
Jika dua titik dekat dalam suatu ruang topologis, kita bisa meregangkan ruang itu sehingga tetap mempertahankan ruang topologis yang sama sekaligus membuat kedua titik itu jauh
Itulah inti lelucon bahwa cangkir kopi dan donat itu sama
Secara keseluruhan, ini terlihat lebih dekat ke penerapan nyata geometri aljabar, yaitu mencari sesuatu seperti varietas aljabar tempat titik-titik berada berdekatan. Pada akhirnya, ini tampak sebagai persoalan geometri dan jarak antar titik
- Pernyataan “ini bukan hal yang dibahas topologi” 100% benar
  Namun karena tulisan itu membahas topologi dan deep learning, saya hanya berharap kebingungan yang jelas itu tetap berada pada salah satu dari keduanya, yaitu topologi
- Dalam kalimat itu, “topology” dipakai secara lebih kolokial. Seharusnya yang tepat adalah “surface”
- Jika didefinisikan secara longgar, topologi sebenarnya bisa dilihat sebagai ilmu yang mempelajari ruang yang memiliki semacam konsep kedekatan dan kejauhan. Bahkan tanpa metrik sekalipun
  Konsep inti berupa lingkungan dalam topologi himpunan titik menangkap gagasan berada di dekat suatu titik, dan memungkinkan kita mendefinisikan hal-hal yang memerlukan konsep kedekatan, seperti kontinuitas atau konvergensi barisan
  Wikipedia [0] juga menjelaskan bahwa melalui konsep himpunan terbuka, kita dapat membuat “dekat”, “sekecil apa pun”, dan “terpisah jauh” menjadi presisi
  Jika definisi himpunan terbuka diubah, fungsi kontinu, himpunan kompak, dan himpunan terhubung juga berubah; setiap pilihan definisi himpunan terbuka disebut topologi
  Ruang metrik adalah kelas penting dari ruang topologis yang dapat mendefinisikan jarak riil tak-negatif, yaitu metrik, di antara pasangan titik
  Ini bukan berarti topologi adalah lensa terbaik untuk memahami jaringan saraf, dan penulisnya juga mengatakan di komentar bahwa pikirannya berubah. Di sini saya hanya ingin meluruskan kesalahpahaman
  [0] https://en.wikipedia.org/wiki/General_topology
Judulnya, kalau tetap seperti sekarang, klise dan salah, sementara tulisannya sendiri enak dibaca
Topologi adalah struktur yang sangat kecil yang tersisa setelah geometri menghilangkan jarak, sudut, arah, dan segala jenis peregangan yang tidak merobek
Itulah hal minimum yang tetap valid bahkan setelah deformasi drastis semacam itu
Memang benar konsep topologi berguna dalam machine learning, tetapi hal-hal seperti skala, jarak, dan sudut biasanya memberikan banyak informasi esensial tentang data
Kalau ingin membedakan kucing belang dan harimau tetapi mengabaikan ukuran, itu tindakan bodoh
Topologi sangat berguna ketika panjang, jarak, sudut, dan deformasi sewenang-wenang tidak dapat dipercaya
Kasus seperti itu ada, tetapi mengklaim bahwa deep learning adalah topologi terapan itu mengada-ada dan nyaris terdengar bodoh
- Data masukan berada di atas manifold yang tidak dapat dipercaya. Fakta bahwa gambar kaleng Coca-Cola dan gambar rambu berhenti berdekatan di ruang piksel tidak punya makna apriori
  Jaringan saraf menerapkan semua transformasi drastis semacam itu
- Jika masuk ke detail, banyak hal yang tidak akan penting dalam topologi murni justru menjadi penting. Mulai dari jumlah layer hingga resolusi kuantisasi/fp berpengaruh
- Kata “topology” juga punya definisi kamus yang sah yang sama sekali tidak memuat syarat-syarat yang Anda tuntut sekarang. Sepertinya Anda melewatkan bahwa ada dua definisi
Terima kasih sudah berbagi, dan saya juga cenderung melihat pembelajaran dari sudut pandang manifold. Itu cara ekspresi yang kuat
Mengenai bagian “di ruang dengan dimensi cukup tinggi, ini tidak dapat dibedakan dari inferensi”, saya pernah cukup banyak menulis catatan harian dan juga menulis di HN dengan nama “manifold inferensi probabilistik”
Manifold ini dibangun dengan mempelajari ruang pola yang didekontekstualisasi dari himpunan input yang diberikan
Karena sifat probabilistik intrinsik dari sampling, inferensi sejati dinyatakan sebagai probabilitas, bukan aksioma
Kita mungkin bisa menemukan aksioma dengan mencari titik tetap atau atraktor di atas manifold, tetapi pada akhirnya yang kita lihat adalah manifold probabilistik yang dibangun dari himpunan input
Namun saya rasa “inferensi” ini tidak bisa dipisahkan dari data input
Manifold inferensi yang cukup maju mungkin bisa menemukan struktur seperti “meta-inferensi” yang muncul di mana-mana, tetapi struktur yang sangat terdekontekstualisasi seperti ini bisa sama sekali tidak berguna jika tidak direkontekstualisasi dengan tepat
Pada akhirnya, agar menjadi manifold yang berguna untuk memproses jenis input tertentu, pola input itu harus mengikuti underlying rule yang dapat dipelajari

Jika dekontekstualisasi adalah pembelajaran—yakni mengurai aspek-aspek input menjadi relasi yang independen dari konteks—maka rekontekstualisasi adalah separuh lainnya: kemampuan mengubah relasi yang independen dari konteks, yang sangat abstrak dan kadang tidak dapat direpresentasikan, menjadi analisis yang berguna di ranah baru
Komentar lengkap: https://news.ycombinator.com/item?id=42871894

Saya penasaran apakah yang dimaksud adalah penalaran umum, yaitu penalaran sebagai proses mental yang bekerja di atas representasi proposisi
Jika begitu, sulit memahami pernyataan “penalaran sejati direpresentasikan sebagai probabilitas, bukan aksioma”
Salah satu ciri penalaran adalah bahwa ia tidak bekerja seperti itu
Sangat kecil kemungkinan hewan sama sekali tidak memiliki kemampuan untuk bekerja secara non-probabilistik di atas proposisi yang mereka representasikan. Ini penting untuk penalaran yang benar, dan juga kemampuan yang relatif sepele untuk disediakan
Misalnya, “jika laba-laba ada di dalam boxA, maka ia tidak ada di tempat lain”
Data sebenarnya tidak berada di atas manifold. Itu hanya pendekatan untuk memikirkan data
Hampir semua hal yang berguna dalam deep learning, mungkin 100%, muncul tanpa memikirkan topologi sama sekali
Deep learning bukanlah penerapan dari sesuatu, melainkan sebagian besar merupakan bidang empiris yang berkembang lewat coba-coba dan eksperimen
Memang ada sedikit intuisi yang datang dari teori, tetapi teori itu bukan topologi
- Saya sama sekali tidak setuju. Benar bahwa ada banyak coba-coba, tetapi deep learning lebih mirip campuran teori dari berbagai bidang matematika, termasuk topologi, geometri, teori permainan, kalkulus, statistik, dan sebagainya
  Bahkan yang paling mendasar, backpropagation, hanyalah penerapan aturan rantai pada bobot
  Perbedaannya adalah deep learning menjadi begitu mudah diakses, lebih tepatnya menjadi bidang yang menguntungkan, sehingga banyak praktisi bisa mempelajari topiknya tanpa mempelajari asal-usul formalisme tersebut
  Akibatnya, teori dan teknik yang sudah lama ada di bidang lain digunakan, atau “diciptakan ulang”, tanpa mengetahui asal-usulnya
- “Intuisi” yang datang dari teori tampaknya bersifat setelah kejadian. Setelah deep learning menciptakan suatu metode, barulah para peneliti dari bidang sains lain menyadari kemiripan antara pendekatan deep learning dan metode lama mereka
  Contohnya, ada tulisan yang menemukan bahwa GPT sebenarnya sama dengan masalah komputasi yang sudah ia pecahkan di fisika: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Dari sudut pandang saya yang sudah melakukan deep learning selama lebih dari 10 tahun, pernyataan ini cukup keliru. Bahwa data hidup di atas manifold itu jelas, dan ini juga berlaku untuk aplikasi deep learning
  Contohnya ada blog Chris Olah tahun 2014 yang ditautkan di tulisan saya: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Ada alasan mengapa ruang embedding disebut “ruang”
  GAN, VAE, dan contrastive loss semuanya adalah soal membangun manifold vektor yang bisa kita jelajahi sambil membuat berbagai jenis data
- Ini adalah alkimia
  Deep learning dalam bentuknya saat ini memiliki hubungan dengan teori dasar hipotetis seperti hubungan alkimia dengan kimia
  Beberapa ratus tahun lagi, siswa SMA penutur Inuktitut dari peradaban setelah kita akan belajar bahwa kata aneh “deep learning” adalah sisa-sisa lingua franca lama
- Jika definisinya dilonggarkan agar mengizinkan galat aproksimasi, data bisa dianggap berada di atas manifold. Misalnya, lihat Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
Begitu membaca kalimat “ini sudah cukup untuk mencapai AGI”, kredibilitasnya langsung anjlok
Secara umum idenya bagus, tetapi tulisannya cukup kabur, terutama bagian yang menghubungkannya dengan penalaran
Di bidang ini ada pekerjaan teknis serius yang memperluas dan membuat ide ini lebih konkret, seperti https://arxiv.org/abs/1402.1869
Topologi lain yang ditemui dalam deep neural network adalah topologi jaringan. Ini berarti struktur jaringan, yaitu bagaimana node terhubung dan bagaimana data mengalir
Sudah ada contoh terkenal yang terinspirasi biologi seperti autoencoder, convolutional neural network (CNN), dan generative adversarial network (GAN)
Namun masih banyak yang perlu dipelajari tentang topologi otak dan konektivitas fungsionalnya
Ke depan, besar kemungkinan kita akan menemukan struktur baru, baik di dalam struktur internal tiap layer/node maupun dalam cara jaringan-jaringan terspesialisasi saling terhubung dan berinteraksi
Otak tidak bergantung pada satu jaringan saja, melainkan menjalankan beberapa jaringan secara paralel—yang sering disebut “Big 7”—dan menghubungkannya secara mendalam
Default Mode Network(DMN), Central Executive Network(CEN), Limbic Network, dan lainnya termasuk di dalamnya
Bahkan satu neuron bisa menjadi bagian dari beberapa jaringan dan menjalankan fungsi yang berbeda-beda
Dalam sistem buatan, kita belum cukup mereplikasi kompleksitas seperti ini, dan masih banyak yang bisa dipelajari serta dijadikan inspirasi dari “topologi jaringan” semacam ini
Jadi, “Topology is all you need” :-)
Premis bahwa “selama kita bisa membedakan yang baik dan buruk, kita bisa melatih neural network agar menata topologinya sendiri” bermasalah
Sekitar 10 tahun lalu saya melihat proyek yang melatih jaringan untuk menebak jenis kelamin biologis dari foto wajah
Untuk mengurangi bias, mereka dengan hati-hati menghapus riasan, kumis, rambut, dan sebagainya, tetapi akurasinya sekitar 70–80%
Saat itu tampaknya hasil yang hebat, dan mereka menargetkan 99%
Hal pertama yang saya lakukan setelah membaca makalahnya adalah mencari makalah tentang manusia yang menebak jenis kelamin biologis dari foto serupa
Manusia pun tidak jauh lebih baik, dan selisih antara manusia dan mesin sekitar 1–2%
Saya bertanya kepada orang-orang yang menjalankan proyek itu bagaimana mereka membuktikan bahwa pembedaan seperti itu mungkin dilakukan hanya dari foto, tetapi mereka tidak memahami pertanyaannya dan hanya mengasumsikan bahwa itu mungkin
Pada akhirnya mereka tidak berhasil memperbaiki hasilnya. Bisa jadi neural network-nya diajari dengan buruk, tetapi jika penanda gender dihapus, banyak wajah mungkin memang androgini
Alasan saya mengangkat anekdot ini adalah karena asumsi mereka terlihat cukup masuk akal bagi saya

Dalam kebanyakan situasi, dari melihat wajah kita bisa menebak apa yang ada di dalam celana seseorang, jadi dianggap bahwa informasi itu ada pada wajahnya
Namun, dalam keadaan ketika buku teks ditulis ulang setiap tahun, orang mencoba menghitung “waktu paruh pengetahuan”, disiplin filsafat pun belum selesai, dan setiap hari terjadi perdebatan politik serta ideologis tentang apa yang terbaik, asumsi bahwa kita entah bagaimana bisa memisahkan baik dan buruk itu sangat, sangat tidak rasional

Pada akhirnya, mengasumsikan bahwa memang ada pemisahan seperti itu antara “baik” dan “buruk” pun tidak rasional
Diagram yang mengklaim AGI/ASI sebagai titik pada manifold yang sama dengan prediksi token berikutnya, model chat, dan model CoT terasa membingungkan
Bahwa tiga yang terakhir merupakan bagian dari manifold yang sama mungkin bisa dibuktikan, tetapi saya tidak tahu apa dasar untuk menempatkan AGI/ASI di sana juga
Bukankah mungkin model yang mampu CoT, betapapun dimanipulasi secara topologis, tetap tidak akan mencapai proses yang bisa dianggap sebagai AGI?
Misalnya, kecerdasan manusia, yang merupakan hal terdekat dengan AGI yang kita ketahui, membutuhkan loop umpan balik sensorik dan internal yang sangat kompleks serta pemrosesan kontinu, berbeda dari pemrosesan diskret pada model autoregresif
Sebagai orang awam, intuisi saya mengatakan LLM sama sekali bukan satu keluarga dengan sistem yang bisa menghasilkan kecerdasan atau kesadaran
- Bisa saja. AGI/ASI memang didefinisikan dengan buruk. Secara pribadi saya cenderung berpikir kita sudah mencapai AGI, meski tentu banyak orang tidak setuju
  Menurut saya, penjelasan bahwa kecerdasan manusia membutuhkan loop umpan balik sensorik/internal yang kompleks dan pemrosesan kontinu justru menutupi fakta bahwa jaringan saraf dan jaringan biologis sebenarnya bekerja dengan cara yang cukup mirip
  Saya cukup banyak meneliti connectomics, dan misalnya dalam sistem penciuman tikus, muncul semacam vektor fitur tergantung neuron mana yang menyala
  Jika sekumpulan neuron tertentu menyala, artinya menjadi seperti “cokelat” atau “lemon”
  Secara lebih umum, representasi neuron tampaknya sampai batas tertentu mirip dengan representasi embedding, dan kita juga bisa membayangkan membangun ruang embedding berdasarkan neuron mana yang menyala dan di mana
  Segala sesuatu di atas embedding “hanyalah” pemrosesan