10 poin oleh longnightbebe 3 hari lalu | 3 komentar | Bagikan ke WhatsApp

Saya menemukan sebuah dokumen PDF yang menarik saat menjelajah internet. Setelah membacanya, isinya menurut saya pribadi cukup mengejutkan, jadi saya membagikannya di sini.

Sepertinya dokumen ini mengkritik pendekatan multi-agent yang belakangan banyak didorong di skena AI, dan tampaknya berpendapat bahwa AI tidak seharusnya diberi otonomi, melainkan digunakan layaknya sebuah 'komponen rendering'.

Judul dokumennya juga masih berupa judul sementara, dan melihat ada pembahasan tentang semacam data pembuktian konsep (PoC) di bagian akhir, saya jadi curiga ini mungkin white paper internal yang ditulis oleh suatu perusahaan deep tech atau lembaga riset untuk keperluan investasi lalu bocor.

Sejujurnya saya tidak memahami 100% seluruh isinya, tetapi saya tetap mengunggahnya karena nada tulisannya yang secara terang-terangan menantang arah yang sedang diambil big tech saat ini terasa cukup menarik.

Ini bukan artikel resmi, jadi saya unggah ke Google Drive saya dan membagikan tautannya.

3 komentar

 
mammal 2 hari lalu

Ini tulisan yang tidak bergizi; hanya memaparkan argumen tanpa dasar yang menentukan untuk klaimnya maupun eksperimen langsung.

Semacam perpanjangan membosankan dari ucapan Yann LeCun seperti, "Bahkan kalau sudah sampai GPT-5000, model tetap tidak akan bisa mempelajari bahwa jika sebuah benda diletakkan di atas meja lalu mejanya didorong, bendanya juga ikut terdorong," atau "model autoregresif pasti akan runtuh karena akumulasi kesalahan ketika urutannya makin panjang"...

Terus terang, jadi curiga ini jangan-jangan bukan unggahan viral untuk promosi perusahaan yang disebut di bagian akhir white paper.

 
mammal 2 hari lalu

> Di dasar keruntuhan ini terdapat keterbatasan matematis dari 'normalisasi softmax', jantung dari arsitektur transformer. Dalam mekanisme attention, jumlah bobot perhatian semua token harus selalu menjadi 1, mengikuti distribusi zero-sum. Karena itu, saat panjang sekuens input N bertambah secara geometris, bobot informasional yang dapat dialokasikan ke token inti tertentu niscaya akan konvergen ke 1/N dan terdilusi secara aritmetis. Ini bukan sekadar inefisiensi komputasi, tetapi berarti 'noise floor' yang harus diproses model meningkat tajam.

Ini apaan, bukan lucu-lucuan juga kali..

 
brainer 3 hari lalu

Ditulis dengan rumit, tetapi pada akhirnya yang ingin disampaikan adalah hal yang juga berlaku pada manusia.
Pertanyaannya adalah, apakah tulisan yang dibuat oleh orang bodoh A akan menjadi lebih baik hanya karena dilihat lagi oleh orang bodoh A.

Tentu saja dalam sedikit kasus ada ruang untuk menjadi lebih baik, dan ada juga probabilitas menjawab semua soal dengan menebak lalu mendapat nilai penuh di CSAT, tetapi dalam kebanyakan kasus hasilnya hanya akan kembali ke rata-rata level orang bodoh A setelah N kali percobaan.

(Untuk Chapter 2, saya tidak bisa sepenuhnya setuju.)

Namun seperti yang dibicarakan dalam makalah itu, saya harap orang-orang paham bahwa what-ever Scaling Law hanyalah hukum peningkatan sementara, bukan sesuatu yang abadi.
Kalau benar-benar membaca makalah OpenAI dengan baik, seharusnya mereka tidak akan mengatakan hal seperti itu.

Sebenarnya, daripada 100 makalah seperti itu, semuanya akan selesai kalau seseorang yang mengklaim "bisa" cukup membuktikan bahwa itu memang bisa.

Masalahnya, yang dilakukan hanya alkimia "bisa" saja.