7 Sanggahan terhadap Makalah Apple tentang "Batasan LLM Penalaran" dan Kelemahan Sanggahan Tersebut

(garymarcus.substack.com)

15 poin oleh GN⁺ 2025-06-15 | 2 komentar | Bagikan ke WhatsApp

Makalah Apple Ilusi Berpikir: Memahami Batasan LLM Penalaran memicu reaksi besar karena mempertanyakan hipotesis scaling dalam AI
Muncul 7 sanggahan utama terhadapnya, tetapi penulis artikel ini, Gary Marcus (profesor emeritus NYU), menilai semuanya kurang meyakinkan
Argumen seperti "manusia juga membuat kesalahan", "batas panjang output", dan "penulis makalah adalah intern" pada dasarnya mengaburkan pokok persoalan dan menghindari inti masalah, tanpa menyelesaikan kerentanan mendasar
Beberapa poin seperti "masalah bisa diselesaikan dengan memakai kode" memang bermakna, tetapi justru makin menonjolkan kebutuhan akan AI neuro-simbolik
Hasil riset terbaru SalesForce juga menunjukkan bahwa kinerja penalaran multi-turn kompleks LLM dalam skenario bisnis nyata hanya 35%, sejalan dengan kekhawatiran dalam makalah Apple

7 Sanggahan terhadap Makalah Penalaran Apple dan Kelemahannya

Pendahuluan

Makalah Apple Illusion of Thinking: Memahami Batasan LLM Penalaran mengungkap batasan penalaran dan pelaksanaan algoritme pada large language model, sehingga mendapat perhatian besar dari industri, media, dan akademia
Pos penjelasan makalah yang diringkas penulis Gary Marcus, postingan ulasan makalah, telah dibaca lebih dari 150 ribu orang
The Guardian menerbitkan kolom yang merujuk pada pos terkait, dan versi ACM serta bahasa Prancis juga muncul, membuktikan perhatian global
Menanggapi hal ini, para pendukung GenAI mengkritik makalah tersebut dan mengajukan berbagai sanggahan, tetapi tak satu pun menjadi bantahan yang mendasar

1. "Manusia juga kesulitan dengan masalah kompleks dan tuntutan memori"

Klaim bahwa manusia juga merasa kesulitan memang benar, tetapi alasan komputer dan AI diciptakan sejak awal adalah agar dapat menangani perhitungan dan pekerjaan berulang yang tak bisa dilakukan manusia secara akurat
Sebagai contoh, pada puzzle Tower of Hanoi, sistem AI simbolik yang sudah ada dapat menjalankannya tanpa kesalahan
Jika menyangkut AGI, justru seharusnya ia menunjukkan kemampuan yang lebih maju; jika hanya berhenti pada kategori kesalahan mirip manusia, itu bisa dilihat sebagai batasan
Inti makalah Apple adalah bahwa ketika LLM makin jauh dari kompleksitas dan distribusi pembelajaran awalnya, pelaksanaan algoritme yang benar tidak lagi dapat dipercaya
Pernyataan "manusia juga membuat kesalahan" hanyalah pengaburan isu

2. "LRM tidak bisa menyelesaikannya karena ada batas jumlah token output"

LRM (large reasoning model) memang punya batas panjang output, tetapi beberapa contoh dalam kasus ini (misalnya Hanoi 8 cakram, 255 langkah) masih berada dalam rentang output yang cukup memungkinkan
AI simbolik yang dirancang dengan baik tidak terdampak oleh masalah ini, dan AGI semestinya juga demikian
Batas token adalah bug, bukan solusi
Jika algoritme dasar saja tak bisa dijalankan dengan andal, maka masalah dunia nyata yang lebih berat (strategi militer, biologi, dan lain-lain) tentu akan lebih mustahil lagi

3. "Penulis makalah itu hanya intern"

Ini termasuk ad hominem (serangan pribadi) dan tidak relevan dengan inti persoalan. Ini adalah kesalahan yang mengabaikan praktik ilmiah
Faktanya, penulis tersebut adalah mahasiswa Ph.D. yang menjanjikan, dan makalah itu memiliki total 6 penulis (4 di antaranya bergelar Ph.D., termasuk peneliti ternama seperti Samy Bengio)
Yang penting adalah kualitas makalah, terlepas dari status penulisnya

4. "Kalau modelnya lebih besar, hasilnya bisa bagus"

Memang ada laporan perbaikan pada beberapa model yang lebih besar, tetapi tetap tidak mungkin memprediksi ukuran seperti apa yang cukup
Bahkan pada LRM dengan arsitektur yang sama, ada hasil tidak konsisten, seperti berhasil pada 6 cakram tetapi gagal pada 8 cakram
Kurangnya reliabilitas dan prediktabilitas model berarti semua masalah harus diverifikasi terlebih dahulu setiap saat → ini masih jauh dari AGI

5. "Masalah bisa diselesaikan jika memakai kode"

Beberapa LLM memang bisa menyelesaikan masalah lewat kode, tetapi ini justru menunjukkan keunggulan AI neuro-simbolik
AI/AGI dalam arti yang sesungguhnya semestinya mampu melakukan penalaran dan pelacakan balik berbasis pemahaman konseptual bahkan tanpa kode
Seperti ujian yang menilai pemahaman konsep siswa, LLM juga sedang dihadapkan pada situasi yang menuntut pemahaman konseptual yang nyata

6. "Eksperimennya hanya 4 contoh, dan masalah Hanoi juga tidak sempurna"

Keempat contoh dalam makalah itu mungkin memang tidak sepenuhnya sempurna, tetapi semuanya sejalan dengan hasil banyak riset terdahulu, dan laporan kegagalan serupa terus bermunculan
Tal Linzen dari NYU dan lainnya juga memberi bukti tambahan tentang keterbatasan dalam konteks ini

7. "Ini semua sudah diketahui"

Banyak peneliti sebenarnya sudah lama menyadari kerapuhan generalisasi pada LLM
Namun dalam konteks publik dan industri, penting dicatat bahwa makalah ini kini memusatkan perhatian luas
- Yang penting adalah bahwa ini menjadi momentum bagi industri untuk benar-benar memperhatikan dan membahas kemungkinan AGI yang selama ini terlalu dibesar-besarkan
Bahkan di kalangan peneliti muncul reaksi kontradiktif yang menyebut makalah ini "salah" sekaligus "hal yang sudah diketahui"

Kesimpulan

Dari seluruh sanggahan di atas, tidak banyak isi yang benar-benar meyakinkan secara menentukan
Makalah Apple kembali memberi sinyal jelas bahwa perluasan skala bukan jawaban bagi AGI
Teknologi LLM saat ini menunjukkan batasan yang jelas dalam reliabilitas, generalisasi, dan penalaran konseptual
Bahkan tokoh utama seperti Sam Altman pun tampak mulai memandang situasi ini dengan serius

Makalah SalesForce dan bukti konvergen tambahan

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

Dalam makalah terbaru SalesForce, diperkenalkan benchmark evaluasi LLM berbasis skenario bisnis nyata (penjualan pelanggan, layanan, B2B/B2C, dan lain-lain)
Berdasarkan single-turn (1 kali tanya-jawab), tingkat keberhasilan 58%, sedangkan pada multi-turn (tanya-jawab beruntun) anjlok menjadi 35%
Secara khusus, eksekusi workflow mencatat hasil di atas 83%, tetapi tetap terbatas pada penalaran majemuk/pergantian konteks dan sejenisnya
Kesadaran terhadap kerahasiaan (Confidentiality awareness) juga nyaris tidak ada; bisa diperbaiki dengan prompt, tetapi disertai penurunan performa
Keterbatasan LLM menjadi jelas dibanding tuntutan kompleksitas dan realisme lingkungan perusahaan nyata, sehingga kebutuhan akan integrasi penalaran multi-turn, kerahasiaan, dan beragam skill kerja makin menonjol

Ringkasan

Baik makalah Apple maupun SalesForce sama-sama menunjukkan bahwa LLM generasi saat ini memiliki batasan serius dalam penalaran kompleks nyata, percakapan multi-turn, dan pelaksanaan algoritme
Untuk mendekati AGI, dibutuhkan integrasi neuro-simbolik dan perbaikan struktural yang melampaui scaling
Fakta bahwa industri dan para peneliti mulai secara serius menyoroti diskusi tentang batasan ini memiliki makna penting

2 komentar

fanotify 2025-06-16

Dalam esainya, Altman menulis bahwa "10 tahun lagi, mungkin kita akan beralih dari tahun ketika kita memecahkan fisika energi tinggi ke tahun berikutnya ketika kita mulai menjajah antariksa." Ia menambahkan bahwa orang-orang yang berupaya "terhubung" langsung ke AI melalui antarmuka otak-komputer akan melihat hidup mereka berubah secara mendasar.
Retorika semacam ini mempercepat adopsi AI di seluruh masyarakat kita. AI saat ini digunakan oleh DOGE (Kantor Perdana Menteri) untuk merombak pemerintahan, dimanfaatkan oleh militer agar menjadi lebih mematikan, dan sering kali diserahkan untuk menangani pendidikan anak-anak kita dengan konsekuensi yang belum diketahui.
Dengan kata lain, salah satu bahaya terbesar AI adalah kita melebih-lebihkan kemampuannya, mempercayainya lebih dari yang diperlukan meskipun AI telah terbukti menunjukkan kecenderungan antisosial seperti "pemerasan oportunistis", dan bergantung padanya secara tidak bijak. Dengan melakukan itu, kita menjadi rentan terhadap kemungkinan AI gagal pada saat yang paling penting.
"AI bisa digunakan untuk menghasilkan berbagai ide, tetapi tetap memerlukan audit yang signifikan," kata Ortiz. "Misalnya, untuk menyiapkan laporan pajak, lebih baik menggunakan alat yang mirip TurboTax daripada ChatGPT."

Dikutip dari artikel WSJ, Why Superintelligent AI Isn't Taking Over Anytime Soon

GN⁺ 2025-06-15

Opini Hacker News

Disampaikan pendapat bahwa memang benar manusia kesulitan menghadapi masalah kompleks dan beban memori, tetapi itu bukan keseluruhan ceritanya. Ditekankan bahwa kita berharap mesin dapat memberi hasil yang lebih unggul daripada manusia. Jika kita mengakui manusia juga melakukan kesalahan seperti ini, tetapi pada saat yang sama tetap bersikeras bahwa definisi “kemampuan berpikir” mensyaratkan kemampuan tersebut, maka pada akhirnya kita sampai pada kesimpulan bahwa pemikiran manusia sendiri juga hanyalah ilusi
- Saya juga setuju, tetapi menurut saya bagian terkait AGI adalah klaim yang keliru. Ada pandangan bahwa definisi AGI adalah AI yang mampu melakukan semua tugas pada tingkat manusia rata-rata
- Saya merasa argumen dari kedua pihak sama-sama tidak jernih. Rasanya pertanyaan kualitatif dijawab hanya dengan jawaban kuantitatif
Dinilai sebagai tulisan analisis yang bagus terhadap makalah Apple dan kritik Gary Marcus. Untuk pembahasan yang lebih rinci, direkomendasikan tulisan terkait di LessWrong
- Disebutkan rasa penasaran yang tulus: apakah pendapat Gary Marcus masih relevan. Kritiknya terasa lebih filosofis daripada ilmiah, dan sulit melihat apa yang benar-benar dihasilkannya atau bagaimana logikanya dapat diverifikasi secara nyata
- Soal lesswrong.com, diungkapkan posisi bahwa situs itu sulit dipercaya karena dianggap sebagai kelompok yang mengikuti pemikiran tokoh tertentu (misalnya Yud)
Dibagikan insight bahwa LLM bisa menghasilkan keluaran yang tampak seperti "penalaran" ketika ada solusi serupa yang pernah dipelajari di masa lalu, tetapi runtuh saat menghadapi masalah yang benar-benar baru. Ini memang bukan penalaran dalam arti yang ketat, tetapi secara praktis tetap sangat berguna. Kemampuan untuk terus-menerus mengeluarkan solusi, seperti halnya menyediakan pengecekan fakta berulang kali, dianggap cukup berguna. Marcus dinilai benar secara teknis, tetapi nadanya lebih emosional daripada benar-benar menjelaskan
- Kalau pengulangan solusi serupa memang bekerja sebaik itu, tentu luar biasa, tetapi dalam praktiknya alat-alat ini sering bahkan gagal mengulang solusi yang sama dengan benar, dan malah mengarang hasil yang terdengar meyakinkan secara spontan (halusinasi), sehingga pengalaman yang dibagikan adalah bahwa manusia tetap harus memverifikasi dengan sangat teliti, yang cukup merepotkan
- Bahkan jika itu saja bisa dilakukan dengan benar, itu sudah akan menjadi terobosan, tetapi tetap saja masih terasa seperti idealisme yang terlalu indah untuk nyata. Disebutkan pengalaman terbaru Gemini yang bahkan bingung membedakan kiri dan kanan pada soal buku teks yang sangat dasar
- Ada rasa jenuh terhadap klaim berulang ala “LLM cuma burung beo”. Berdasarkan pengalaman saya, LLM dapat menalar dan menyelesaikan masalah yang benar-benar baru, yang tidak ada di data latihnya. Saya sudah mengujinya di sangat banyak kasus, dan juga ada banyak contoh terkait. Untuk merangkum jawaban terhadap orang-orang yang berinteraksi tentang ini: definisi “penalaran” dan “pemecahan masalah baru” perlu diperjelas terlebih dahulu. Secara pribadi saya melihat penalaran sebagai sebuah spektrum, dan bukan hal yang sama dengan kecerdasan umum. Hanya karena LLM tidak selalu bisa memecahkan masalah sulit, bukan berarti penalaran itu sendiri mustahil baginya. Menurut saya kemampuan penalaran LLM memang secara umum masih lemah, tetapi saya tidak setuju dengan klaim bahwa ia sama sekali tidak bisa menalar atau memecahkan masalah baru.
  1. Bisa saja dikatakan bahwa next token prediction itu sendiri adalah tugas yang memerlukan penalaran
  2. Berbagai eksperimen yang memintanya menerjemahkan ke bahasa fiktif yang sama sekali tidak ada juga berhasil. Ada banyak riset terkait in-context learning dan zero-shot
  3. Berbagai tantangan/game/teka-teki telah dicoba untuk menguji kemampuan penalaran, tetapi pada akhirnya ada kasus-kasus di mana LLM menyelesaikannya satu per satu (misalnya teka-teki Monty Hall problem, contoh teka-teki lain sebelumnya), bahkan ada model yang dilatih sebelum teka-teki itu dipublikasikan
  4. Ada juga banyak riset terkait out-of-context reasoning (misalnya paper arXiv) Poin bantahan tambahan,
  5. Bahkan jika model gagal pada ambang kompleksitas tertentu, tetap sangat mengesankan bahwa model terbaru bisa menyelesaikan sebagian dari teka-teki sulit ini. Hal yang tidak bisa dilakukan GPT-3.5 kini bisa dilakukan model terbaru. Kemajuan bertahap di bidang penalaran terus berlanjut. Semakin besar dan semakin pintar modelnya, semakin baik pula ia menghadapi tugas zero-shot, dan saya rasa ini berkorelasi dengan peningkatan kemampuan penalaran
  6. Bahkan ada data dalam paper itu sendiri untuk klaim “model lebih besar = performa lebih baik”. Model Claude 3.7 menunjukkan performa yang jauh lebih baik daripada DeepSeek dan mempertahankan penyelesaian secara stabil di sepanjang sekuens panjang. Dengan model yang lebih baik dan token yang lebih banyak, hasil pada masalah tingkat menengah naik dengan cepat. Hanya karena tidak bisa menyelesaikan “masalah sulit”, itu sama sekali tidak berarti tidak mampu menalar. Beberapa tahun lalu orang bilang tingkat menengah saja tidak bisa, tetapi sekarang situasinya sudah berubah total
- Justru itu dipandang sebagai kebalikan dari penalaran. Para pendukung AI berusaha menggambarkan LLM seolah cerdas atau bisa menalar, padahal sebenarnya ia tidak mampu melakukan penalaran yang kreatif atau cerdas. Penalaran sejati berarti kemampuan menemukan sendiri solusi inovatif untuk masalah yang sama sekali belum pernah dilihat sebelumnya. LLM dianggap hanya mengekstrak secara probabilistik solusi yang pernah ada di datanya, tanpa kemampuan sama sekali untuk memperkirakan atau menyimpulkan solusi yang benar-benar baru
Ditunjukkan bahwa banyak sanggahan dan bantahan itu sebenarnya lemah, atau nyaris semuanya bisa dimasukkan ke poin kelima. Inti tulisannya adalah apakah LLM bisa menulis kode atau menggunakan sistem logika. Jika tidak ada akses ke alat, apakah penalaran yang sia-sia (halusinasi/jawaban salah) benar-benar berarti ketiadaan penalaran yang sesungguhnya, atau justru harapan yang sebenarnya adalah AI yang seperti manusia cerdas, mampu “mengakui batas kemampuan yang dimilikinya”
- Jika melihat hasil eksperimen nyata, model menulis keluaran sampai 100 langkah lalu mengatakan semacam “di atas ini terlalu banyak, jadi saya akan menjelaskan cara menyelesaikannya saja”, dengan kata lain secara jelas mengakui keterbatasannya. Namun jawaban seperti ini pun ada yang dinilai salah. Lihat contoh respons model yang sebenarnya. Misalnya ketika terlalu kompleks, ia memakai pendekatan seperti “[sulit menjelaskan semua cara percobaan satu per satu, jadi saya akan menjabarkan metode penyelesaiannya saja]”, dan model tertentu (Sonnet) setelah melewati 7 buah cenderung melompati penalaran langsung langkah demi langkah dan hanya menjelaskan algoritme penyelesaian atau pendekatan umum
- Menurut saya, selain poin 3, kebanyakan sanggahan itu sebenarnya tidak lemah. Justru saya merasa tulisan aslinya membuat banyak argumen orang-orangan jerami. Alasan sanggahan pertama sering muncul adalah karena ada klaim bahwa “paper ini membuktikan LLM tidak bisa menalar”. Namun penulis terus membawa-bawa AGI sambil mengubah definisinya menjadi orang-orangan jerami (“mesin harus bisa lebih banyak daripada manusia”, semacam itu). Padahal definisi AGI yang sebenarnya adalah AI yang mampu melakukan tugas pada tingkat manusia rata-rata, bukan superintelligence, dan penulis salah memahaminya. Sebagai referensi, untuk masalah seperti Tower of Hanoi, LLM sudah menunjukkan performa di atas manusia rata-rata. Secara realistis, orang biasa tidak bisa menyelesaikan Tower of Hanoi 8 cakram tanpa mencatat apa pun, tetapi LLM bisa. Meski begitu, untuk menuju AGI sejati memang masih banyak hambatan yang harus dilampaui model. Sanggahan poin 5 juga dianggap sebagai argumen orang-orangan jerami berupa “tidak bisa mengambil kode dari web”, padahal sebenarnya ada contoh bahwa model dapat menulis kode sendiri untuk menyelesaikan masalah baru. Poin-poin ini bukan kritik terhadap paper, melainkan penunjukan fakta tentang keterbatasan paper itu sendiri. Paper ini hanya menunjukkan keterbatasan penalaran LLM, dan sebenarnya tanpa klaim berlebihan hanya mendeskripsikan batasannya, tetapi karena judulnya provokatif, orang-orang cenderung tidak membaca isi utamanya dengan benar
Menanggapi klaim “teka-teki yang bahkan anak kecil bisa pecahkan”, ada pengakuan bahwa sebenarnya sulit menyelesaikan Tower of Hanoi 8 cakram hanya di dalam kepala tanpa mencatat apa pun. Ini memunculkan pertanyaan apakah perbandingan manusia dan AI benar-benar setara
Alasan artikel-artikel seperti ini disambut baik adalah karena euforia promosi berlebihan tentang AI memang perlu sedikit didinginkan. Jika ingin serius memakai tool AI baru di dunia nyata, kita perlu berhenti sejenak dari antusiasme dan melihat dengan dingin keterbatasan nyata serta wujud teknologi ini yang sebenarnya. Ia memang hebat dan praktis di banyak bidang, tetapi penggemboran boom tanpa kendali pada akhirnya hanya menguntungkan pihak-pihak berkepentingan yang secara langsung atau tidak langsung terhubung pada pencarian uang
- Gary Marcus dinilai bukan tipe yang membantu orang “melihat kenyataan”, melainkan justru tipe yang membesarkan ketenarannya sendiri dengan mengambil posisi yang berlawanan dengan arus utama AI. Tulisan kali ini juga dinilai logis, tetapi menjadi contoh perubahan sikap dibanding paper-paper lamanya yang menyebut LLM sebagai “pukulan telak”. Tulisannya memang tampak masuk akal dari suasananya, tetapi jika dibaca beberapa kali terlihat ada kecenderungan yang konsisten
- Bahkan di antara orang-orang yang berinvestasi di AI pun ada pandangan bahwa boom berlebihan hanya menguntungkan pelaku pump-and-dump atau penjual jasa pendidikan dan konsultasi, sementara orang-orang yang benar-benar ingin menciptakan inovasi justru kemungkinan besar akan segera menghadapi AI winter
- Ada sikap waspada secara naluriah terhadap LLM. Sejauh ini, sebagian besar pengalaman saya saat ia menulis kode untuk saya hasilnya sangat buruk, jadi sekarang saya tidak terlalu suka dan juga tidak sering memakainya. Namun saya tetap berharap seiring waktu ia akan berkembang menjadi alat yang cukup berguna. Meski begitu, menurut saya Marcus sama sekali tidak layak ikut dalam diskusi ini. Ucapannya hanya melahirkan pembahasan yang tidak produktif dan hiperbola, sehingga memberi terlalu banyak amunisi kepada kubu yang terlalu anti-AI. Sampai dinilai sebagai “respectability laundering: mengutip dia membuat kritik terlihat sah”
- Saya ingin mendengar kritik dari orang yang benar-benar paham apa itu test/train split di machine learning. Menurut saya, orang yang terlalu jauh dari praktik ML terkini tetapi terus bicara soal kemampuan AI justru mencerminkan gejala yang sangat simbolis dari ketakutan terhadap AI
- Dipertanyakan seberapa berguna sebenarnya semua ini. Sudah lebih dari setahun muncul klaim seperti “produktivitas pekerja pengetahuan naik 10x”, tetapi di mana hasil nyata yang benar-benar berubah sebesar itu? Apakah ada lini produk office baru? Produksi massal aplikasi mobile? Revolusi pasar buku? Pada akhirnya, selain meme Ghibli atau konten viral seperti ‘RETURNS’, ada keraguan apakah ada keluaran produktif yang sungguh substansial
Jika penasaran dengan paper aslinya, dibagikan tautan aslinya
- Sebagai bahan riset dan referensi, turut diperkenalkan paper: The Illusion of Thinking – kekuatan dan keterbatasan model reasoning (PDF) dan komentar A Knockout Blow for LLMs?. Ditanyakan juga apakah ada bahan lain yang bisa direkomendasikan
Disebutkan bahwa memberi soal kalkulus pada ujian matematika bukan untuk menilai apakah siswa bisa menghasilkan jawaban hitungan semata, melainkan untuk mengevaluasi pemahaman konseptualnya. Tim Apple juga sedang melihat apakah LLM memahami masalah Hanoi secara konseptual. LLM mungkin bisa “mengunduh” kode jawaban, tetapi untuk masalah baru atau lingkungan dinamis, argumennya adalah bahwa mengunduh kode tanpa memahami konsep punya batas. Namun pada kenyataannya LLM bukan mengunduh kode, melainkan memiliki kemampuan untuk langsung “menulisnya”. Jika peserta ujian menulis sendiri program diferensial/integral umum di ruang ujian, itu justru bisa dianggap sebagai bukti pemahaman konseptual yang lebih tinggi
- Ada pendapat bahwa jika peserta ujian hanya merujuk sedikit catatan yang jumlahnya sangat kecil dibanding parameter LLM, itu pun tetap tidak meyakinkan
Kutipan dari paper Salesforce bahwa "agen menunjukkan kemampuan menjaga rahasia yang nyaris mendekati nol" dianggap penting
Diberikan contoh bahwa ketika manusia membuat pesawat, kritiknya adalah “itu bukan burung”, dan ketika membuat kapal selam, kritiknya adalah “itu bukan ikan”, tetapi kemajuan tetap berjalan. Intinya adalah memilih apakah akan cepat mempelajari dan memanfaatkan potensi alat ini, atau tertinggal. Sebagai tip, dibanding terus mendengarkan klaim negatif tak berujung dari orang yang sama, “sikap mau belajar” dinilai jauh lebih membantu untuk beradaptasi dengan masa depan