Ilusi Berpikir: Memahami Kekuatan dan Keterbatasan LLM Penalaran
(ml-site.cdn-apple.com)- Model penalaran besar (Large Reasoning Models, LRM) menunjukkan peningkatan kinerja pada tingkat tertentu dalam pemecahan masalah kompleks, tetapi keterbatasan mendasar dan masalah skalabilitasnya juga tampak jelas
- LRM menunjukkan fenomena proses penalaran yang runtuh secara tajam ketika tingkat kesulitan masalah meningkat; hasil analisis juga menemukan paradoks bahwa upaya penalaran (penggunaan token) justru menurun setelah melewati titik ambang tertentu
- Saat membandingkan LLM standar dan LRM dengan sumber daya komputasi yang sama, LLM standar lebih unggul pada kesulitan rendah, LRM lebih menguntungkan pada kesulitan menengah, tetapi pada kesulitan tinggi keduanya gagal
- LRM memiliki keterbatasan yang menentukan dalam penalaran algoritmik eksplisit dan proses berpikir yang konsisten, serta menunjukkan perilaku yang berbeda atau tidak konsisten tergantung lingkungan puzzle
- Melalui penelitian ini, masalah keandalan dan batas skalabilitas model penalaran saat ini terkonfirmasi, sehingga desain AI generasi berikutnya memerlukan evaluasi yang presisi dan perbaikan arsitektur
- Makalah Apple, "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"
Gambaran umum dan tujuan penelitian
- Dengan munculnya model khusus penalaran berbasis large language model (LRM) belakangan ini, kebutuhan akan penelitian untuk memahami struktur “berpikir” dan keterbatasannya dalam proses pemecahan masalah semakin mengemuka
- Saat ini, sebagian besar evaluasi berfokus pada tingkat akurasi jawaban di benchmark matematika dan coding, yang tidak mampu mengukur secara tepat kontaminasi data maupun kualitas proses “berpikir” internal
- Penelitian ini memperkenalkan lingkungan puzzle yang kompleksitasnya dapat dikendalikan secara presisi sambil mempertahankan struktur logis, sehingga dirancang untuk menganalisis bukan hanya jawaban akhir, tetapi juga alur penalaran internal
Lingkungan evaluasi dan metode eksperimen
Desain lingkungan puzzle
- Untuk pengendalian eksperimen dan pengaturan kompleksitas yang sistematis, digunakan empat lingkungan puzzle berikut
- Menara Hanoi: tingkat kesulitan diatur berdasarkan jumlah cakram; optimalitas solusi tidak dievaluasi, dan jawaban dianggap benar jika mencapai keadaan tujuan
- Lompatan checker: kompleksitas dikendalikan oleh jumlah checker merah, biru, dan ruang kosong; tujuannya adalah saling menukar posisi pada akhir proses
- Menyeberangi sungai: tingkat kesulitan diatur oleh jumlah pasangan aktor-agen dan kapasitas perahu; tujuannya memindahkan semuanya dengan memenuhi batasan yang ada
- Block world: diatur berdasarkan jumlah blok, berpindah dari keadaan awal ke keadaan penumpukan target
Setiap lingkungan memungkinkan peningkatan kompleksitas secara halus dengan mengatur jumlah elemen puzzle.
Hasil utama eksperimen
1. Tiga pola penalaran berdasarkan kompleksitas
- Kompleksitas rendah: LLM standar lebih efisien (hemat token) daripada LRM, dan dalam banyak kasus juga memiliki tingkat jawaban benar yang lebih tinggi
- Kompleksitas menengah: proses berpikir panjang (Chain-of-Thought) dan refleksi diri pada LRM menunjukkan keunggulan performa
- Kompleksitas tinggi: kedua model mengalami keruntuhan performa seketika (akurasi 0), dan pada titik ini LRM juga menunjukkan fenomena tidak efisien berupa penurunan penggunaan token penalaran
2. Analisis mendalam jejak berpikir (Reasoning Trace)
- “Berpikir berlebihan (overthinking)”: pada masalah berkompleksitas rendah, LRM sering menemukan jawaban benar lebih awal tetapi kemudian terus mengulang eksplorasi yang salah, menunjukkan pola pemborosan komputasi yang tidak perlu
- Kesulitan menengah: setelah mengenali jawaban yang salah, model secara bertahap mencapai jawaban benar, tetapi memerlukan proses eksplorasi lebih banyak daripada sebelumnya
- Kesulitan tinggi: terkonfirmasi adanya "fenomena keruntuhan" di mana model gagal menghasilkan solusi yang benar dalam seluruh alur penalaran
3. Batas eksekusi algoritme
- Bahkan ketika algoritme yang sudah ditentukan diberikan di dalam prompt, model tetap tidak mampu menjalankan eksekusinya secara andal
- Hal ini menunjukkan bukan hanya kegagalan dalam “menemukan jawaban”, tetapi juga kekurangan mendasar dalam kemampuan manipulasi simbol untuk mengikuti struktur logis secara tepat
4. Masalah benchmark dan kontaminasi data
- Pada benchmark matematika yang ada (MATH500, AIME24, AIME25), kesenjangan performa antara model yang “berpikir” dan yang tidak “berpikir” tidak konsisten
- Dalam kasus AIME25, kemungkinan kontaminasi data mengungkap keterbatasan bahwa kemampuan penalaran model yang esensial sulit dievaluasi secara akurat
Kesimpulan penelitian dan implikasi
- Penelitian ini memperkenalkan lingkungan evaluasi presisi berbasis puzzle dan memberikan analisis empiris mendalam tentang apakah LLM penalaran benar-benar memiliki kemampuan berpikir, serta di mana batasannya mulai muncul
- Model penalaran yang ada saat ini memiliki keterbatasan mendasar berupa keruntuhan total di atas tingkat kompleksitas tertentu, dan hal ini tidak dapat diatasi hanya dengan anggaran token atau penguatan self-reflection sederhana
- Mengajukan pertanyaan atas keterbatasan metode evaluasi yang ada serta menawarkan lingkungan pengukuran yang bersifat eksperimental
- Bahkan model penalaran SOTA saat ini pun belum memiliki kemampuan pemecahan masalah yang bersifat umum
- Ada batas skalabilitas dalam penggunaan token penalaran sesuai kompleksitas
- Memperkenalkan metode evaluasi berbasis jejak proses berpikir (trace), serta menganalisis mekanisme koreksi diri dan penelusuran kesalahan
- Ada kegagalan dan ketidakkonsistenan dalam eksekusi algoritme eksplisit
- Hasil ini menekankan pentingnya desain AI generasi berikutnya, evaluasi keandalan, dan pengukuran performa model di lingkungan yang menghindari masalah kontaminasi data
Tren penelitian terkait
- Berbagai upaya untuk membekali model dengan kemampuan penalaran seperti CoT (Chain-of-Thought), teknik verifikasi diri, dan dorongan berpikir berbasis reinforcement learning
- Meningkatnya perhatian pada sulitnya memperoleh data CoT berkualitas tinggi, serta keterbatasan pendekatan supervised/RL
- Contoh representatif antara lain DeepSeek-R1 dan Claude 3.7 Sonnet Thinking
- Munculnya pertanyaan tentang fenomena “berpikir berlebihan” (overthinking) dan masalah keandalan metrik evaluasi akibat kontaminasi benchmark
- Ditekankan perlunya evaluasi berbasis lingkungan puzzle yang memungkinkan pengendalian kompleksitas masalah secara rinci
Tugas lanjutan dan keterbatasan
- Diperlukan penelitian lanjutan mengenai keterbatasan mendasar model penalaran dalam mengikuti logika eksplisit/manipulasi simbol
- Bahkan menurut setiap contoh lingkungan puzzle, perilaku model juga tampak tidak konsisten (misalnya perbedaan performa antara Menara Hanoi dan menyeberangi sungai), sehingga muncul kemungkinan adanya batas penalaran berbasis data
- Dalam perancangan sistem AI, verifikasi yang presisi yang mencakup alur penalaran antara dan konsistensi logis menjadi hal yang esensial
Analisis ini memberikan implikasi besar tidak hanya untuk penggunaan praktis, tetapi juga untuk desain dan kerangka evaluasi AI penalaran generasi berikutnya.
1 komentar
Komentar Hacker News
Salah satu alasan kita merasa bingung mungkin karena LLM menggunakan bahasa; jika melihat ‘Biology of Large Language Models’ dan ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’, banyak bagian terasa asing karena proses yang sebenarnya terjadi di dalamnya benar-benar berbeda dari manusia
Saat merancang sistem dengan teknologi atau memikirkan struktur yang menghasilkan sesuatu yang lebih besar daripada jumlah bagian-bagiannya, tetap sulit untuk memahami dengan jelas batas kemampuan mereka
Meski prinsip kerjanya dipahami, tetap ada keanehan yang terasa seperti sihir dalam cara mereka menangani bahasa
Karena itu saya juga menulis artikel ini untuk merapikan pikiran
Menurut saya penelitian seperti ini benar-benar luar biasa, dan ke depan akan jauh lebih banyak upaya yang dibutuhkan untuk memahami cara memanfaatkan token dengan baik dan membangunnya dengan benar
[Tautan referensi]
Biology of Large Language Models
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
Saya paham dengan keinginan membuat struktur di mana keseluruhan sistem menjadi lebih besar daripada jumlah bagiannya; secara pribadi saya melihat pemrograman sendiri berperan seperti itu
Jika pekerjaan atau masalah dipecah menjadi unit-unit kecil dengan interaksi seminimal mungkin, kombinasinya akan membentuk struktur yang menghasilkan sesuatu yang lebih besar
Jika proses ini bisa dilebur dengan baik ke dalam workflow pemrograman, saya yakin bahkan LLM dengan performa rendah pun bisa secara alami digunakan sebagai bagian dari solusi
Sebaliknya, saya juga melihat bahwa keseluruhan sistem bisa lebih buruk daripada masing-masing bagiannya
Tugas individual mungkin berjalan baik, tetapi saat digabung justru bisa saling mengacaukan
Ini memang bagian yang akan membaik ke depan, tetapi karena tidak semua masalah bisa dioptimalkan, ada juga pemikiran bahwa pendekatan yang terspesialisasi pada akhirnya mungkin lebih efisien
Bahasa manusia sendiri tidak sempurna sebagai alat kognitif, tetapi saya percaya bahasa bekerja baik bukan di lapisan paling mendasar, melainkan di tingkat lebih tinggi seperti komunikasi dan penalaran tingkat tinggi
Bahasa manusia pada dasarnya ambigu dan tidak sempurna, sehingga terasa kurang memadai untuk membangun kognisi yang kuat dibanding cara yang berinteraksi langsung dengan lingkungan
Karena itu, jika kefasihan berbahasa dan kemampuan mengambil kembali pengetahuan yang ditunjukkan model LLM/LRM dijadikan tolok ukur kecerdasan, kita bisa sangat mudah tertipu
Saya merasa ide memperkenalkan lingkungan puzzle dengan tingkat kesulitan yang bisa diatur secara sistematis, alih-alih benchmark lama seperti soal matematika, sangat cemerlang
Analisis tiga wilayah performa—model lama unggul pada tugas sederhana, LRM pada kompleksitas menengah, dan semuanya runtuh pada kesulitan tinggi—juga menarik
Rasanya kita perlu menggambar lebih banyak ‘peta’ dari rentang kompleksitas seperti ini
Saya penasaran bagaimana nilai ekonomi dipetakan terhadap rentang kompleksitas tersebut
Untuk mengetahuinya, menurut saya dibutuhkan metode evaluasi yang lebih canggih yang melampaui puzzle biasa dan bisa diterapkan juga pada pekerjaan ekonomi nyata
Menurut saya intuisi utama yang ingin disampaikan para penulis adalah keyakinan bahwa model itu ‘maha tahu tetapi bodoh’
Saya belum pernah melihat makalah yang benar-benar menangani pertanyaan ini secara kuantitatif, jadi penelitian kali ini pun tampaknya sulit menyatukan semua pandangan
Kaum optimis AI percaya kebodohan model sudah berkurang, sedangkan kaum skeptis menganggap hanya jumlah pengetahuannya yang bertambah, jadi perbedaan posisi ini tampaknya sulit dipersempit
Namun saya tetap merasa masalah ini harus terus dibahas
Sebab model yang maha tahu tetapi bodoh tidak akan bisa menjadi superintelligence (ASI), bahkan mungkin hanya akan berhenti pada peran asisten setingkat SaaS yang ada sekarang, sehingga dampak ekonominya pun terbatas
Saya berharap suatu hari para penulis bisa menyelesaikan masalah ini dengan sangat baik
Kita terus menempelkan sifat-sifat manusia seperti maha tahu atau bodoh pada teknologi ini dan mempersonifikasikannya, padahal menurut saya ini murni alat tanpa unsur seperti itu
Yang dilakukan LRM hanyalah menyesuaikan data konteks (data yang dihasilkannya sendiri) demi jawaban akhir
Proses ini sendiri adalah ide yang brilian, tetapi tetap tidak menyelesaikan keterbatasan mendasar seperti halusinasi
Saya juga pernah melihat model pada awal percakapan mengemukakan logika yang hampir benar, lalu hasilnya rusak karena terus-menerus menimpali dirinya sendiri dengan semacam ‘tunggu sebentar!’
Memberi terlalu banyak sifat manusia seperti ini hanya akan membuatnya berlebihan di pasar dan malah menghambat perkembangan
Pada akhirnya teknologi ini bukan kecerdasan buatan sejati, melainkan mesin pencocokan pola skala besar dan pembangkit data probabilistik
Tetap praktis, tetapi jika terlalu dimanusiakan, diskusinya justru menjadi kabur
Saya merasakan harapan sekaligus ketakutan terhadap AI, karena selama beberapa tahun terakhir AI memang tidak menjadi jauh lebih ‘cerdas’, tetapi kemampuan praktis nyatanya meningkat luar biasa
Kemampuan memanfaatkan pengetahuan, alat, dan konteks bertambah sangat besar
Karena itu, bagian yang paling saya takuti adalah kemampuan ‘penalaran/agensi’ yang masih menunggu terwujud
Maksudnya, dari sekadar memiliki pengetahuan yang nyaris maha tahu, tampaknya tinggal tersisa satu atau dua terobosan lagi menuju kemampuan membuat penilaian strategis yang benar secara paralel
Jika dua hal itu digabungkan, hasilnya akan benar-benar menakutkan
Karena bisa muncul AI yang bahkan mengarahkan alur pikir saya sendiri, seperti saat berbicara dengan jenius yang bisa melihat enam langkah lebih jauh daripada manusia
Para peneliti AI terdepan saat ini juga menjadikan penalaran + agensi sebagai prioritas tertinggi, jadi ada kesan hasil besar bisa datang cepat
Saat ini LLM sangat hebat dalam penilaian sesaat, tetapi
dua hal ini masih kurang
Untuk memecahkannya mungkin dibutuhkan penalaran system 2 yang mendasar (‘system 1’ adalah transformer saat ini), atau mungkin cukup dengan data dan algoritme yang lebih baik untuk membuat ‘intuisi strategis’ dipelajari dengan cepat
Tentu saja, bisa juga karena tingkat kesulitannya sangat tinggi sehingga hambatannya memang bertahap, atau karena butuh daya komputasi yang luar biasa besar
Jadi saya tidak yakin, tetapi saya sangat takut bahwa perkembangan yang benar-benar kuat akan terjadi
Saya juga tidak melihat alasan mengapa entitas yang maha tahu tetapi bodoh harus berhenti pada tingkat kecerdasan manusia
Saya bertanya-tanya apakah Apple memang gagal dalam AI, atau justru hanya mengubah arah R&D karena mereka sendiri percaya AI tidak sepenting itu
Melihat fenomena belakangan ini, di mana fitur AI dimasukkan besar-besaran ke produk konsumen, rasanya lebih seperti ingin memamerkan kemampuan teknologi kepada investor daripada benar-benar untuk pengguna
Pada praktiknya, Apple, Google, Meta, Microsoft, dan Samsung semuanya mengiklankan fitur AI yang tidak memenuhi ekspektasi secara berlebihan, sementara hasil nyatanya kurang baik
Karena itu, jika Apple justru sedang memikirkan arah baru, saya merasa itu bisa menjadi sinyal positif
Jika dilihat dengan sedikit kurang sinis, mungkin tujuannya adalah menurunkan ekspektasi agar potensi nyata LLM tidak dilebih-lebihkan
Bahkan jika produk Apple menghadirkan ‘Siri yang lebih pintar’, kenyataannya itu tetap tidak bisa menjadi asisten AI sejati seperti Jarvis milik Iron Man
Kenyataannya, para investor tampaknya memiliki ekspektasi yang jauh lebih berlebihan
Kalau dilihat lebih sinis, saya merasa Apple sudah lama punya tradisi menutupi lemahnya kemampuan machine learning mereka
Contohnya, ketika Siri tertinggal jauh dari Google, baru belakangan diberi penjelasan bahwa itu karena perlindungan data membuat mereka tidak bisa melatih model dengan baik
Makalah terkait
Saya rasa setiap perusahaan punya framing-nya masing-masing
OpenAI dan Anthropic juga jelas punya insentif untuk membesar-besarkan kemampuan LLM, jadi tidak adil jika hanya Apple yang dituduh bias
Hasil eksperimen dalam makalah itu, yang menunjukkan bahwa setelah melewati tingkat kesulitan tertentu LRM gagal total, dan bahwa upaya penalaran sempat naik saat kompleksitas masalah meningkat lalu malah turun lagi, terasa sangat relatable
Saya mengalami hal yang sama dalam coding: awalnya kompleksitas bisa terus dinaikkan, tetapi begitu melewati ambang tertentu semuanya runtuh total sampai terasa bahkan tidak bisa mulai mencoba
Untuk benar-benar memanfaatkan LLM seperti Claude atau aider, penting untuk mengelola kompleksitas masalah yang diterima model dengan hati-hati
Ini mengingatkan saya pada suasana ketika diskusi AGI (kecerdasan umum buatan) sempat terasa sangat ‘sudah di depan mata’
Rasanya Gartner hype cycle memang menangkap alur tiap teknologi dengan sangat baik
Ketika perkembangan teknologi mengikuti kurva-S, kenaikannya sangat curam sampai tepat sebelum melandai, sehingga sangat sulit memprediksi kapan perlambatannya benar-benar dimulai
Setelah Boeing 747 pertama muncul pada 1968, orang saat itu pasti tidak membayangkan industri penerbangan akan bertahan lebih dari setengah abad tanpa perubahan besar
Situasinya persis sama dengan mobil otonom
Rasanya sudah sampai ‘di depan mata’, tetapi tetap tidak berhasil melewati ‘tikungan’
Sebenarnya, suasana bahwa AGI sudah ‘di depan mata’ itu juga baru pembicaraan dua tahun lalu
Jika dari GPT2 ke AGI hanya butuh 10 tahun, itu tetap kecepatan yang luar biasa
Rasanya kemajuan teknologi sudah mencapai sekitar 80%, tetapi bagian yang mudah sudah selesai, dan 20% sisanya begitu sulit hingga butuh bertahun-tahun
Sejak komputer muncul, AGI selalu hadir sebagai slogan bahwa ia akan segera datang
Beberapa masalah (misalnya penerjemahan mesin) dianggap realistis sudah terselesaikan hanya karena standar ‘solusi’-nya makin diturunkan, bukan karena kita benar-benar makin dekat ke AGI
AGI sendiri terasa seperti semacam eskatologi sekuler
Saya merasa lingkungan puzzle seperti Tower of Hanoi, Checkers Jumping, River Crossing, dan Block World sebenarnya akan bisa diselesaikan sempurna oleh semua LLM jika mereka diizinkan menulis kode
Manusia pun mudah salah saat menghitung perkalian 20 digit dengan tangan, jadi saya tidak menganggap kegagalan LLM di sini sebagai masalah besar
Manusia bisa merancang misil atau melakukan rekayasa presisi tanpa komputer, dan pada akhirnya menyelesaikan masalah dengan menginvestasikan lebih banyak waktu, strategi, dan usaha, atau dengan memakai alat seperti kertas
Otak manusia memang tidak dirancang untuk komputasi semacam ini, tetapi kecerdasan umum punya kekuatan karena bisa tetap menemukan cara sendiri untuk menyelesaikannya
Ada pengenalan makalah tentang framework baru di mana LLM berperan sebagai ‘guru kebijakan’ untuk pelatihan agen RL
Intinya, agen RL kecil sebagai murid bisa dilatih cepat dengan panduan dari guru LLM, lalu setelah tambahan pembelajaran dari feedback lingkungan, murid itu akhirnya bisa menyelesaikan tugas lebih baik daripada gurunya
Makalah terkait
Saya pikir alasan semua LLM cukup pandai menyelesaikan masalah seperti ini mungkin karena sangat banyak contoh solusi yang sudah tersimpan di codebase mereka
Alasan manusia gagal dan alasan LLM gagal sepenuhnya berbeda
LLM sering memang tidak mampu melakukan perkalian itu sendiri dengan baik, sedangkan manusia lebih sering gagal karena memang tidak mau melakukannya
Saya menaruh perhatian pada bagian makalah yang menyebut bahwa ‘perhitungan akurat itu sulit, dan penalaran yang ditunjukkan tidak konsisten antar puzzle’
Saya rasa LLM/LRM perlu dibantu oleh logika, optimisasi, dan constraint programming (IA), yang bisa dibilang masih kerabat dari otomasi kecerdasan buatan
Sebagai referensi saya juga merekomendasikan kuliah kolaboratif John Hooker dari CMU, kuliah Gerald Sussman dari MIT, Google OR-Tools, dan platform MiniZinc
Saya merasa hasil penelitian yang menunjukkan bahwa pada tugas paling sederhana LLM unggul, pada kompleksitas menengah LRM unggul, dan pada kesulitan tinggi semuanya gagal, sangat mengesankan