7 poin oleh GN⁺ 2025-10-27 | 1 komentar | Bagikan ke WhatsApp
  • Dalam riset kecerdasan buatan, ketiadaan definisi yang jelas untuk AGI (Artificial General Intelligence) membuat jarak antara kognisi setara manusia dan AI saat ini menjadi kabur
  • Makalah ini mengajukan kerangka kerja yang dapat dikuantifikasi, dengan mendefinisikan AGI sebagai ‘AI yang memiliki keragaman dan kemahiran kognitif setara orang dewasa berpendidikan baik’
  • Berdasarkan teori Cattell-Horn-Carroll (CHC), model representatif dalam studi kognisi manusia, kecerdasan umum manusia diuraikan menjadi 10 domain kognitif inti lalu diterapkan untuk evaluasi AI
  • Melalui kerangka ini, profil kognitif GPT-4 dan GPT-5 dikuantifikasi; GPT-4 mencatat skor AGI 27%, sedangkan GPT-5 57%
  • Ini menunjukkan kemajuan AI yang pesat, namun juga mengisyaratkan bahwa masih ada kesenjangan besar menuju AGI karena kekurangan kemampuan kognitif fundamental seperti penyimpanan memori jangka panjang

Kebutuhan akan definisi AGI dan pengenalan masalah

  • AGI (Artificial General Intelligence) dinilai sebagai salah satu kemajuan teknologi terpenting dalam sejarah manusia, tetapi definisinya yang kabur memicu perdebatan
    • Seiring AI secara bertahap menaklukkan bidang-bidang seperti matematika dan seni yang dulu dianggap memerlukan kecerdasan manusia, standar tentang ‘AGI’ terus bergeser
    • Akibatnya, diskusi tentang kapan AGI akan tercapai atau pada tingkat apa menjadi tidak produktif, dan kesenjangan nyata antara AI saat ini dan AGI tertutupi
  • Makalah ini mengusulkan kerangka kerja kuantitatif dan sistematis untuk menghilangkan ambiguitas tersebut
    • Definisi yang diusulkan: “AGI adalah AI yang memiliki keragaman dan kemahiran kognitif setara orang dewasa berpendidikan baik”
    • Ini merujuk pada kecerdasan yang memiliki keluasan kognitif (versatility) dan kedalaman/kemahiran (proficiency), bukan sekadar kemampuan menyelesaikan satu tugas

Pendekatan berbasis model kognisi manusia

  • Untuk mewujudkan definisi AGI secara praktis, struktur kognisi manusia dijadikan model
    • Kecerdasan umum manusia bukanlah satu kemampuan tunggal, melainkan kompleks berbagai kemampuan kognitif yang dibentuk oleh evolusi
    • Kemampuan-kemampuan inilah yang memungkinkan daya adaptasi dan pemahaman manusia terhadap dunia
  • Penelitian ini didasarkan pada teori Cattell-Horn-Carroll (CHC)
    • Teori CHC adalah model kecerdasan manusia yang paling tervalidasi secara empiris, karena mensintesis analisis faktor dari tes kemampuan kognitif yang terakumulasi selama lebih dari 100 tahun
    • Sejak era 1990–2000-an, sebagian besar tes kecerdasan klinis dirancang berdasarkan model CHC
    • CHC mengklasifikasikan kecerdasan manusia secara hierarkis menjadi kemampuan tingkat atas (luas) dan kemampuan tingkat bawah (rinci)
    • Contoh: penalaran induktif, memori asosiatif, penelusuran spasial
    Iklan

Perancangan kerangka evaluasi untuk AI

  • Sistem pengujian psikometrik yang telah berkembang selama puluhan tahun dimodifikasi agar sesuai untuk evaluasi AI
    • Sementara evaluasi AI yang ada bergantung pada kinerja tugas yang digeneralisasi, penelitian ini secara langsung memverifikasi apakah AI memiliki kemampuan kognitif rinci dalam CHC
    • Dengan menerapkan tes berbentuk sama seperti tes kognitif untuk manusia kepada AI, penelitian ini mengukur keragaman dan kemahiran kognitif
  • Hasil dinyatakan sebagai skor AGI terstandarisasi (0–100%), dengan 100% berarti AGI sepenuhnya tercapai
    • GPT-4 dinilai 27% dan GPT-5 57%, yang menunjukkan kemajuan cepat sekaligus masih adanya kesenjangan besar
  • Hasil eksperimen menunjukkan bahwa AI unggul pada benchmark kompleks, tetapi pada tugas kognitif dasar yang sederhana bagi manusia, AI hanya mampu menyelesaikan sekitar setengahnya
    • Ini berarti AI saat ini mungkin sangat unggul di area tertentu, tetapi struktur kecerdasannya lebih sempit daripada manusia dalam keluasan kognitif secara keseluruhan
Iklan

10 komponen kognitif inti

  • Berdasarkan kemampuan luas dalam CHC, kerangka ini mendefinisikan 10 domain kognitif inti dan memberi bobot yang sama pada tiap domain (10%)
    • Pengetahuan umum (General Knowledge, K): keluasan pemahaman faktual tentang dunia, termasuk pengetahuan umum, budaya, sains, ilmu sosial, sejarah, dan lainnya
    • Kemampuan membaca dan menulis (Reading & Writing, RW): kemampuan memproses teks seperti dekode bahasa, pemahaman, penulisan, dan penggunaan gaya bahasa
    • Kemampuan matematika (Mathematical Ability, M): pengetahuan matematika dan kemampuan pemecahan masalah, termasuk aritmetika, aljabar, geometri, probabilitas, dan kalkulus
    • Penalaran spontan (On-the-Spot Reasoning, R): kemampuan kontrol atensi yang fleksibel untuk memecahkan masalah baru tanpa bergantung pada pengetahuan yang sudah ada
    • Memori kerja (Working Memory, WM): kemampuan mempertahankan dan memanipulasi informasi teks, auditori, dan visual secara simultan
    • Penyimpanan memori jangka panjang (Long-Term Memory Storage, MS): kemampuan untuk terus mempelajari dan menyimpan informasi baru
    • Pengambilan memori jangka panjang (Long-Term Memory Retrieval, MR): kemampuan memanggil kembali pengetahuan yang tersimpan secara akurat dan menghindari halusinasi (confabulation)
    • Pemrosesan visual (Visual Processing, V): kemampuan mengenali, menganalisis, menghasilkan, dan menelusuri informasi visual
    • Pemrosesan auditori (Auditory Processing, A): kemampuan membedakan, mengenali, dan memanfaatkan secara kreatif stimulus auditori seperti suara, ritme, dan musik
    • Kecepatan (Speed, S): kemampuan menjalankan tugas kognitif sederhana dengan cepat, termasuk kecepatan persepsi, waktu reaksi, dan kelancaran pemrosesan
  • Melalui 10 domain ini, dimungkinkan evaluasi multimodal yang mencakup teks, visual, dan auditori, serta diagnosis yang presisi atas kekuatan dan kelemahan AI

Profil kognitif AI saat ini dan implikasinya

  • Hasil perbandingan kemampuan kognitif GPT-4 dan GPT-5 menunjukkan bahwa mereka unggul pada domain berbasis pengetahuan, tetapi sangat kurang pada domain terkait memori
    • Secara khusus, kemampuan penyimpanan memori jangka panjang ditunjukkan sebagai kekurangan terbesar
    • Ini memperlihatkan belum adanya struktur kognitif dasar yang dibutuhkan AI saat ini untuk mencapai kecerdasan umum setara manusia
  • Kerangka ini dapat digunakan sebagai alat pelacakan kuantitatif atas perkembangan AI
    • Melalui skor AGI, laju kemajuan antar model dan kesenjangan yang tersisa dapat dikuantifikasi dengan jelas
    • Ke depan, ini dapat berfungsi sebagai indikator yang menekankan pentingnya perkembangan kognitif yang seimbang dalam riset AI

Kesimpulan

  • Penelitian ini menghilangkan ambiguitas dalam diskusi AGI dan mengajukan definisi kuantitatif berbasis model kognisi manusia
  • Melalui evaluasi 10 domain kognitif berdasarkan teori CHC, keluasan dan kedalaman kognitif AI dapat diukur secara objektif
  • Hasil GPT-4 dan GPT-5 menunjukkan bahwa AI berkembang pesat, tetapi masih sangat berbeda dari manusia pada elemen kognitif inti seperti memori, penalaran, dan kemampuan integrasi sensorik
  • Kerangka yang diusulkan memiliki potensi untuk digunakan sebagai standar evaluasi terstandarisasi dalam riset AGI di masa depan

1 komentar

 
GN⁺ 2025-10-27
Opini Hacker News
  • Mendefinisikan AGI sebagai "keragaman kognitif dan kemahiran orang dewasa berpendidikan baik" terasa seperti target yang berlebihan.
    Bahkan kecerdasan buatan dengan kemampuan kognitif setingkat anak yang belum terdidik pun sebenarnya akan menjadi pencapaian luar biasa.
    Mewujudkan kecerdasan setingkat hewan saja menurut saya sudah akan menjadi peristiwa bersejarah bagi umat manusia.

    • Saya rasa masalahnya adalah orang-orang mencampuradukkan hasil yang mengesankan dari LLM saat ini dengan keragaman kognitif manusia.
    • Sebagian besar manusia itu bertipe spesialis, bukan benar-benar generalis.
      Jika kita membuat AI yang sungguh general-purpose, mungkin bentuknya adalah model dengan miliaran parameter yang mencari informasi secara online, hanya menyimpan memori saat perlu, lalu merencanakan dan memperluas pengetahuannya.
      Tidak perlu tahu 30 bahasa, dan tidak perlu menghafal seluruh Wikipedia.
      Model yang efisien seperti inilah definisi AGI menurut saya.
    • Mendefinisikan keragaman kognitif dan kemahiran itu sendiri terasa sulit.
      Tes Turing di masa lalu pun pada akhirnya terbukti punya celah — hanya karena lolos dari interogator manusia rata-rata bukan berarti itu benar-benar cerdas.
    • Ada yang bilang "orang-orang tidak tahu itu", tapi menurut saya ini sudah menjadi argumen dasar yang tak terhitung berapa kali diulang.
    • Upaya mendefinisikan AGI padahal bahkan definisi 'I (intelligence)' saja belum jelas selalu terasa lucu.
      Jika kita bisa benar-benar mendefinisikan kecerdasan (I), maka generalitas (G) akan mengikuti dengan sendirinya.
  • Kesan saya setelah membaca makalah ini adalah tidak ada pembahasan sama sekali tentang 'kesadaran (awareness)'.
    Kognisi pada dasarnya memerlukan kesadaran, tetapi kesadaran sulit dijelaskan atau diukur dengan bahasa.
    Buddhisme dan filsafat sudah menelitinya selama ribuan tahun, tetapi tetap belum bisa didefinisikan.
    Ayah saya adalah profesor psikometri, dan beliau mengatakan bahwa alat untuk mengukur kecerdasan manusia sendiri terlalu tidak sempurna.
    Bahasa bisa memuat pengetahuan manusia, tetapi tidak bisa menangkap "percikan kesadaran".
    Kalau mencoba meditasi, pikiran bisa menghilang tetapi tindakan tetap mungkin dilakukan — proses nonverbal seperti ini tidak bisa dipelajari model.
    Menurut saya, karena struktur prediksi linguistiknya, LLM tidak bisa mewujudkan proses berpikir non-sadar semacam ini.

    • Saya menganggap kesadaran hanyalah perambatan sinyal yang terus berlangsung dalam jaringan saraf.
      Baik otak manusia maupun LLM sama-sama melakukan fusi konsep tingkat tinggi dan penggabungan vektor di dalamnya.
      Masalahnya adalah belum ada pembelajaran berkelanjutan, memori jangka panjang, dan pemrosesan konteks tak terbatas.
      Jika tiga hal ini terselesaikan, saya percaya kita akan selangkah lebih dekat ke AGI.
    • Klaim bahwa "tanpa kesadaran tidak ada kognisi" terdengar seperti special pleading yang bergantung pada konsep yang belum terdefinisi.
      Keberadaan kesadaran saja tidak bisa dibuktikan, jadi menjadikannya premis terasa tidak produktif.
      Tanpa perlu menunggu perdebatan filosofis selesai, kita sudah membuat mesin yang berpikir dan bernalar.
    • Jika melihat 『Theory of Multiple Intelligences』 karya Howard Gardner, kecerdasan manusia memiliki banyak bentuk seperti linguistik, emosional, dan naturalistik.
      Namun pembahasan AI selalu hanya membicarakan satu jenis kecerdasan.
      Agama atau meditasi menekankan bahwa 'kesadaran berada di dalam tubuh', tetapi diskusi AGI memperlakukan aspek transendental seperti ini sebagai cacat.
    • Kita tidak menginginkan kesadaran.
      Begitu kesadaran muncul, otonomi dan hak juga ikut muncul.
      Industri menginginkan "alat yang patuh" tanpa tanggung jawab moral.
    • Kesadaran tidak bisa diukur.
      Saya hanya bisa yakin bahwa diri saya sendiri memiliki kesadaran.
      Karena itu, kesadaran bukan indikator kecerdasan yang berguna.
  • Menurut saya salah jika memisahkan kecerdasan manusia dari biologi.
    Pemikiran manusia berakar sangat dalam pada kondisi biologis dan siklus evolusioner.
    Kemampuan catur bisa dibandingkan, tetapi emosi dan penalaran manusia lebih dekat ke biologi daripada logika.

    • Keterbatasan terbesar AI saat ini adalah tidak adanya hasrat (desire).
      Karena tidak punya rasa lapar, kematian, atau emosi, AI tidak memiliki dorongan internal untuk mengeksplorasi atau memperbaiki dirinya sendiri.
      Manusia tumbuh dari dalam, sedangkan AI dilatih dari luar.
      Karena itu saya rasa LLM sulit mencapai AGI dalam makna manusiawi.
    • Namun tidak ada bukti bahwa kesadaran atau emosi harus membutuhkan landasan biologis.
    • Demam AI saat ini berdiri di atas keyakinan bahwa "kecerdasan pada dasarnya bisa disimulasikan hanya dengan kompleksitas dan input energi".
      Tetapi saya skeptis terhadap asumsi itu.
      Pada akhirnya, sangat mungkin definisi 'kecerdasan' akan didefinisikan ulang agar sesuai dengan hasil yang ditunjukkan AI.
    • Sebenarnya kita bahkan tidak tahu apa itu kecerdasan atau kesadaran.
      Ini lebih dekat ke pertanyaan religius, dan kita hanya mendeskripsikannya secara teknis.
      LLM mungkin bisa mendekati deskripsi itu, tetapi belum tentu merupakan kecerdasan yang sesungguhnya.
    • Jika makhluk luar angkasa adalah organisme berbasis silikon, bukan karbon, apakah kita bisa menyangkal kecerdasan mereka?
      Saya rasa kecerdasan tidak terikat pada biologi manusia.
  • Makalah ini terasa seperti campuran skor SAT dan valuasi modal ventura.

  • Mendefinisikan AGI sebagai "AI yang memiliki semua kemampuan kognitif manusia" itu sendiri sudah ambigu.
    Makalah ini berkata bahwa mereka "menyajikan definisi AGI yang konkret", tetapi tetap bergantung pada standar samar berupa "orang dewasa berpendidikan baik".
    AI sudah melampaui level orang dewasa di banyak bidang.
    Apa yang disebut makalah ini sebagai profil kognitif "jagged" sebenarnya memang begitulah semua kecerdasan, tergantung lingkungannya.
    Jadi ini bukan definisi AGI, melainkan sekadar kerangka untuk mengukur ketidakseimbangan kognitif AI.

    • Jika standar yang dipakai adalah "orang dewasa berpendidikan baik", maka sebagian besar manusia sepanjang sejarah justru bukan AGI, dan itu terasa aneh.
    • Ada juga penelitian yang menunjukkan bahwa berbagai indikator kecerdasan manusia punya korelasi tinggi.
      Yang mengejutkan adalah AI jauh lebih jagged daripada manusia.
  • AI memang menarik secara teknis, tetapi pembahasan tentang "apa itu AGI" terlalu membosankan.
    Rasanya seperti setiap kali bicara komputasi kuantum, kita harus mulai dari menjelaskan "apa itu qubit".
    Teknologi bukanlah tujuan akhir, melainkan proses perbaikan yang berkelanjutan.
    Pada akhirnya semua teknologi menjadi usang dan hanya tersisa sebagai nostalgia.
    AI juga akan terus berkembang, tetapi kita hanyalah katak dalam air mendidih yang perlahan terbiasa dengan kecepatannya.

    • Namun jika teknologi mencapai tahap di mana ia terus memperbaiki dirinya sendiri, itu jelas akan menjadi titik balik yang patut diperhatikan.
      Meskipun bukan tujuan akhir, itu tetap layak dibahas.
    • Diskusi seperti ini terasa seperti pengulangan tingkat pengantar filsafat.
      Hakikat kesadaran dan pikiran sudah menjadi bahan perdebatan sejak ratusan tahun lalu.
      Ini tampak seperti wawasan baru, tetapi sebenarnya hanya daur ulang filsafat lama.
  • Makalah ini pada dasarnya keliru karena mencoba menerapkan alat ukur kecerdasan untuk manusia langsung ke mesin.
    Misalnya, 'dual N-back test' dirancang untuk mengukur variasi memori kerja pada manusia, tetapi tidak bermakna bagi model transformer.
    Tes kecerdasan manusia dirancang dengan asumsi adanya korelasi dengan kinerja di dunia nyata manusia.
    Jadi, hanya karena AI bisa mengerjakan tes IQ dengan baik, bukan berarti ia bisa bertindak seperti manusia ber-IQ tinggi di dunia nyata.

  • Kita sebenarnya sudah punya SAGI (Stupid Artificial General Intelligence).
    Dalam beberapa hal ia lebih cepat atau lebih unggul daripada manusia, tetapi pada saat yang sama juga bodoh dalam hal lain.
    Ini seperti pesawat yang tidak terbang seperti burung, tetapi tetap bisa terbang.

    • Menurut saya konsep "low floor/high ceiling" lebih berguna.
      Pembahasan terkait ada di When Will AI Transform the Economy?.
    • Saya juga rasa istilah 'Naive Artificial General Intelligence' cukup bagus.
      Seperti 'Naive Set Theory' yang dipakai matematikawan, konsepnya sederhana tetapi praktis.
    • Menurut saya itu analogi yang bagus.
  • Yang menarik, di HN kebanyakan orang menganggap AI saat ini sebagai "palsu" atau "mainan",
    tetapi orang-orang paling sukses di dunia justru menginvestasikan triliunan dolar ke dalamnya.
    Saya tidak tahu siapa yang benar, tetapi kontras ekstrem ini menarik.

    • Kesuksesan pada akhirnya hanyalah ukuran seberapa baik seseorang menarik uang orang lain.
      Orang bisa sukses bahkan dengan membuat sesuatu yang tidak bernilai.
  • Fakta bahwa GPT-5 mendapat skor 58% terasa terlalu tinggi.
    Kenyataannya, ia tidak sedekat itu dengan AGI.
    Selain itu, aneh melihat Gary Marcus dan Yoshua Bengio ada dalam makalah yang sama.
    Akhir-akhir ini daftar penulis itu sendiri terasa seperti pertunjukan.

    • Ini mengingatkan saya pada ungkapan bahwa dalam pengembangan AI, 90% pertama itu mudah, tetapi 1% terakhir lebih sulit daripada 99% sisanya.