10 poin oleh GN⁺ 2025-12-23 | 2 komentar | Bagikan ke WhatsApp
  • Metrik baru diusulkan untuk mengukur performa berdasarkan ‘panjang’ tugas yang dapat diselesaikan model AI secara penuh
  • Analisis menunjukkan bahwa selama 6 tahun terakhir, panjang tugas yang dapat dituntaskan AI secara otonom meningkat dua kali lipat setiap sekitar 7 bulan
  • Tugas yang dapat diselesaikan pakar manusia dalam waktu 4 menit hampir selalu berhasil, tetapi tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
  • Jika tren ini berlanjut, diperkirakan dalam beberapa tahun AI akan dapat menjalankan proyek berdurasi beberapa minggu secara mandiri
  • Studi ini memiliki implikasi penting untuk benchmark AI, prediksi kemampuan masa depan, dan manajemen risiko

Gambaran penelitian

  • METR mengajukan metode baru untuk mengukur seberapa panjang tugas yang dapat diselesaikan AI
    • Dasar pengukurannya adalah waktu yang dibutuhkan pakar manusia untuk menyelesaikan tugas tersebut
    • Hubungan antara probabilitas keberhasilan model dan waktu kerja manusia dimodelkan dengan kurva logistik
  • Pendekatan ini diajukan sebagai metrik yang berguna untuk menilai kemungkinan pemanfaatan AI di dunia nyata
    • Melengkapi keterbatasan benchmark lama yang terlalu berfokus pada kemampuan menyelesaikan satu masalah

Hasil utama

  • Batas performa model saat ini
    • Tugas yang dikerjakan manusia dalam waktu 4 menit hampir 100% berhasil
    • Tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
    • Contoh: Claude 3.7 Sonnet mencapai tingkat keberhasilan 50% pada tugas berdurasi sekitar 1 jam
  • Tren peningkatan performa
    • Selama 6 tahun terakhir, panjang tugas yang dapat diselesaikan dengan tingkat kepercayaan 50% meningkat dua kali lipat setiap sekitar 7 bulan
    • Hasil analisis skala log menunjukkan pertumbuhan eksponensial yang berkelanjutan
    • Jika tren berlanjut, ada kemungkinan mengerjakan tugas berdurasi mingguan dalam 2~4 tahun
    Iklan

Metodologi dan verifikasi

  • Verifikasi berbasis dataset
    • Waktu penyelesaian manusia dicatat untuk beragam kelompok tugas (perangkat lunak, penalaran, dll.)
    • Peningkatan eksponensial serupa juga dikonfirmasi pada dataset SWE-Bench Verified
    • Pada dataset tersebut, diamati laju pelipatan dua kurang dari 3 bulan
  • Analisis sensitivitas
    • Ketahanan terhadap berbagai faktor seperti pemilihan model·tugas dan noise telah diuji
    • Dalam simulasi yang memprediksi kapan tugas berdurasi 1 bulan dapat dikerjakan, tren tetap bertahan meski kesalahan pengukuran besar

Interpretasi dan keterbatasan

  • Menjelaskan kesenjangan antara hasil benchmark AI dan kegunaan nyata
    • Pada soal ujian dan sejenisnya, AI dapat melampaui manusia, tetapi masih lemah dalam menjalankan proyek nyata jangka panjang
    Iklan
  • Mengakui ketidakpastian dalam ekstrapolasi tren
    • Jika hanya menggunakan data 2024~2025, waktu pencapaian tugas berdurasi bulanan maju sekitar 2,5 tahun lebih cepat
    • Disebutkan bahwa tren terbaru mungkin lebih baik dalam memprediksi performa masa depan dibanding data lama

Kesimpulan dan makna

  • Pendekatan mengukur performa AI dengan ‘panjang tugas’
    • Memungkinkan kuantifikasi peningkatan performa di berbagai tingkat kesulitan dan domain
    • Memungkinkan interpretasi capaian absolut yang terhubung langsung dengan dampak di dunia nyata
  • Jika pertumbuhan eksponensial yang berkelanjutan terus berlangsung,
    • Dalam kurang dari 10 tahun, proyek otonom berdurasi bulanan diperkirakan menjadi mungkin
    • Ini sekaligus membawa potensi manfaat dan risiko yang sangat besar
  • Data penelitian dan kode analisis dibuka di GitHub, untuk mendorong riset lanjutan dan eksperimen replikasi

2 komentar

 
crawler 2025-12-23

Sepertinya benchmark yang sangat bagus.
Kalau melihat tool coding AI belakangan ini, banyak yang membuat plan terlebih dahulu lalu bertindak dalam mode agent, jadi saya juga penasaran apakah ini benar-benar berdampak signifikan pada tingkat keberhasilan jangka panjang.

 
GN⁺ 2025-12-23
Komentar Hacker News
  • Baru-baru ini, di proyek hobi saya, saya cuma meminta “tambahkan vector search”, lalu Opus menyiapkan manticore, mengambil model embedding, membuat alat untuk memigrasikan indeks kata kunci yang sudah ada, sampai menata frontend
    Prompt-nya cuma satu baris seperti tweet, tapi selesai dalam 15 menit, dan selama itu saya sedang main Kirby Air Riders
    Tapi yang disayangkan dari proses ini adalah saya sama sekali tidak belajar apa pun tentang membangun vector search. Pada akhirnya yang saya inginkan memang fiturnya, dan belajar hanyalah hal sekunder
    • Saya tidak merasa sengaja membuatnya dengan cara yang lebih lama itu merupakan metode belajar yang lebih efektif
      Daripada menghabiskan 4 jam membuatnya sendiri, jauh lebih efisien jika agen menyelesaikannya dalam 15 menit sementara saya mengerjakan hal lain, lalu setelahnya saya meluangkan sekitar 30 menit untuk membaca dan mengubah kode sambil bertanya
      30 menit belajar yang terfokus mungkin bisa lebih baik daripada 4 jam trial and error
    • Tapi kalau begitu, pada akhirnya yang muncul adalah segumpal kode raksasa yang mustahil dipelihara
      AI juga pada titik tertentu kehilangan struktur kodenya, dan akhirnya kita jadi pelanggan yang bergantung pada Opus
    • Opus maupun Anthropic memang jelas berada di level teratas, tapi setiap kali memakainya rasanya seperti fast food intelektual
      Dulu saya menikmati proses memecahkan masalah dengan Scala sambil mendengarkan musik, tapi sekarang hasil yang didapat terlalu mudah justru terasa hampa
    • Saya benar-benar setuju dengan kalimat, “Saya menginginkan fiturnya, bukan belajar cara membuatnya”
      Saat membuat model trading, saya juga lebih ingin LLM menuliskan kodenya daripada saya harus belajar chart sendiri
      Berkat itu, saya tidak membuang waktu untuk penanganan API sepele, dan bisa fokus hanya pada bagian yang benar-benar butuh pengambilan keputusan
    • Kode vector search itu, apakah mungkin dibagikan?
  • Sebelum mengalaminya langsung, saya tidak terlalu paham konsep “long task
    Saat mem-port parser Python HTML5 ke JavaScript, saya menjalankan Codex CLI pada 9.200 html5lib-tests, dan mengesankan melihatnya berputar selama lebih dari 4 jam sambil menyelesaikan masalah
    Tulisan terkait saya rangkum di sini
    • “4-hour task” dari METR bukan berarti AI benar-benar membutuhkan 4 jam, melainkan tingkat kesulitan yang akan memakan waktu 4 jam bagi manusia
      Artinya, Opus 4.5 bisa menangani pekerjaan di level seperti ini dengan reliabilitas 50%, dan waktu eksekusi nyatanya jauh lebih singkat
      Ke depannya, akan lebih menarik jika bisa melewati ambang 8 jam atau 40 jam
    • Metrik ini mengukur tingkat kesulitan berdasarkan manusia, bukan kecepatan aktual AI
      Ini menunjukkan dengan baik bahwa benchmark cepat rusak, tetapi otomatisasi pekerjaan nyata masih tetap sulit
    • “human hours equivalent” dari METR sangat bergantung pada manusia seperti apa yang dijadikan acuan
      Orang yang terbiasa dengan ekosistem jq, PyPI, atau anotasi TypeScript mungkin bisa menyelesaikannya jauh lebih cepat
      Pada akhirnya, daya tarik AI adalah kita bisa langsung mendapatkan bantuan setingkat pakar seperti ini
    • Tapi saat menjalankan long task dengan Codex atau Claude code, permintaan izin muncul terlalu sering, dan sering berhenti di tengah jalan
      Sebagian besar model berkata, “Mari lanjut ke langkah berikutnya,” lalu menghentikan diri sendiri
    • GPT5.2 khususnya terlalu sering meminta input pengguna, sehingga sulit membuatnya bekerja terus-menerus lebih dari 2 menit
      Saya penasaran apakah ada yang menemukan cara untuk mengatasi masalah ini
  • Saya berhati-hati dalam menilai model, tapi perbedaan antara Opus 4.5 dan Sonnet 4.5 benar-benar terasa
    Dibanding sebelumnya, selisih harganya juga mengecil sehingga nilai gunanya dalam pemakaian nyata meningkat, dan Haiku 4.5 juga cukup berguna jika reasoning diaktifkan
    Terutama cocok untuk alat kecil atau pengeditan satu halaman
  • Saya merasa pembelajaran software terbagi menjadi dua tahap: eksplorasi (exploration) dan eksploitasi (exploitation)
    Berkat LLM, dua tahap ini menyatu secara alami
    Misalnya saat membuat animasi AnimeJS, saya belajar dengan melihat proses CCAgent menulis kode, lalu setelahnya saya sendiri menyusun struktur dan melakukan refactor
    Dengan cara ini, kita bisa mendapatkan penghematan waktu dan kendali kreatif sekaligus
  • Opus tampak seperti lompatan besar dibanding GPT 5.1, tetapi pada ambang reliabilitas 80%, GPT 5.1 masih unggul
    Artinya, untuk tugas pendek GPT 5.1 lebih cocok, sedangkan untuk tugas panjang Opus lebih sesuai
    • Dengan tingkat keberhasilan 50%, pemborosan token mahal menjadi besar, tapi saya berharap sekitar tahun depan model open source juga akan mencapai level ini
  • Inti METR adalah mengukur kompleksitas berdasarkan ‘waktu ekuivalen manusia’
    Menyerahkan tugas 4 jam dengan tingkat keberhasilan 50% pada dasarnya mendekati judi, dan jika gagal lalu masih harus debug, kerugiannya besar
    Karena itu, saya pikir sebaiknya ada checkpoint peninjauan manusia setiap 30 menit
    Namun, kemampuan AI untuk pulih sendiri ketika macet di tengah jalan juga penting
    • Tapi dalam 30 menit, hasil yang dibuat AI terlalu banyak sehingga meninjaunya terasa seperti mimpi buruk
      Sekilas terlihat baik-baik saja, tetapi ada banyak bug halus yang baru muncul belakangan
      Karena itu, untuk pekerjaan penting saya masih tidak menggunakan agen, malah karena itu menghilangkan kesenangan bekerja
    • Meskipun 4 jam terbuang, jika selama itu kita mengerjakan hal lain, sebenarnya bukan kerugian
      Jika ada peluang setengah-setengah untuk mendapatkan hasil, itu mungkin bisa menjadi taruhan yang efisien dari sisi waktu
    • Bahkan jika gagal, yang benar-benar hilang hanya beberapa menit kerja AI, jadi ini sangat bagus untuk eksplorasi prototipe
      Kita bisa cepat mencoba banyak pendekatan, dan bahkan dari kegagalan pun ada pelajaran
  • Kita juga perlu grafik berdasarkan reliabilitas 95% atau 99%
    Dengan begitu, kita bisa melihat lebih jelas mengapa LLM masih sering gagal pada hal-hal yang sebenarnya mudah bagi manusia
  • Saya rasa optimisasi performa adalah benchmark yang bagus untuk mengukur kecerdasan nyata AI
    Hasilnya bisa diverifikasi secara numerik, semakin pendek kodenya semakin baik, dan yang dibutuhkan bukan sekadar kombinasi sederhana melainkan pemikiran sistemik
    Sejauh ini, Gemini Pro 3 paling unggul dalam optimisasi kode SIMD
  • Masalah dengan tingkat keberhasilan 50% adalah probabilitasnya turun tajam saat dicoba ulang
    Jika tugas 4 jam yang sama diulang berkali-kali, peluang berhasil bisa turun sampai 6,25%
    • Namun, alih-alih sekadar “sedang sial”, bisa jadi peluang berhasil pada percobaan berikutnya berbeda untuk tugas yang sudah pernah gagal
      Itu bergantung pada sifat pekerjaannya