Mengukur kemampuan AI menyelesaikan tugas jangka panjang

(metr.org)

10 poin oleh GN⁺ 2025-12-23 | 2 komentar | Bagikan ke WhatsApp

Metrik baru diusulkan untuk mengukur performa berdasarkan ‘panjang’ tugas yang dapat diselesaikan model AI secara penuh
Analisis menunjukkan bahwa selama 6 tahun terakhir, panjang tugas yang dapat dituntaskan AI secara otonom meningkat dua kali lipat setiap sekitar 7 bulan
Tugas yang dapat diselesaikan pakar manusia dalam waktu 4 menit hampir selalu berhasil, tetapi tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
Jika tren ini berlanjut, diperkirakan dalam beberapa tahun AI akan dapat menjalankan proyek berdurasi beberapa minggu secara mandiri
Studi ini memiliki implikasi penting untuk benchmark AI, prediksi kemampuan masa depan, dan manajemen risiko

Gambaran penelitian

METR mengajukan metode baru untuk mengukur seberapa panjang tugas yang dapat diselesaikan AI
- Dasar pengukurannya adalah waktu yang dibutuhkan pakar manusia untuk menyelesaikan tugas tersebut
- Hubungan antara probabilitas keberhasilan model dan waktu kerja manusia dimodelkan dengan kurva logistik
Pendekatan ini diajukan sebagai metrik yang berguna untuk menilai kemungkinan pemanfaatan AI di dunia nyata
- Melengkapi keterbatasan benchmark lama yang terlalu berfokus pada kemampuan menyelesaikan satu masalah

Hasil utama

Batas performa model saat ini
- Tugas yang dikerjakan manusia dalam waktu 4 menit hampir 100% berhasil
- Tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
- Contoh: Claude 3.7 Sonnet mencapai tingkat keberhasilan 50% pada tugas berdurasi sekitar 1 jam
Tren peningkatan performa
- Selama 6 tahun terakhir, panjang tugas yang dapat diselesaikan dengan tingkat kepercayaan 50% meningkat dua kali lipat setiap sekitar 7 bulan
- Hasil analisis skala log menunjukkan pertumbuhan eksponensial yang berkelanjutan
- Jika tren berlanjut, ada kemungkinan mengerjakan tugas berdurasi mingguan dalam 2~4 tahun

Metodologi dan verifikasi

Verifikasi berbasis dataset
- Waktu penyelesaian manusia dicatat untuk beragam kelompok tugas (perangkat lunak, penalaran, dll.)
- Peningkatan eksponensial serupa juga dikonfirmasi pada dataset SWE-Bench Verified
- Pada dataset tersebut, diamati laju pelipatan dua kurang dari 3 bulan
Analisis sensitivitas
- Ketahanan terhadap berbagai faktor seperti pemilihan model·tugas dan noise telah diuji
- Dalam simulasi yang memprediksi kapan tugas berdurasi 1 bulan dapat dikerjakan, tren tetap bertahan meski kesalahan pengukuran besar

Interpretasi dan keterbatasan

Menjelaskan kesenjangan antara hasil benchmark AI dan kegunaan nyata
- Pada soal ujian dan sejenisnya, AI dapat melampaui manusia, tetapi masih lemah dalam menjalankan proyek nyata jangka panjang
Mengakui ketidakpastian dalam ekstrapolasi tren
- Jika hanya menggunakan data 2024~2025, waktu pencapaian tugas berdurasi bulanan maju sekitar 2,5 tahun lebih cepat
- Disebutkan bahwa tren terbaru mungkin lebih baik dalam memprediksi performa masa depan dibanding data lama

Kesimpulan dan makna

Pendekatan mengukur performa AI dengan ‘panjang tugas’
- Memungkinkan kuantifikasi peningkatan performa di berbagai tingkat kesulitan dan domain
- Memungkinkan interpretasi capaian absolut yang terhubung langsung dengan dampak di dunia nyata
Jika pertumbuhan eksponensial yang berkelanjutan terus berlangsung,
- Dalam kurang dari 10 tahun, proyek otonom berdurasi bulanan diperkirakan menjadi mungkin
- Ini sekaligus membawa potensi manfaat dan risiko yang sangat besar
Data penelitian dan kode analisis dibuka di GitHub, untuk mendorong riset lanjutan dan eksperimen replikasi
- Infrastruktur terkait: vivaria, eval-analysis-public

2 komentar

crawler 2025-12-23

Sepertinya benchmark yang sangat bagus.
Kalau melihat tool coding AI belakangan ini, banyak yang membuat plan terlebih dahulu lalu bertindak dalam mode agent, jadi saya juga penasaran apakah ini benar-benar berdampak signifikan pada tingkat keberhasilan jangka panjang.

GN⁺ 2025-12-23

Komentar Hacker News

Baru-baru ini, di proyek hobi saya, saya cuma meminta “tambahkan vector search”, lalu Opus menyiapkan manticore, mengambil model embedding, membuat alat untuk memigrasikan indeks kata kunci yang sudah ada, sampai menata frontend
Prompt-nya cuma satu baris seperti tweet, tapi selesai dalam 15 menit, dan selama itu saya sedang main Kirby Air Riders
Tapi yang disayangkan dari proses ini adalah saya sama sekali tidak belajar apa pun tentang membangun vector search. Pada akhirnya yang saya inginkan memang fiturnya, dan belajar hanyalah hal sekunder
- Saya tidak merasa sengaja membuatnya dengan cara yang lebih lama itu merupakan metode belajar yang lebih efektif
  Daripada menghabiskan 4 jam membuatnya sendiri, jauh lebih efisien jika agen menyelesaikannya dalam 15 menit sementara saya mengerjakan hal lain, lalu setelahnya saya meluangkan sekitar 30 menit untuk membaca dan mengubah kode sambil bertanya
  30 menit belajar yang terfokus mungkin bisa lebih baik daripada 4 jam trial and error
- Tapi kalau begitu, pada akhirnya yang muncul adalah segumpal kode raksasa yang mustahil dipelihara
  AI juga pada titik tertentu kehilangan struktur kodenya, dan akhirnya kita jadi pelanggan yang bergantung pada Opus
- Opus maupun Anthropic memang jelas berada di level teratas, tapi setiap kali memakainya rasanya seperti fast food intelektual
  Dulu saya menikmati proses memecahkan masalah dengan Scala sambil mendengarkan musik, tapi sekarang hasil yang didapat terlalu mudah justru terasa hampa
- Saya benar-benar setuju dengan kalimat, “Saya menginginkan fiturnya, bukan belajar cara membuatnya”
  Saat membuat model trading, saya juga lebih ingin LLM menuliskan kodenya daripada saya harus belajar chart sendiri
  Berkat itu, saya tidak membuang waktu untuk penanganan API sepele, dan bisa fokus hanya pada bagian yang benar-benar butuh pengambilan keputusan
- Kode vector search itu, apakah mungkin dibagikan?
Sebelum mengalaminya langsung, saya tidak terlalu paham konsep “long task”
Saat mem-port parser Python HTML5 ke JavaScript, saya menjalankan Codex CLI pada 9.200 html5lib-tests, dan mengesankan melihatnya berputar selama lebih dari 4 jam sambil menyelesaikan masalah
Tulisan terkait saya rangkum di sini
- “4-hour task” dari METR bukan berarti AI benar-benar membutuhkan 4 jam, melainkan tingkat kesulitan yang akan memakan waktu 4 jam bagi manusia
  Artinya, Opus 4.5 bisa menangani pekerjaan di level seperti ini dengan reliabilitas 50%, dan waktu eksekusi nyatanya jauh lebih singkat
  Ke depannya, akan lebih menarik jika bisa melewati ambang 8 jam atau 40 jam
- Metrik ini mengukur tingkat kesulitan berdasarkan manusia, bukan kecepatan aktual AI
  Ini menunjukkan dengan baik bahwa benchmark cepat rusak, tetapi otomatisasi pekerjaan nyata masih tetap sulit
- “human hours equivalent” dari METR sangat bergantung pada manusia seperti apa yang dijadikan acuan
  Orang yang terbiasa dengan ekosistem jq, PyPI, atau anotasi TypeScript mungkin bisa menyelesaikannya jauh lebih cepat
  Pada akhirnya, daya tarik AI adalah kita bisa langsung mendapatkan bantuan setingkat pakar seperti ini
- Tapi saat menjalankan long task dengan Codex atau Claude code, permintaan izin muncul terlalu sering, dan sering berhenti di tengah jalan
  Sebagian besar model berkata, “Mari lanjut ke langkah berikutnya,” lalu menghentikan diri sendiri
- GPT5.2 khususnya terlalu sering meminta input pengguna, sehingga sulit membuatnya bekerja terus-menerus lebih dari 2 menit
  Saya penasaran apakah ada yang menemukan cara untuk mengatasi masalah ini
Saya berhati-hati dalam menilai model, tapi perbedaan antara Opus 4.5 dan Sonnet 4.5 benar-benar terasa
Dibanding sebelumnya, selisih harganya juga mengecil sehingga nilai gunanya dalam pemakaian nyata meningkat, dan Haiku 4.5 juga cukup berguna jika reasoning diaktifkan
Terutama cocok untuk alat kecil atau pengeditan satu halaman
Saya merasa pembelajaran software terbagi menjadi dua tahap: eksplorasi (exploration) dan eksploitasi (exploitation)
Berkat LLM, dua tahap ini menyatu secara alami
Misalnya saat membuat animasi AnimeJS, saya belajar dengan melihat proses CCAgent menulis kode, lalu setelahnya saya sendiri menyusun struktur dan melakukan refactor
Dengan cara ini, kita bisa mendapatkan penghematan waktu dan kendali kreatif sekaligus
Opus tampak seperti lompatan besar dibanding GPT 5.1, tetapi pada ambang reliabilitas 80%, GPT 5.1 masih unggul
Artinya, untuk tugas pendek GPT 5.1 lebih cocok, sedangkan untuk tugas panjang Opus lebih sesuai
- Dengan tingkat keberhasilan 50%, pemborosan token mahal menjadi besar, tapi saya berharap sekitar tahun depan model open source juga akan mencapai level ini
Inti METR adalah mengukur kompleksitas berdasarkan ‘waktu ekuivalen manusia’
Menyerahkan tugas 4 jam dengan tingkat keberhasilan 50% pada dasarnya mendekati judi, dan jika gagal lalu masih harus debug, kerugiannya besar
Karena itu, saya pikir sebaiknya ada checkpoint peninjauan manusia setiap 30 menit
Namun, kemampuan AI untuk pulih sendiri ketika macet di tengah jalan juga penting
- Tapi dalam 30 menit, hasil yang dibuat AI terlalu banyak sehingga meninjaunya terasa seperti mimpi buruk
  Sekilas terlihat baik-baik saja, tetapi ada banyak bug halus yang baru muncul belakangan
  Karena itu, untuk pekerjaan penting saya masih tidak menggunakan agen, malah karena itu menghilangkan kesenangan bekerja
- Meskipun 4 jam terbuang, jika selama itu kita mengerjakan hal lain, sebenarnya bukan kerugian
  Jika ada peluang setengah-setengah untuk mendapatkan hasil, itu mungkin bisa menjadi taruhan yang efisien dari sisi waktu
- Bahkan jika gagal, yang benar-benar hilang hanya beberapa menit kerja AI, jadi ini sangat bagus untuk eksplorasi prototipe
  Kita bisa cepat mencoba banyak pendekatan, dan bahkan dari kegagalan pun ada pelajaran
Kita juga perlu grafik berdasarkan reliabilitas 95% atau 99%
Dengan begitu, kita bisa melihat lebih jelas mengapa LLM masih sering gagal pada hal-hal yang sebenarnya mudah bagi manusia
Saya rasa optimisasi performa adalah benchmark yang bagus untuk mengukur kecerdasan nyata AI
Hasilnya bisa diverifikasi secara numerik, semakin pendek kodenya semakin baik, dan yang dibutuhkan bukan sekadar kombinasi sederhana melainkan pemikiran sistemik
Sejauh ini, Gemini Pro 3 paling unggul dalam optimisasi kode SIMD
Masalah dengan tingkat keberhasilan 50% adalah probabilitasnya turun tajam saat dicoba ulang
Jika tugas 4 jam yang sama diulang berkali-kali, peluang berhasil bisa turun sampai 6,25%
- Namun, alih-alih sekadar “sedang sial”, bisa jadi peluang berhasil pada percobaan berikutnya berbeda untuk tugas yang sudah pernah gagal
  Itu bergantung pada sifat pekerjaannya