- Metrik baru diusulkan untuk mengukur performa berdasarkan ‘panjang’ tugas yang dapat diselesaikan model AI secara penuh
- Analisis menunjukkan bahwa selama 6 tahun terakhir, panjang tugas yang dapat dituntaskan AI secara otonom meningkat dua kali lipat setiap sekitar 7 bulan
- Tugas yang dapat diselesaikan pakar manusia dalam waktu 4 menit hampir selalu berhasil, tetapi tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
- Jika tren ini berlanjut, diperkirakan dalam beberapa tahun AI akan dapat menjalankan proyek berdurasi beberapa minggu secara mandiri
- Studi ini memiliki implikasi penting untuk benchmark AI, prediksi kemampuan masa depan, dan manajemen risiko
Gambaran penelitian
- METR mengajukan metode baru untuk mengukur seberapa panjang tugas yang dapat diselesaikan AI
- Dasar pengukurannya adalah waktu yang dibutuhkan pakar manusia untuk menyelesaikan tugas tersebut
- Hubungan antara probabilitas keberhasilan model dan waktu kerja manusia dimodelkan dengan kurva logistik
- Pendekatan ini diajukan sebagai metrik yang berguna untuk menilai kemungkinan pemanfaatan AI di dunia nyata
- Melengkapi keterbatasan benchmark lama yang terlalu berfokus pada kemampuan menyelesaikan satu masalah
Hasil utama
- Batas performa model saat ini
- Tugas yang dikerjakan manusia dalam waktu 4 menit hampir 100% berhasil
- Tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
- Contoh: Claude 3.7 Sonnet mencapai tingkat keberhasilan 50% pada tugas berdurasi sekitar 1 jam
- Tren peningkatan performa
- Selama 6 tahun terakhir, panjang tugas yang dapat diselesaikan dengan tingkat kepercayaan 50% meningkat dua kali lipat setiap sekitar 7 bulan
- Hasil analisis skala log menunjukkan pertumbuhan eksponensial yang berkelanjutan
- Jika tren berlanjut, ada kemungkinan mengerjakan tugas berdurasi mingguan dalam 2~4 tahun
Metodologi dan verifikasi
- Verifikasi berbasis dataset
- Waktu penyelesaian manusia dicatat untuk beragam kelompok tugas (perangkat lunak, penalaran, dll.)
- Peningkatan eksponensial serupa juga dikonfirmasi pada dataset SWE-Bench Verified
- Pada dataset tersebut, diamati laju pelipatan dua kurang dari 3 bulan
- Analisis sensitivitas
- Ketahanan terhadap berbagai faktor seperti pemilihan model·tugas dan noise telah diuji
- Dalam simulasi yang memprediksi kapan tugas berdurasi 1 bulan dapat dikerjakan, tren tetap bertahan meski kesalahan pengukuran besar
Interpretasi dan keterbatasan
- Menjelaskan kesenjangan antara hasil benchmark AI dan kegunaan nyata
- Pada soal ujian dan sejenisnya, AI dapat melampaui manusia, tetapi masih lemah dalam menjalankan proyek nyata jangka panjang
- Mengakui ketidakpastian dalam ekstrapolasi tren
- Jika hanya menggunakan data 2024~2025, waktu pencapaian tugas berdurasi bulanan maju sekitar 2,5 tahun lebih cepat
- Disebutkan bahwa tren terbaru mungkin lebih baik dalam memprediksi performa masa depan dibanding data lama
Kesimpulan dan makna
- Pendekatan mengukur performa AI dengan ‘panjang tugas’
- Memungkinkan kuantifikasi peningkatan performa di berbagai tingkat kesulitan dan domain
- Memungkinkan interpretasi capaian absolut yang terhubung langsung dengan dampak di dunia nyata
- Jika pertumbuhan eksponensial yang berkelanjutan terus berlangsung,
- Dalam kurang dari 10 tahun, proyek otonom berdurasi bulanan diperkirakan menjadi mungkin
- Ini sekaligus membawa potensi manfaat dan risiko yang sangat besar
- Data penelitian dan kode analisis dibuka di GitHub, untuk mendorong riset lanjutan dan eksperimen replikasi
- Infrastruktur terkait: vivaria, eval-analysis-public
2 komentar
Sepertinya benchmark yang sangat bagus.
Kalau melihat tool coding AI belakangan ini, banyak yang membuat plan terlebih dahulu lalu bertindak dalam mode agent, jadi saya juga penasaran apakah ini benar-benar berdampak signifikan pada tingkat keberhasilan jangka panjang.
Komentar Hacker News
Prompt-nya cuma satu baris seperti tweet, tapi selesai dalam 15 menit, dan selama itu saya sedang main Kirby Air Riders
Tapi yang disayangkan dari proses ini adalah saya sama sekali tidak belajar apa pun tentang membangun vector search. Pada akhirnya yang saya inginkan memang fiturnya, dan belajar hanyalah hal sekunder
Daripada menghabiskan 4 jam membuatnya sendiri, jauh lebih efisien jika agen menyelesaikannya dalam 15 menit sementara saya mengerjakan hal lain, lalu setelahnya saya meluangkan sekitar 30 menit untuk membaca dan mengubah kode sambil bertanya
30 menit belajar yang terfokus mungkin bisa lebih baik daripada 4 jam trial and error
AI juga pada titik tertentu kehilangan struktur kodenya, dan akhirnya kita jadi pelanggan yang bergantung pada Opus
Dulu saya menikmati proses memecahkan masalah dengan Scala sambil mendengarkan musik, tapi sekarang hasil yang didapat terlalu mudah justru terasa hampa
Saat membuat model trading, saya juga lebih ingin LLM menuliskan kodenya daripada saya harus belajar chart sendiri
Berkat itu, saya tidak membuang waktu untuk penanganan API sepele, dan bisa fokus hanya pada bagian yang benar-benar butuh pengambilan keputusan
Saat mem-port parser Python HTML5 ke JavaScript, saya menjalankan Codex CLI pada 9.200 html5lib-tests, dan mengesankan melihatnya berputar selama lebih dari 4 jam sambil menyelesaikan masalah
Tulisan terkait saya rangkum di sini
Artinya, Opus 4.5 bisa menangani pekerjaan di level seperti ini dengan reliabilitas 50%, dan waktu eksekusi nyatanya jauh lebih singkat
Ke depannya, akan lebih menarik jika bisa melewati ambang 8 jam atau 40 jam
Ini menunjukkan dengan baik bahwa benchmark cepat rusak, tetapi otomatisasi pekerjaan nyata masih tetap sulit
Orang yang terbiasa dengan ekosistem jq, PyPI, atau anotasi TypeScript mungkin bisa menyelesaikannya jauh lebih cepat
Pada akhirnya, daya tarik AI adalah kita bisa langsung mendapatkan bantuan setingkat pakar seperti ini
Sebagian besar model berkata, “Mari lanjut ke langkah berikutnya,” lalu menghentikan diri sendiri
Saya penasaran apakah ada yang menemukan cara untuk mengatasi masalah ini
Dibanding sebelumnya, selisih harganya juga mengecil sehingga nilai gunanya dalam pemakaian nyata meningkat, dan Haiku 4.5 juga cukup berguna jika reasoning diaktifkan
Terutama cocok untuk alat kecil atau pengeditan satu halaman
Berkat LLM, dua tahap ini menyatu secara alami
Misalnya saat membuat animasi AnimeJS, saya belajar dengan melihat proses CCAgent menulis kode, lalu setelahnya saya sendiri menyusun struktur dan melakukan refactor
Dengan cara ini, kita bisa mendapatkan penghematan waktu dan kendali kreatif sekaligus
Artinya, untuk tugas pendek GPT 5.1 lebih cocok, sedangkan untuk tugas panjang Opus lebih sesuai
Menyerahkan tugas 4 jam dengan tingkat keberhasilan 50% pada dasarnya mendekati judi, dan jika gagal lalu masih harus debug, kerugiannya besar
Karena itu, saya pikir sebaiknya ada checkpoint peninjauan manusia setiap 30 menit
Namun, kemampuan AI untuk pulih sendiri ketika macet di tengah jalan juga penting
Sekilas terlihat baik-baik saja, tetapi ada banyak bug halus yang baru muncul belakangan
Karena itu, untuk pekerjaan penting saya masih tidak menggunakan agen, malah karena itu menghilangkan kesenangan bekerja
Jika ada peluang setengah-setengah untuk mendapatkan hasil, itu mungkin bisa menjadi taruhan yang efisien dari sisi waktu
Kita bisa cepat mencoba banyak pendekatan, dan bahkan dari kegagalan pun ada pelajaran
Dengan begitu, kita bisa melihat lebih jelas mengapa LLM masih sering gagal pada hal-hal yang sebenarnya mudah bagi manusia
Hasilnya bisa diverifikasi secara numerik, semakin pendek kodenya semakin baik, dan yang dibutuhkan bukan sekadar kombinasi sederhana melainkan pemikiran sistemik
Sejauh ini, Gemini Pro 3 paling unggul dalam optimisasi kode SIMD
Jika tugas 4 jam yang sama diulang berkali-kali, peluang berhasil bisa turun sampai 6,25%
Itu bergantung pada sifat pekerjaannya