Opus 4.6, makna dari mampu menyelesaikan masalah setara 14,5 jam kerja manusia (METR Time Horizon)

(metr.org)

5 poin oleh princox 2026-02-21 | Belum ada komentar. | Bagikan ke WhatsApp

Ada lembaga riset nirlaba bernama METR di Amerika Serikat.
Lembaga riset nirlaba ini berlokasi di Berkeley, California, AS, dan mengevaluasi kemampuan model AI frontier dalam melakukan tugas jangka panjang dan otonom.

Sebagian peneliti memperingatkan bahwa kemampuan semacam ini dapat menimbulkan risiko serius bagi masyarakat, dan METR berperan tepat untuk mengukur risiko tersebut.

Riset METR secara garis besar terdiri dari tiga pilar.

Pertama, evaluasi luas atas kapabilitas otonom AI agent untuk menyelesaikan beragam tugas selama berjam-jam secara mandiri.

Kedua, evaluasi atas kemampuan AI untuk mempercepat AI R&D itu sendiri.

Ketiga, penelitian tentang perilaku AI yang mengancam integritas evaluasi (misalnya sandbagging, reward hacking) dan langkah penanganannya.

Khususnya, riset Time Horizon yang dipublikasikan METR mengungkap bahwa panjang tugas yang dapat diselesaikan AI agent telah meningkat sekitar dua kali lipat setiap 7 bulan selama 6 tahun terakhir, dan riset ini digunakan sebagai dasar utama untuk memprediksi kapan AI akan membawa dampak transformatif.

Di bawah ini adalah terjemahan mesin dari halaman yang muncul saat membuka URL tersebut.

Ringkasan

Task-completion time horizon adalah durasi pengerjaan tugas (berdasarkan waktu yang dibutuhkan pakar manusia untuk menyelesaikannya) yang diperkirakan dapat diselesaikan AI agent pada tingkat keandalan tertentu. Sebagai contoh, 50%-time horizon adalah panjang tugas yang diperkirakan bisa diselesaikan agent dengan probabilitas sukses 50%. Grafik di bawah menunjukkan 50%- dan 80%-time horizon dari AI agent frontier, dihitung berdasarkan performa pada lebih dari 100 tugas perangkat lunak yang beragam.

Kami secara berkala memperbarui pengukuran time horizon untuk model frontier yang dirilis secara publik. Karena keterbatasan kapasitas, beberapa model mungkin diukur beberapa waktu setelah rilis, atau beberapa rilis bisa dilewati sepenuhnya.

Untuk pembahasan lengkap tentang metodologi dan hasilnya, silakan lihat paper dan posting blog terkait.

Detail metodologi

Untuk memperkirakan time horizon AI agent frontier, pertama-tama kami mengestimasi waktu yang dibutuhkan pakar manusia untuk menyelesaikan tiap tugas. Untuk setiap agent, kami memasangkan kurva logistik guna memprediksi probabilitas keberhasilan tugas sebagai fungsi dari waktu pengerjaan manusia. Untuk mendapatkan 50%-time horizon (atau 80%-time horizon), kami mencari durasi tugas saat kurva hasil fitting berpotongan dengan probabilitas sukses 50% (atau 80%).

Distribusi tugas: Tugas terdiri dari RE-Bench, HCAST, dan tugas perangkat lunak berdurasi pendek. Mayoritas berupa tugas software engineering, machine learning, dan cybersecurity, bersifat independen, terdefinisi jelas, dan memiliki kriteria keberhasilan yang jelas sehingga dapat dievaluasi secara otomatis.

Estimasi waktu pengerjaan manusia: Untuk sebagian besar tugas, kami merekrut manusia untuk mencoba mengerjakannya lalu mengambil geometric mean dari waktu penyelesaian yang berhasil. Orang-orang ini diberi instruksi dan lingkungan yang sama seperti AI agent, serta diminta menyelesaikan tugas secepat mungkin. Estimasi waktu pengerjaan manusia kami kemungkinan cenderung lebih tinggi daripada pakar sebenarnya, karena manusia tersebut (dan AI agent) memiliki informasi konteks tentang tugas yang jauh lebih sedikit dibanding pakar yang mengerjakan tugas setara dalam pekerjaan sehari-hari mereka.

Pertanyaan yang sering diajukan (FAQ)

T. Apakah "time horizon" berarti berapa lama AI agent saat ini dapat bertindak secara otonom?

Tidak. 50%-time horizon adalah panjang tugas (berdasarkan standar pakar manusia) yang dapat diselesaikan AI agent dengan tingkat keyakinan 50%. Ini bukan waktu nyata yang dibutuhkan AI untuk menyelesaikan tugas, melainkan metrik untuk mengukur tingkat kesulitan tugas.

T. Sebenarnya berapa lama AI agent membutuhkan waktu untuk menyelesaikan tugas 2 jam?

Tergantung model, tugas, dan konfigurasi agent, tetapi AI agent umumnya beberapa kali lebih cepat daripada manusia. AI agent sering menulis kode sekaligus tanpa proses iterasi berulang, dan juga perlu melakukan pencarian lebih sedikit. Selain itu, banyak AI agent melakukan coding jauh lebih cepat daripada software engineer manusia.

T. Estimasi waktu pengerjaan tugas ini didasarkan pada manusia seperti apa?

Pakar terampil di bidang software engineering, machine learning, dan cybersecurity, sebagian besar lulusan 100 universitas terbaik dunia. Rata-rata mereka memiliki sekitar 5 tahun pengalaman relevan. Tugas 2 jam kami lebih tepat dipahami sebagai tugas yang bisa diselesaikan dalam 2 jam oleh "karyawan baru atau kontraktor lepas dengan konteks awal yang sangat minim", bukan oleh "pakar terampil yang sudah sangat familier dengan proyek tersebut".

T. Jika time horizon-nya 2 jam, apakah itu berarti AI dapat melakukan semua pekerjaan intelektual yang bisa dilakukan manusia dalam 2 jam?

Tidak. Distribusi tugas kami terutama terdiri dari software engineering, machine learning, dan cybersecurity. Dalam riset lanjutan, kami menyelidiki bagaimana time horizon sistem AI berbeda di berbagai domain, dan menemukan tren eksponensial yang serupa di domain lain juga, meskipun angka time horizon absolutnya berbeda. Kapabilitas AI bersifat 'jagged' dibanding manusia, dan time horizon untuk semua tugas yang bernilai ekonomis diperkirakan tersebar di beberapa orde magnitudo.

📊 Interpretasi grafik

Grafik utama (gambar 1, 6)

Jika melihat lintasan dari GPT-2 (2019) hingga Claude Opus 4.6 (Februari 2026), terlihat bahwa time horizon AI telah tumbuh eksplosif dari hampir 0 menit menjadi sekitar 14 jam 30 menit. Khususnya pada rentang 2024–2026, kurvanya menanjak tajam, menunjukkan bahwa peningkatan kemampuan dalam 1–2 tahun terakhir melampaui beberapa tahun sebelumnya.

Grafik multi-domain (gambar 5)

Ini menunjukkan bahwa pada berbagai benchmark seperti METR-HRS (perangkat lunak), MATH, GPQA, Mock AIME, dan SWE-bench, time horizon semuanya meningkat secara eksponensial. Nilai absolutnya berbeda per domain, tetapi tren kenaikannya sendiri bersifat umum.

🔑 Interpretasi "14 jam 30 menit" — pertanyaan inti

"Apa arti Claude Opus 4.6 mencapai 14,5 jam pada tugas 'Fix complex bug in ML research codebase'?"

Inilah bagian yang paling mudah disalahpahami. Penjelasan yang tepat adalah sebagai berikut:

Salah paham	Interpretasi yang benar
"Claude Opus 4.6 bekerja selama 14,5 jam"	❌
"Claude Opus 4.6 berhasil menyelesaikan tugas dengan tingkat kesulitan setara 14,5 jam kerja manusia dengan probabilitas 50%"	✅

Jadi, 14 jam 30 menit bukanlah waktu yang dihabiskan AI, melainkan tingkat kesulitan tugas berdasarkan standar manusia.

Jika dijabarkan lebih konkret:

METR memilih tugas "Fix complex bug in ML research codebase"
Ketika beberapa pakar manusia terampil diminta mengerjakannya, rata-rata diperlukan sekitar 14 jam 30 menit
Ketika Claude Opus 4.6 diminta mengerjakan tugas yang sama berulang kali, model ini berhasil dengan probabilitas setengah (50%)
Karena itu, "50%-time horizon Claude Opus 4.6 = 14 jam 30 menit"

Waktu nyata yang dibutuhkan Claude Opus 4.6 untuk menangani tugas ini kemungkinan jauh lebih singkat daripada manusia (menurut FAQ, AI biasanya beberapa kali lebih cepat daripada manusia).

💡 Ringkasan implikasi

Data time horizon dari METR secara objektif membuktikan bahwa kemampuan AI agent dalam menjalankan tugas otonom sedang meluas dengan laju eksponensial, dan fakta bahwa Claude Opus 4.6 dapat menyelesaikan dengan sukses, pada probabilitas 50%, tugas perangkat lunak, ML, dan cybersecurity yang kompleks yang menurut standar pakar manusia memerlukan lebih dari 14 jam menunjukkan bahwa AI telah mencapai titik ambang di mana ia dapat secara nyata menggantikan atau mengotomatisasi sebagian besar kerja pengetahuan profesional, serta mengisyaratkan dengan kuat bahwa bila tren ini berlanjut, redefinisi mendasar atas peran dan nilai tenaga kerja manusia di seluruh industri pengetahuan berkeahlian tinggi seperti pengembangan perangkat lunak, keamanan, dan riset akan menjadi tak terelakkan.

Opus 4.6 yang diperbarui pada Februari 2026 dikatakan memiliki probabilitas sukses 50% untuk masalah yang bagi pakar manusia memerlukan 14,5 jam.

Menurut saya ini grafik yang luar biasa, dan saya mengunggahnya karena merasa di masa depan semua pekerjaan akan makin banyak diotomatisasi dan dijalankan berbasis AI.