10 poin oleh GN⁺ 2025-12-23 | Belum ada komentar. | Bagikan ke WhatsApp
  • Metrik baru diusulkan untuk mengukur performa berdasarkan ‘panjang’ tugas yang dapat diselesaikan model AI secara penuh
  • Analisis menunjukkan bahwa selama 6 tahun terakhir, panjang tugas yang dapat dituntaskan AI secara otonom meningkat dua kali lipat setiap sekitar 7 bulan
  • Tugas yang dapat diselesaikan pakar manusia dalam waktu 4 menit hampir selalu berhasil, tetapi tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
  • Jika tren ini berlanjut, diperkirakan dalam beberapa tahun AI akan dapat menjalankan proyek berdurasi beberapa minggu secara mandiri
  • Studi ini memiliki implikasi penting untuk benchmark AI, prediksi kemampuan masa depan, dan manajemen risiko

Gambaran penelitian

  • METR mengajukan metode baru untuk mengukur seberapa panjang tugas yang dapat diselesaikan AI
    • Dasar pengukurannya adalah waktu yang dibutuhkan pakar manusia untuk menyelesaikan tugas tersebut
    • Hubungan antara probabilitas keberhasilan model dan waktu kerja manusia dimodelkan dengan kurva logistik
  • Pendekatan ini diajukan sebagai metrik yang berguna untuk menilai kemungkinan pemanfaatan AI di dunia nyata
    • Melengkapi keterbatasan benchmark lama yang terlalu berfokus pada kemampuan menyelesaikan satu masalah

Hasil utama

  • Batas performa model saat ini
    • Tugas yang dikerjakan manusia dalam waktu 4 menit hampir 100% berhasil
    • Tugas yang memerlukan lebih dari 4 jam memiliki tingkat keberhasilan di bawah 10%
    • Contoh: Claude 3.7 Sonnet mencapai tingkat keberhasilan 50% pada tugas berdurasi sekitar 1 jam
  • Tren peningkatan performa
    • Selama 6 tahun terakhir, panjang tugas yang dapat diselesaikan dengan tingkat kepercayaan 50% meningkat dua kali lipat setiap sekitar 7 bulan
    • Hasil analisis skala log menunjukkan pertumbuhan eksponensial yang berkelanjutan
    • Jika tren berlanjut, ada kemungkinan mengerjakan tugas berdurasi mingguan dalam 2~4 tahun

Metodologi dan verifikasi

  • Verifikasi berbasis dataset
    • Waktu penyelesaian manusia dicatat untuk beragam kelompok tugas (perangkat lunak, penalaran, dll.)
    • Peningkatan eksponensial serupa juga dikonfirmasi pada dataset SWE-Bench Verified
    • Pada dataset tersebut, diamati laju pelipatan dua kurang dari 3 bulan
  • Analisis sensitivitas
    • Ketahanan terhadap berbagai faktor seperti pemilihan model·tugas dan noise telah diuji
    • Dalam simulasi yang memprediksi kapan tugas berdurasi 1 bulan dapat dikerjakan, tren tetap bertahan meski kesalahan pengukuran besar

Interpretasi dan keterbatasan

  • Menjelaskan kesenjangan antara hasil benchmark AI dan kegunaan nyata
    • Pada soal ujian dan sejenisnya, AI dapat melampaui manusia, tetapi masih lemah dalam menjalankan proyek nyata jangka panjang
  • Mengakui ketidakpastian dalam ekstrapolasi tren
    • Jika hanya menggunakan data 2024~2025, waktu pencapaian tugas berdurasi bulanan maju sekitar 2,5 tahun lebih cepat
    • Disebutkan bahwa tren terbaru mungkin lebih baik dalam memprediksi performa masa depan dibanding data lama

Kesimpulan dan makna

  • Pendekatan mengukur performa AI dengan ‘panjang tugas’
    • Memungkinkan kuantifikasi peningkatan performa di berbagai tingkat kesulitan dan domain
    • Memungkinkan interpretasi capaian absolut yang terhubung langsung dengan dampak di dunia nyata
  • Jika pertumbuhan eksponensial yang berkelanjutan terus berlangsung,
    • Dalam kurang dari 10 tahun, proyek otonom berdurasi bulanan diperkirakan menjadi mungkin
    • Ini sekaligus membawa potensi manfaat dan risiko yang sangat besar
  • Data penelitian dan kode analisis dibuka di GitHub, untuk mendorong riset lanjutan dan eksperimen replikasi

Belum ada komentar.

Belum ada komentar.