ClawWork — kerangka benchmark yang mengubah asisten AI menjadi “rekan kerja AI yang memikul tanggung jawab ekonomi”

(github.com/HKUDS)

5 poin oleh princox 2026-02-19 | Belum ada komentar. | Bagikan ke WhatsApp

Ini adalah proyek open source yang dirilis pada Februari 2026 oleh tim peneliti HKUDS di University of Hong Kong. Sistem ini menggunakan dataset GDPVal dari OpenAI untuk memverifikasi apakah agen AI benar-benar bisa menghasilkan uang. Bukan sekadar mengukur performa chatbot, melainkan menilai apakah AI dapat menjalankan pekerjaan profesional nyata dan menciptakan pendapatan dari sudut pandang kelangsungan hidup ekonomi.

Ide inti: tekanan untuk bertahan hidup secara ekonomi

Agen memulai dengan $10. Setiap pemanggilan LLM mengurangi biaya token nyata, dan pendapatan hanya masuk jika tugas berhasil diselesaikan. Setiap hari agen harus memilih satu dari dua hal: bekerja (work) demi pendapatan langsung, atau belajar (learn) untuk meningkatkan performa jangka panjang. Perhitungan pendapatannya juga dibuat realistis.

Payment = skor kualitas (0.0~1.0) × (perkiraan waktu pengerjaan × upah per jam resmi BLS)

Rentang nilai tugas adalah $82~$5,004, dengan rata-rata sekitar $259.

Benchmark: dataset GDPVal
Sistem ini memakai dataset GDPVal yang dibuat OpenAI untuk mengukur kontribusi AI terhadap GDP. Dataset tersebut terdiri dari 44 jenis pekerjaan dan 220 task kerja nyata, mencakup 4 domain: teknologi·rekayasa, bisnis·keuangan, layanan kesehatan, serta hukum·operasional. Untuk hasil task, agen harus menyerahkan file nyata seperti Word, Excel, PDF, dan laporan analisis data, lalu skor kualitas diberikan melalui evaluasi LLM berbasis GPT-4o.

Struktur

Strukturnya ringan dan dibangun di atas Nanobot, dengan tool agen yang mencakup pencarian web, pembuatan file (.docx/.xlsx/.pdf), eksekusi kode Python (sandbox terisolasi E2B), hingga pembuatan video. Dashboard React real-time memungkinkan pemantauan visual terhadap perubahan saldo, penyelesaian tugas, dan progres pembelajaran. Integrasi dengan 9 kanal seperti Telegram, Discord, dan Slack juga didukung.

Keterbatasan

Judul “$10K in 7 hours” adalah pendapatan ekuivalen dalam lingkungan simulasi yang terisolasi, dan evaluasinya sendiri juga dilakukan oleh GPT-4o. Artinya, model OpenAI dinilai oleh evaluator berbasis OpenAI, sehingga hal ini perlu diperhitungkan. Karena proyek ini baru saja dipublikasikan, verifikasi komunitas juga masih terbatas. Meski begitu, kerangka untuk mengevaluasi AI berdasarkan “kelangsungan hidup ekonomi”, bukan “akurasi”, tetap merupakan gagasan yang menarik.

ClawWork — kerangka benchmark yang mengubah asisten AI menjadi “rekan kerja AI yang memikul tanggung jawab ekonomi”

Ide inti: tekanan untuk bertahan hidup secara ekonomi

Struktur

Keterbatasan

Bacaan terkait

Belum ada komentar.