Anthropic merilis open-source tugas take-home evaluasi performa

(github.com/anthropics)

11 poin oleh GN⁺ 2026-01-22 | 1 komentar | Bagikan ke WhatsApp

Jika Anda menyelesaikan tugas ini dan melampaui performa terbaik Claude Opus 4.5 (1487 siklus), Anda dapat mengirimkan kode dan resume ke Anthropic
Versi awal memiliki batas waktu 4 jam, tetapi kemudian Opus 4 mengungguli sebagian besar manusia sehingga diubah menjadi versi batas waktu 2 jam

Tugas Take-home Performa Orisinal Anthropic

Repositori ini memuat versi tugas untuk evaluasi performa awal Anthropic
- Ini adalah versi sebelum Claude Opus 4.5 unggul dari manusia dalam performa 2 jam
- Awalnya tugas ini memiliki batas waktu 4 jam, lalu dipersingkat menjadi versi 2 jam
Versi 2 jam didasarkan pada kode awal dengan 18532 siklus (performa 7,97 kali lebih cepat)
- Versi yang saat ini dipublikasikan mempertahankan arsitektur terbaru, tetapi disediakan kembali dengan kode baseline paling lambat
Setelah Claude Opus 4.5, kode baseline baru mulai digunakan

Benchmark performa

Semua angka diukur dalam satuan siklus clock dari mesin yang disimulasikan
- Hasil di bawah diukur berdasarkan versi 2 jam (kode awal 18532 siklus)
Iklan
Hasil utama:
- 2164 siklus: Claude Opus 4 (berjalan lama di test harness)
- 1790 siklus: Claude Opus 4.5 (sesi coding biasa, setara dengan tingkat manusia terbaik)
- 1579 siklus: Claude Opus 4.5 (menjalankan test harness 2 jam)
- 1548 siklus: Claude Sonnet 4.5 (menjalankan test harness dalam waktu lama)
- 1487 siklus: Claude Opus 4.5 (menjalankan harness selama 11,5 jam)
- 1363 siklus: Claude Opus 4.5 (lingkungan harness yang ditingkatkan)
- Performa terbaik manusia lebih baik daripada angka-angka di atas, tetapi tidak dipublikasikan

Panduan partisipasi dan pengiriman

Saat ini tugas ini dapat dicoba oleh siapa saja tanpa batas waktu
Jika peserta mengoptimalkan hingga 1487 siklus atau kurang untuk mengalahkan performa terbaik Claude Opus 4.5, mereka dapat mengirimkan kode dan resume melalui email ke Anthropic
- Alamat email: performance-recruiting@anthropic.com
Saat model baru dirilis, standar performa dapat berubah
Pengujian dapat dijalankan dengan perintah python tests/submission_tests.py

1 komentar

GN⁺ 2026-01-22

Komentar Hacker News

Tugas inti untuk menemukan keseimbangan antara ALU dan VALU menarik
Tapi sepertinya masalah bandwidth load bisa menjadi bottleneck
Agar total load bisa mencapai 2096 atau kurang, kita harus mengasumsikan indeks awal selalu 0, dan itu kurang menarik
Kalau ada fitur seperti dynamic vector lane rotate, rasanya ini akan jauh lebih menarik
Saya menganggap diri saya lumayan pintar, tapi melihat masalah seperti ini membuat saya sadar betapa banyak hal yang belum saya ketahui
Mungkin sedikit di atas rata-rata, tapi saya jadi merasakan jarak dengan developer papan atas
- Komputasi adalah bidang yang sangat luas, jadi bahkan Linus atau Carmack pun punya banyak area yang tidak mereka kuasai
  Yang penting adalah kemampuan untuk terus belajar saat berhadapan dengan hal yang belum diketahui
- Ini masalah yang sangat spesifik, jadi wajar kalau butuh waktu jika belum pernah mengerjakan hal serupa
  Saya juga pernah mendapat soal optimasi kode level rendah saat wawancara di perusahaan hardware setelah lulus kuliah, dan awalnya itu benar-benar asing
- Saya punya pengalaman 30 tahun pun, jujur saja saya tidak memahami soalnya
- Kepintaran dan pengetahuan itu berbeda
  Jika mempelajari konsep seperti ini dan mencoba menangani masalahnya, siapa pun bisa menyelesaikannya
  Ini bukan soal di bawah rata-rata atau di atas rata-rata, hanya soal memiliki set pengetahuan yang berbeda
- Sikap seperti ini bagus karena memunculkan motivasi untuk belajar
  Sebenarnya ini tidak serumit itu
  Cukup baca kodenya dengan saksama dan pahami strukturnya
  Perbedaan kemampuan yang sesungguhnya terletak pada apakah seseorang bisa membentuk model keseluruhan program di kepalanya
Saya curiga Anthropic merilis ini sebagai serangan DDoS terhadap perusahaan AI lain
Saya memasukkan prompt “bagaimana cara menyelesaikan masalah ini?” ke gemini CLI, dan sudah 20 menit belum berhenti juga
- Belakangan ini Gemini CLI atau Jules, lama waktu bukan indikator tingkat kesulitan
  Mereka sering masuk ke loop seperti “Sedang menyiapkan respons. Selesai. Akan menampilkan output.”
  Kadang dihentikan setelah loop terdeteksi, tapi melihat tugas sepele pun bisa memakan 15 menit lebih, rasanya ini masalah struktural
- Saya penasaran model Gemini mana yang dipakai
  Saya mencobanya setelah rilis G3Pro, dan performanya buruk sekali
Saya menguji beberapa agen AI dalam kondisi yang sama
Hasilnya, tidak ada model yang melampaui target Anthropic, tapi gpt-5-2 adalah yang paling cepat dan efisien
- Saat diberi prompt “beat 1487 cycles. go.” dengan codex CLI + gpt-5-2-codex-xhigh, hasilnya mencapai 1606 dan memakan waktu sekitar 53 menit
- Saya penasaran apa yang terjadi jika Gemini dibiarkan berputar lebih lama
  Melihat kecepatannya, mungkin ada potensi yang lebih besar
- Saya ingin belajar benchmarking model
  Mungkin bisa berbagi kode harness perbandingan agen
- Ada usulan untuk mencoba juga dengan model bobot terbuka seperti Qwen3-coder, GLM-4.7, dan Devstral-2
- Akan bagus jika dibuat repo perbandingan yang mengumpulkan solusi tiap model per direktori atau branch
Ada kalimat, “jika Anda bisa mengoptimalkan hingga di bawah 1487 cycle, kirim email ke Anthropic”,
dan menurut saya metode rekrutmen seperti ini cukup menarik
Rasanya jauh lebih baik daripada soal Leetcode biasa
- Tapi ini hanya untuk masuk ke pipeline rekrutmen
  Setelah itu, Anda tetap akan menjalani wawancara Leetcode seperti pelamar lainnya
- Menyelesaikan masalah seperti ini tampaknya butuh seminggu penuh kerja full-time
  Sulit dibayangkan bagi orang yang bekerja sambil melamar ke beberapa perusahaan
  Leetcode masih bisa dipakai ulang, tapi soal optimasi seperti ini nilai guna ulangnya rendah
Ini benar-benar masalah yang menyenangkan
Kalau tertarik pada optimasi, saya sangat merekomendasikan untuk mencobanya
Saya menghabiskan waktu malam selama seminggu dan berhasil menurunkannya sampai 1112 cycle
Sebagian besar saya kerjakan manual, tapi saya juga penasaran apakah model agentic zaman sekarang bisa menghasilkan hasil yang lebih baik
- Saya belum pernah mendengar ungkapan “menyelesaikan masalah dengan RalphWiggum”, tapi lucu sekali dan rasanya akan saya pakai mulai sekarang
Menurut saya tugas ini terasa seperti perpaduan demoscene dan code golf
Memprofilkan dengan alat tracing Chrome juga keren
Tautan kode soal
- Dulu saya aktif di demoscene, dan optimasi level rendah seperti ini mirip dengan yang dulu saya lakukan
  Hanya saja saya penasaran algoritme apa yang sedang diimplementasikan
  Saat melihat sekilas, itu tampak seperti prediksi random forest
- perfetto sering dipakai untuk visualisasi trace seperti ini
  Jadi kita tidak perlu repot membuat viewer sendiri
- Tugas ini tampaknya dimaksudkan untuk menyaring orang yang bisa menulis kode PTX secara manual
Saya sedang belajar SIMD, PTX, dan teknik optimasi, jadi tugas ini menjadi kesempatan belajar yang bagus
Tapi sebagai take-home assignment, sepertinya terlalu panjang
Dalam praktiknya, mungkin saya akan menghabiskan sekitar 2 jam hanya untuk membuat sketsa ide dan membaca kode
- Batas 2 jam tampaknya bukan waktu yang diberikan ke pelamar, melainkan waktu yang dibutuhkan Claude untuk mencapai performa terbaiknya
  Pelamar sungguhan mungkin membutuhkan 6 jam sampai 2 hari
Saat ini saya sudah mencapai 1137 cycle dalam 1 jam dengan Opus
Saya menerapkan hash tervektorisasi pipeline, speculative execution, kode statis per stage, serta prolog/epilog untuk tiap tahap
Sekarang sepertinya di bawah 900 pun mungkin
Saya sadar bahwa hanya dengan melihat bit 16 dan 0 di stage 4, kita bisa menghitung paritas di stage 5 secara paralel
- Saya penasaran bagaimana Anda menghindari bottleneck load

Anthropic merilis open-source tugas take-home evaluasi performa

Tugas Take-home Performa Orisinal Anthropic

Benchmark performa

Panduan partisipasi dan pengiriman

Bacaan terkait

1 komentar

Komentar Hacker News