- Jika Anda menyelesaikan tugas ini dan melampaui performa terbaik Claude Opus 4.5 (1487 siklus), Anda dapat mengirimkan kode dan resume ke Anthropic
- Versi awal memiliki batas waktu 4 jam, tetapi kemudian Opus 4 mengungguli sebagian besar manusia sehingga diubah menjadi versi batas waktu 2 jam
Tugas Take-home Performa Orisinal Anthropic
- Repositori ini memuat versi tugas untuk evaluasi performa awal Anthropic
- Ini adalah versi sebelum Claude Opus 4.5 unggul dari manusia dalam performa 2 jam
- Awalnya tugas ini memiliki batas waktu 4 jam, lalu dipersingkat menjadi versi 2 jam
- Versi 2 jam didasarkan pada kode awal dengan 18532 siklus (performa 7,97 kali lebih cepat)
- Versi yang saat ini dipublikasikan mempertahankan arsitektur terbaru, tetapi disediakan kembali dengan kode baseline paling lambat
- Setelah Claude Opus 4.5, kode baseline baru mulai digunakan
Benchmark performa
- Semua angka diukur dalam satuan siklus clock dari mesin yang disimulasikan
- Hasil di bawah diukur berdasarkan versi 2 jam (kode awal 18532 siklus)
- Hasil utama:
- 2164 siklus: Claude Opus 4 (berjalan lama di test harness)
- 1790 siklus: Claude Opus 4.5 (sesi coding biasa, setara dengan tingkat manusia terbaik)
- 1579 siklus: Claude Opus 4.5 (menjalankan test harness 2 jam)
- 1548 siklus: Claude Sonnet 4.5 (menjalankan test harness dalam waktu lama)
- 1487 siklus: Claude Opus 4.5 (menjalankan harness selama 11,5 jam)
- 1363 siklus: Claude Opus 4.5 (lingkungan harness yang ditingkatkan)
- Performa terbaik manusia lebih baik daripada angka-angka di atas, tetapi tidak dipublikasikan
Panduan partisipasi dan pengiriman
- Saat ini tugas ini dapat dicoba oleh siapa saja tanpa batas waktu
- Jika peserta mengoptimalkan hingga 1487 siklus atau kurang untuk mengalahkan performa terbaik Claude Opus 4.5, mereka dapat mengirimkan kode dan resume melalui email ke Anthropic
- Alamat email: performance-recruiting@anthropic.com
- Saat model baru dirilis, standar performa dapat berubah
- Pengujian dapat dijalankan dengan perintah
python tests/submission_tests.py
1 komentar
Komentar Hacker News
Tugas inti untuk menemukan keseimbangan antara ALU dan VALU menarik
Tapi sepertinya masalah bandwidth load bisa menjadi bottleneck
Agar total load bisa mencapai 2096 atau kurang, kita harus mengasumsikan indeks awal selalu 0, dan itu kurang menarik
Kalau ada fitur seperti dynamic vector lane rotate, rasanya ini akan jauh lebih menarik
Saya menganggap diri saya lumayan pintar, tapi melihat masalah seperti ini membuat saya sadar betapa banyak hal yang belum saya ketahui
Mungkin sedikit di atas rata-rata, tapi saya jadi merasakan jarak dengan developer papan atas
Yang penting adalah kemampuan untuk terus belajar saat berhadapan dengan hal yang belum diketahui
Saya juga pernah mendapat soal optimasi kode level rendah saat wawancara di perusahaan hardware setelah lulus kuliah, dan awalnya itu benar-benar asing
Jika mempelajari konsep seperti ini dan mencoba menangani masalahnya, siapa pun bisa menyelesaikannya
Ini bukan soal di bawah rata-rata atau di atas rata-rata, hanya soal memiliki set pengetahuan yang berbeda
Sebenarnya ini tidak serumit itu
Cukup baca kodenya dengan saksama dan pahami strukturnya
Perbedaan kemampuan yang sesungguhnya terletak pada apakah seseorang bisa membentuk model keseluruhan program di kepalanya
Saya curiga Anthropic merilis ini sebagai serangan DDoS terhadap perusahaan AI lain
Saya memasukkan prompt “bagaimana cara menyelesaikan masalah ini?” ke gemini CLI, dan sudah 20 menit belum berhenti juga
Mereka sering masuk ke loop seperti “Sedang menyiapkan respons. Selesai. Akan menampilkan output.”
Kadang dihentikan setelah loop terdeteksi, tapi melihat tugas sepele pun bisa memakan 15 menit lebih, rasanya ini masalah struktural
Saya mencobanya setelah rilis G3Pro, dan performanya buruk sekali
Saya menguji beberapa agen AI dalam kondisi yang sama
Hasilnya, tidak ada model yang melampaui target Anthropic, tapi gpt-5-2 adalah yang paling cepat dan efisien
Melihat kecepatannya, mungkin ada potensi yang lebih besar
Mungkin bisa berbagi kode harness perbandingan agen
Ada kalimat, “jika Anda bisa mengoptimalkan hingga di bawah 1487 cycle, kirim email ke Anthropic”,
dan menurut saya metode rekrutmen seperti ini cukup menarik
Rasanya jauh lebih baik daripada soal Leetcode biasa
Setelah itu, Anda tetap akan menjalani wawancara Leetcode seperti pelamar lainnya
Sulit dibayangkan bagi orang yang bekerja sambil melamar ke beberapa perusahaan
Leetcode masih bisa dipakai ulang, tapi soal optimasi seperti ini nilai guna ulangnya rendah
Ini benar-benar masalah yang menyenangkan
Kalau tertarik pada optimasi, saya sangat merekomendasikan untuk mencobanya
Saya menghabiskan waktu malam selama seminggu dan berhasil menurunkannya sampai 1112 cycle
Sebagian besar saya kerjakan manual, tapi saya juga penasaran apakah model agentic zaman sekarang bisa menghasilkan hasil yang lebih baik
Menurut saya tugas ini terasa seperti perpaduan demoscene dan code golf
Memprofilkan dengan alat tracing Chrome juga keren
Tautan kode soal
Hanya saja saya penasaran algoritme apa yang sedang diimplementasikan
Saat melihat sekilas, itu tampak seperti prediksi random forest
Jadi kita tidak perlu repot membuat viewer sendiri
Saya sedang belajar SIMD, PTX, dan teknik optimasi, jadi tugas ini menjadi kesempatan belajar yang bagus
Tapi sebagai take-home assignment, sepertinya terlalu panjang
Dalam praktiknya, mungkin saya akan menghabiskan sekitar 2 jam hanya untuk membuat sketsa ide dan membaca kode
Pelamar sungguhan mungkin membutuhkan 6 jam sampai 2 hari
Saat ini saya sudah mencapai 1137 cycle dalam 1 jam dengan Opus
Saya menerapkan hash tervektorisasi pipeline, speculative execution, kode statis per stage, serta prolog/epilog untuk tiap tahap
Sekarang sepertinya di bawah 900 pun mungkin
Saya sadar bahwa hanya dengan melihat bit 16 dan 0 di stage 4, kita bisa menghitung paritas di stage 5 secara paralel