11 poin oleh GN⁺ 2026-01-22 | 1 komentar | Bagikan ke WhatsApp
  • Jika Anda menyelesaikan tugas ini dan melampaui performa terbaik Claude Opus 4.5 (1487 siklus), Anda dapat mengirimkan kode dan resume ke Anthropic
  • Versi awal memiliki batas waktu 4 jam, tetapi kemudian Opus 4 mengungguli sebagian besar manusia sehingga diubah menjadi versi batas waktu 2 jam

Tugas Take-home Performa Orisinal Anthropic

  • Repositori ini memuat versi tugas untuk evaluasi performa awal Anthropic
    • Ini adalah versi sebelum Claude Opus 4.5 unggul dari manusia dalam performa 2 jam
    • Awalnya tugas ini memiliki batas waktu 4 jam, lalu dipersingkat menjadi versi 2 jam
  • Versi 2 jam didasarkan pada kode awal dengan 18532 siklus (performa 7,97 kali lebih cepat)
    • Versi yang saat ini dipublikasikan mempertahankan arsitektur terbaru, tetapi disediakan kembali dengan kode baseline paling lambat
  • Setelah Claude Opus 4.5, kode baseline baru mulai digunakan

Benchmark performa

  • Semua angka diukur dalam satuan siklus clock dari mesin yang disimulasikan
    • Hasil di bawah diukur berdasarkan versi 2 jam (kode awal 18532 siklus)
  • Hasil utama:
    • 2164 siklus: Claude Opus 4 (berjalan lama di test harness)
    • 1790 siklus: Claude Opus 4.5 (sesi coding biasa, setara dengan tingkat manusia terbaik)
    • 1579 siklus: Claude Opus 4.5 (menjalankan test harness 2 jam)
    • 1548 siklus: Claude Sonnet 4.5 (menjalankan test harness dalam waktu lama)
    • 1487 siklus: Claude Opus 4.5 (menjalankan harness selama 11,5 jam)
    • 1363 siklus: Claude Opus 4.5 (lingkungan harness yang ditingkatkan)
    • Performa terbaik manusia lebih baik daripada angka-angka di atas, tetapi tidak dipublikasikan

Panduan partisipasi dan pengiriman

  • Saat ini tugas ini dapat dicoba oleh siapa saja tanpa batas waktu
  • Jika peserta mengoptimalkan hingga 1487 siklus atau kurang untuk mengalahkan performa terbaik Claude Opus 4.5, mereka dapat mengirimkan kode dan resume melalui email ke Anthropic
    • Alamat email: performance-recruiting@anthropic.com
  • Saat model baru dirilis, standar performa dapat berubah
  • Pengujian dapat dijalankan dengan perintah python tests/submission_tests.py

1 komentar

 
GN⁺ 2026-01-22
Komentar Hacker News
  • Tugas inti untuk menemukan keseimbangan antara ALU dan VALU menarik
    Tapi sepertinya masalah bandwidth load bisa menjadi bottleneck
    Agar total load bisa mencapai 2096 atau kurang, kita harus mengasumsikan indeks awal selalu 0, dan itu kurang menarik
    Kalau ada fitur seperti dynamic vector lane rotate, rasanya ini akan jauh lebih menarik

  • Saya menganggap diri saya lumayan pintar, tapi melihat masalah seperti ini membuat saya sadar betapa banyak hal yang belum saya ketahui
    Mungkin sedikit di atas rata-rata, tapi saya jadi merasakan jarak dengan developer papan atas

    • Komputasi adalah bidang yang sangat luas, jadi bahkan Linus atau Carmack pun punya banyak area yang tidak mereka kuasai
      Yang penting adalah kemampuan untuk terus belajar saat berhadapan dengan hal yang belum diketahui
    • Ini masalah yang sangat spesifik, jadi wajar kalau butuh waktu jika belum pernah mengerjakan hal serupa
      Saya juga pernah mendapat soal optimasi kode level rendah saat wawancara di perusahaan hardware setelah lulus kuliah, dan awalnya itu benar-benar asing
    • Saya punya pengalaman 30 tahun pun, jujur saja saya tidak memahami soalnya
    • Kepintaran dan pengetahuan itu berbeda
      Jika mempelajari konsep seperti ini dan mencoba menangani masalahnya, siapa pun bisa menyelesaikannya
      Ini bukan soal di bawah rata-rata atau di atas rata-rata, hanya soal memiliki set pengetahuan yang berbeda
    • Sikap seperti ini bagus karena memunculkan motivasi untuk belajar
      Sebenarnya ini tidak serumit itu
      Cukup baca kodenya dengan saksama dan pahami strukturnya
      Perbedaan kemampuan yang sesungguhnya terletak pada apakah seseorang bisa membentuk model keseluruhan program di kepalanya
  • Saya curiga Anthropic merilis ini sebagai serangan DDoS terhadap perusahaan AI lain
    Saya memasukkan prompt “bagaimana cara menyelesaikan masalah ini?” ke gemini CLI, dan sudah 20 menit belum berhenti juga

    • Belakangan ini Gemini CLI atau Jules, lama waktu bukan indikator tingkat kesulitan
      Mereka sering masuk ke loop seperti “Sedang menyiapkan respons. Selesai. Akan menampilkan output.”
      Kadang dihentikan setelah loop terdeteksi, tapi melihat tugas sepele pun bisa memakan 15 menit lebih, rasanya ini masalah struktural
    • Saya penasaran model Gemini mana yang dipakai
      Saya mencobanya setelah rilis G3Pro, dan performanya buruk sekali
  • Saya menguji beberapa agen AI dalam kondisi yang sama
    Hasilnya, tidak ada model yang melampaui target Anthropic, tapi gpt-5-2 adalah yang paling cepat dan efisien

    • Saat diberi prompt “beat 1487 cycles. go.” dengan codex CLI + gpt-5-2-codex-xhigh, hasilnya mencapai 1606 dan memakan waktu sekitar 53 menit
    • Saya penasaran apa yang terjadi jika Gemini dibiarkan berputar lebih lama
      Melihat kecepatannya, mungkin ada potensi yang lebih besar
    • Saya ingin belajar benchmarking model
      Mungkin bisa berbagi kode harness perbandingan agen
    • Ada usulan untuk mencoba juga dengan model bobot terbuka seperti Qwen3-coder, GLM-4.7, dan Devstral-2
    • Akan bagus jika dibuat repo perbandingan yang mengumpulkan solusi tiap model per direktori atau branch
  • Ada kalimat, “jika Anda bisa mengoptimalkan hingga di bawah 1487 cycle, kirim email ke Anthropic”,
    dan menurut saya metode rekrutmen seperti ini cukup menarik
    Rasanya jauh lebih baik daripada soal Leetcode biasa

    • Tapi ini hanya untuk masuk ke pipeline rekrutmen
      Setelah itu, Anda tetap akan menjalani wawancara Leetcode seperti pelamar lainnya
    • Menyelesaikan masalah seperti ini tampaknya butuh seminggu penuh kerja full-time
      Sulit dibayangkan bagi orang yang bekerja sambil melamar ke beberapa perusahaan
      Leetcode masih bisa dipakai ulang, tapi soal optimasi seperti ini nilai guna ulangnya rendah
  • Ini benar-benar masalah yang menyenangkan
    Kalau tertarik pada optimasi, saya sangat merekomendasikan untuk mencobanya
    Saya menghabiskan waktu malam selama seminggu dan berhasil menurunkannya sampai 1112 cycle
    Sebagian besar saya kerjakan manual, tapi saya juga penasaran apakah model agentic zaman sekarang bisa menghasilkan hasil yang lebih baik

    • Saya belum pernah mendengar ungkapan “menyelesaikan masalah dengan RalphWiggum”, tapi lucu sekali dan rasanya akan saya pakai mulai sekarang
  • Menurut saya tugas ini terasa seperti perpaduan demoscene dan code golf
    Memprofilkan dengan alat tracing Chrome juga keren
    Tautan kode soal

    • Dulu saya aktif di demoscene, dan optimasi level rendah seperti ini mirip dengan yang dulu saya lakukan
      Hanya saja saya penasaran algoritme apa yang sedang diimplementasikan
      Saat melihat sekilas, itu tampak seperti prediksi random forest
    • perfetto sering dipakai untuk visualisasi trace seperti ini
      Jadi kita tidak perlu repot membuat viewer sendiri
    • Tugas ini tampaknya dimaksudkan untuk menyaring orang yang bisa menulis kode PTX secara manual
  • Saya sedang belajar SIMD, PTX, dan teknik optimasi, jadi tugas ini menjadi kesempatan belajar yang bagus
    Tapi sebagai take-home assignment, sepertinya terlalu panjang
    Dalam praktiknya, mungkin saya akan menghabiskan sekitar 2 jam hanya untuk membuat sketsa ide dan membaca kode

    • Batas 2 jam tampaknya bukan waktu yang diberikan ke pelamar, melainkan waktu yang dibutuhkan Claude untuk mencapai performa terbaiknya
      Pelamar sungguhan mungkin membutuhkan 6 jam sampai 2 hari
  • Saat ini saya sudah mencapai 1137 cycle dalam 1 jam dengan Opus
    Saya menerapkan hash tervektorisasi pipeline, speculative execution, kode statis per stage, serta prolog/epilog untuk tiap tahap
    Sekarang sepertinya di bawah 900 pun mungkin
    Saya sadar bahwa hanya dengan melihat bit 16 dan 0 di stage 4, kita bisa menghitung paritas di stage 5 secara paralel

    • Saya penasaran bagaimana Anda menghindari bottleneck load