9 poin oleh princox 2026-03-07 | 6 komentar | Bagikan ke WhatsApp

Ini adalah benchmark di mana penulis, seorang committer Ruby, meminta Claude Code mengimplementasikan mini Git dalam 13 bahasa lalu mengukur waktu, biaya, dan jumlah baris kode. Pengujian dijalankan total 600 kali, 20 kali untuk tiap bahasa, dan model yang digunakan adalah Claude Opus 4.6.

Hasilnya, Ruby ($0.36) → Python ($0.38) → JavaScript ($0.39) menjadi yang paling cepat dan murah, sementara bahasa bertipe statis 1.4~2.6 kali lebih lambat dan juga lebih mahal. Saat type checker ditambahkan, Python/mypy menjadi 1.6~1.7 kali lebih lambat, dan Ruby/Steep melambat 2~3.2 kali. OCaml dan Haskell yang memiliki jumlah baris kode lebih sedikit tetap berada di papan tengah hingga bawah karena konsumsi token thinking yang tinggi.

Penulis menekankan bahwa “perbedaan antara 30 detik dan 60 detik memengaruhi konsentrasi dan alur pengembangan, dan kecepatan pengembangan itu sendiri adalah salah satu dimensi kualitas.” Namun, ia juga menambahkan bahwa ini memiliki keterbatasan karena merupakan tugas tunggal berskala prototyping, dan pada skala besar static typing bisa lebih menguntungkan.

6 komentar

 
savvykang 2026-03-08

Tampaknya ini mengukur total gabungan yang tercampur dengan variabel-variabel di luar karakteristik bahasa. Di GitHub ada hasil waktu yang dibutuhkan per eksperimen, tetapi tidak ada log eksekusi. Bahkan metrik pengukuran yang paling umum, yaitu waktu yang dibutuhkan per tugas terperinci, sulit untuk diverifikasi, dan mengingat karakteristik keluaran LLM, tampaknya reproduksi tidak mungkin dilakukan.

Penulis juga menyadari di bagian keterbatasan bahwa ini adalah pekerjaan sekali pakai pada tahap prototipe. Meski begitu, secara keseluruhan saya pikir eksperimen ini kurang transparan dan tidak mengendalikan variabel dengan baik.

 
princox 2026-03-09

Akan bagus kalau berbagai bahasa bisa dibandingkan lewat satu eksperimen berskala besar,
namun pengujian sebesar itu pun tidak dilakukan di tingkat perusahaan, dan ketika anggota komunitas yang mengerjakannya, rasanya sulit membuat eksperimen yang akurat.

Saya sudah mencari ke sana-sini, tetapi memang tidak mudah menemukan informasi yang benar-benar bagus.

Dan itu juga wajar, karena entah ada tidak orang yang mau mengeluarkan biaya sendiri untuk merancang eksperimen yang layak demi mengetahui bahasa mana yang lebih baik..

Saya juga merasa ini eksperimen yang punya banyak keterbatasan, tetapi tetap senang karena setidaknya ada yang mencoba..^^

 
happing94 2026-03-07

Sialan, Ruby
Karena penulis Ruby yang mengujinya, ya pasti dia bilang Ruby bagus

 
spp00 2026-03-08

Namun karena karakteristik Ruby, konsumsi token memang cenderung lebih rendah. Bahasa ini cocok untuk menulis kode secara ringkas, sehingga penggunaan token—seperti jumlah token output—juga berkurang.

 
princox 2026-03-09

Hehe, perlu diingat bahwa saya mungkin agak bias karena saya adalah committer bahasa Ruby.

 
skageektp 2026-03-07

Kalau ditanya implementasi bahasa mana yang paling kamu percaya… wkwkwk