16 poin oleh GN⁺ 2026-01-19 | 1 komentar | Bagikan ke WhatsApp
  • Claude Code diintegrasikan ke game open source RollerCoaster Tycoon 2 (OpenRCT2) untuk menguji AI yang benar-benar mengelola taman hiburan
  • AI menganalisis lebih dari 100 metrik seperti keuangan, keluhan tamu, dan data kerusakan wahana, lalu otomatis mengambil keputusan manajemen seperti memasang kios minuman, merekrut staf, dan menyesuaikan harga tiket masuk
  • Melalui alat CLI rctctl, semua operasi dalam game dilakukan lewat baris perintah, dengan struktur yang dirancang mirip kubectl di Kubernetes
  • Claude menunjukkan kekuatan pada analisis data, penyesuaian harga, dan manajemen staf, tetapi memperlihatkan keterbatasan pada tugas spasial seperti menghubungkan jalur, menempatkan roller coaster, dan mengenali kontur medan
  • Eksperimen ini menegaskan bahwa inti desain agen adalah keterbacaan lingkungan dan kualitas antarmuka

Gambaran proyek

  • Ramp Labs mengintegrasikan Claude Code ke RollerCoaster Tycoon 2 untuk menguji AI yang langsung menjalankan operasional taman
    • Claude menganalisis lebih dari 100 data dalam game, seperti keuangan, kepuasan tamu, dan status wahana
    • Berdasarkan hasilnya, Claude otomatis mengusulkan tindakan seperti menambah kios minuman, merekrut mekanik, dan menaikkan harga tiket masuk
  • Tujuan eksperimen ini adalah mendapatkan pelajaran desain agen AI di lingkungan B2B SaaS
  • RollerCoaster Tycoon dipilih karena merupakan game yang mencerminkan operasi bisnis yang berpusat pada pelanggan dan loop umpan balik digital

Mengapa RollerCoaster Tycoon

  • Ramp sedang mengembangkan agen kecil untuk tiap tugas dengan pendekatan yang mempertimbangkan batas keamanan dan konteks
  • Namun, ada dorongan eksperimental untuk mencoba agen tunggal dengan otoritas yang luas
  • RollerCoaster Tycoon menyediakan lingkungan yang menggabungkan ekonomi, pelanggan, dan manajemen operasional, sehingga strukturnya mirip dengan operasional SaaS
  • Antarmuka game ini mirip dashboard B2B SaaS, dan juga selaras dengan antarmuka terminal retro-futuristik milik Claude

Kemampuan dan keterbatasan Claude

  • OpenRCT2 di-fork untuk menambahkan jendela terminal, sehingga Claude dapat mengendalikan game lewat baris perintah
  • CLI rctctl mencakup semua operasi yang tersedia bagi pengguna, dan berkomunikasi dengan status game melalui JSON-RPC
  • Alih-alih visual, Claude memahami informasi spasial melalui output peta ASCII

Kekuatan Claude

  • Pengetahuan game: memiliki pengetahuan luas terkait RCT dan dapat bekerja secara alami bahkan di lingkungan game era 90-an
  • Pengumpulan informasi: mampu menggabungkan dan menganalisis beragam metrik seperti umpan balik tamu dan data keuangan
  • Operasi digital: kuat dalam tugas nonspasial seperti membuka/menutup wahana, menyesuaikan harga, merekrut staf, dan menjalankan pemasaran
  • Penempatan fasilitas: dapat menempatkan struktur sederhana seperti toilet dan kios minuman dengan stabil

Kelemahan Claude

  • Menghubungkan jalur: kesulitan dalam tugas spasial seperti pencarian rute dan menghubungkan pintu masuk/keluar
  • Penempatan roller coaster: gagal mengenali hambatan dan kontur medan saat memasang wahana besar
  • Persepsi ruang 3D: tidak mampu memahami lereng, struktur bawah tanah, atau merancang coaster kustom
  • Kesimpulannya, Claude kuat dalam manajemen berbasis informasi, tetapi lemah dalam manipulasi visual dan spasial

Proses build

  • Berdasarkan OpenRCT2 (C++), proyek ini menambahkan jendela terminal Claude, CLI rctctl, lapisan RPC, dan kode pengujian
  • Versi awal direncanakan dengan ChatGPT o3-Pro Deep Research, lalu diimplementasikan ulang menggunakan GPT-5.1-codex
  • Total waktu pengerjaan lebih dari 40 jam, dan tidak adanya loop umpan balik disebut sebagai bottleneck terbesar
  • Efisiensi QA ditingkatkan dengan membuat Claude langsung menulis laporan bug ke repositori

Pelajaran utama

  • Keterbacaan lingkungan (Environment Legibility): Claude sangat baik pada antarmuka data yang jelas, tetapi lemah pada representasi ruang berbasis teks
  • Nilai agen coding: pembaruan model terbaru seperti Claude Opus 4.5 dapat langsung dimanfaatkan sehingga mempercepat pengembangan
  • Pentingnya loop pengembangan: tanpa loop QA otomatis, produktivitas turun drastis
  • Keunggulan pengalaman langsung: cara terbaik memahami cara kerja LLM adalah dengan bereksperimen dan bermain secara langsung

Menjalankan dan info open source

  • Memerlukan macOS (Sonoma atau lebih baru), Xcode, CMake, Ninja, dan RCT2 (versi resmi)
  • CLI rctctl menggunakan struktur perintah bergaya kubectl, dan Claude mengendalikan game melalui JSON-RPC
  • Hasil build:
    • OpenRCT2 (versi dengan terminal bawaan)
    • rctctl (alat CLI)
    • Aset sprite
  • Seluruh kode dipublikasikan di GitHub (jaysobel/OpenRCT2), dan demo langsung tersedia di Twitch

Kesimpulan

  • Claude Code sekaligus menunjukkan potensi dan batasan otomasi operasional
  • RollerCoaster Tycoon berfungsi sebagai arena eksperimen transisional antara antarmuka grafis dan sistem cerdas
  • Wawasan utamanya: keberhasilan atau kegagalan agen AI bergantung pada kejernihan lingkungan dan kualitas desain antarmuka

1 komentar

 
GN⁺ 2026-01-19
Komentar Hacker News
  • Saya selalu merasa sayang karena tingkat alat yang digunakan LLM saya terlalu rendah
    Saya bisa melakukan refactoring, melacak simbol, melihat penggunaan fungsi, dan lain-lain di IDE hanya dengan satu klik, tetapi LLM hanya memakai perintah primitif seperti grep, diff, dan cat
    Saya penasaran apakah ada upaya untuk memberi LLM alat penulisan·refactoring kode yang lebih baik

    • Bahkan jika diberi akses ke VSCode Diagnostics atau server LSP, LLM tetap cenderung hanya memakai alat CLI dasar
      Meskipun sudah ditulis di AGENTS.md, sering diabaikan dan kembali ke cara yang sederhana, yang cukup membuat frustrasi
    • Saya terkejut karena sebagian besar alat pengembangan AI berbasis VSCode
      Jika kemampuan refactoring dan code inspection milik JetBrains dihubungkan dengan AI, rasanya mereka bisa jauh lebih unggul
    • Claude Code memang sudah mendukung LSP secara resmi di versi Desember 2025, tetapi tampaknya masih dilatih dengan fokus pada alat yang sederhana
      LLM justru punya keunggulan dalam memecahkan masalah dengan menggabungkan alat tingkat rendah
      Skrip Python kompleks sepanjang 20 baris yang terasa rumit bagi manusia bisa dibuat LLM hanya dalam 0,5 detik
    • Zed Editor memberikan fitur berbasis LSP langsung kepada LLM, sehingga mengurangi ketergantungan pada grep
    • LLM tidak selalu membutuhkan fitur IDE seperti manusia
      Karena ia cepat memahami dan menggabungkan potongan kode, fitur refactoring justru bisa menimbulkan kebingungan
      Jika diberi terlalu banyak alat, ada risiko kemampuan penilaiannya malah menjadi kabur
  • Saya penulisnya. Saya membagikan tautan bonus
    Skrip sesi menggunakan claude-code-transcripts dari Simon Willison
    Postingan Reddit
    Repo proyek OpenRCT2

    • Saya penasaran apakah evaluasinya dilakukan lewat screenshot atau tampilan yang divisualisasikan, bukan CLI
      Claude kuat pada input berbasis gambar, tetapi bisa jadi lemah pada diagram ASCII
    • Ada yang menyinggung keterbatasan persepsi visual·spasial Claude, dan berpendapat model OpenAI mungkin lebih unggul dalam memahami gambar
  • Seperti perancangan agen di dunia nyata, batas agen serbaguna ada pada visibilitas lingkungan dan kekuatan antarmuka
    Karena itu, mungkin lebih tepat melihat agen sebagai sesuatu yang mengotomatiskan ‘ketekunan’, bukan ‘kecerdasan’

  • Pernah ada insiden ketika kata “revert” dipakai secara keliru, lalu Codex benar-benar menjalankan git revert dan membalikkan isi pekerjaan

    • Mengejutkan bahwa alat seperti ini tidak menyimpan log pekerjaan dalam bentuk yang bisa diputar ulang
      git revert bukan perintah yang destruktif, jadi jika memang terjadi kehilangan data, kemungkinan besar yang dijalankan adalah git reset --hard
    • Untuk mencegah insiden seperti ini, dibutuhkan fitur kontrol izin perintah
    • Karena itu ada juga pendapat untuk memakai Jujutsu; cukup masukkan jj status ke prompt agar lebih aman
  • Menakjubkan bahwa game ini dikembangkan sendirian oleh satu orang dalam kode assembly
    Saya ingin mencari pengembangnya dan menyampaikan terima kasih
    Upaya Claude Code juga mengesankan, jadi saya jadi tertarik

  • Menarik bahwa proyek ini diselesaikan lewat vibe-coding tanpa benar-benar memahami C++ sama sekali

    • Biasanya vibe-coding diceritakan sebagai “selesai dalam beberapa jam”, tetapi kali ini menarik karena yang disajikan justru jadwal yang realistis
    • Proses trial and error dan pemecahan masalah mereka benar-benar sangat menarik
    • Kalau hal seperti ini sudah ada pada 1997, rasanya saya akan membelinya meski harus menghabiskan seluruh harta saya
      Generasi sekarang tampaknya kurang memahami nilai dari lingkungan seperti ini
  • Wawancara di akhir videonya sangat berkesan
    Alat kolaborasi AI dan manusia seperti CLI bergaya kubectl, feedback Claude, dan sistem peringatan menjadi semakin penting
    Jika konteks yang bisa dipahami manusia secara visual juga diberikan kepada AI, hasilnya bisa jauh lebih baik

    • Namun struktur di mana AI memperbaiki dirinya sendiri pada praktiknya tidak terlalu berjalan baik
      Hanya menambah konteks tidak membuat pembelajaran terjadi, dan pada akhirnya tetap memerlukan fine-tuning
  • Tulisannya menarik, tetapi kurang ada analisis hasil tentang seberapa baik AI benar-benar memainkan game itu

    • Dalam praktiknya, AI cukup bagus dalam mengelola keuangan, tetapi lemah dalam membangun bangunan
      Karena sulit memahami peta 2D, ia hanya membangun hal seperti toilet dan kios hotdog
      Kalau modelnya multimodal, mungkin hasilnya akan jauh lebih baik
    • Ada juga yang melihat inti AI itu pada kemampuan generasi, bukan verifikasi
  • Saya penasaran bagaimana cara melihat sisa konteks di Claude Code

    • Bisa langsung dicek dengan perintah /context
    • Tampilan penggunaan konteks juga bisa ditambahkan ke status line
      Bahkan ada plugin yang memvisualisasikan sisa kapasitas dengan batang warna
  • Saya rasa eksperimen seperti ini lebih cocok memakai game turn-based seperti Civilization
    Karena petanya berbentuk grid dan permainan berjalan per giliran