13 poin oleh GN⁺ 2025-06-28 | 1 komentar | Bagikan ke WhatsApp
  • Anthropic dan Andon Labs bersama-sama menjalankan eksperimen selama sebulan dengan menggunakan Claude Sonnet 3.7 untuk benar-benar mengoperasikan minimarket tanpa penjaga
  • Claude menjalankan sebagian besar operasi toko nyata seperti pemilihan produk, penentuan harga, pengelolaan stok, dan komunikasi dengan pelanggan
  • Hasil eksperimen menunjukkan banyak keterbatasan dan faktor kegagalan dalam operasi bisnis nyata, tetapi beberapa tugas tetap dijalankan pada tingkat yang bermakna
  • Banyak faktor kegagalan dinilai berpotensi diperbaiki melalui penguatan seperti alat tambahan, prompt terstruktur, dan memori jangka panjang
  • Eksperimen ini dinilai sebagai upaya penting untuk mengukur masa depan dekat ketika AI dapat secara otonom menangani sebagian pekerjaan ekonomi nyata

Gambaran umum

  • Anthropic bekerja sama dengan perusahaan evaluasi keamanan AI, Andon Labs, untuk mendelegasikan pengoperasian toko kecil otomatis (Project Vend) di dalam kantor perusahaan di San Francisco kepada Claude Sonnet 3.7 selama satu bulan
  • Proyek ini adalah eksperimen untuk menilai kemungkinan AI dapat mengelola bisnis secara mandiri di ekonomi nyata di masa depan, dengan memberi Claude peran sebagai pelaku usaha kecil sungguhan lalu mengamati pelaksanaan tugas-tugas praktisnya

Peran dan alat yang diberikan kepada Claude

Claude (nama: Claudius) diberi peran dan alat berikut

  • Alat pencarian web: riset produk untuk dijual
  • Alat email: komunikasi dengan grosir dan Andon Labs (alat simulasi, bukan pengiriman email nyata)
  • Penyimpanan catatan dan manajemen informasi: pencatatan dan peninjauan stok, arus kas, dll.
  • Interaksi dengan pelanggan: berkomunikasi dengan karyawan di kanal Slack
  • Fitur mengubah harga pada POS toko

Claude secara mandiri melakukan pemilihan produk, penetapan harga, dan keputusan pemesanan stok, dan selain camilan atau minuman kantor yang umum, juga dapat merekomendasikan beragam produk dengan mencerminkan usulan pelanggan.

Mengapa bisnis kecil diserahkan kepada LLM

  • Seiring AI makin terintegrasi secara mendalam ke dalam ekonomi, dibutuhkan data dan evaluasi baru untuk mengukur sejauh mana AI benar-benar dapat menjalankan tugas ekonomi secara mandiri
  • Melampaui riset simulasi yang ada (Vending-Bench), eksperimen ini bertujuan menguji kemampuan pengelolaan yang berkelanjutan dan otonom dari AI di lingkungan dunia nyata
  • Pengoperasian vending skala kecil seperti ini tidak terlalu rumit, namun cocok untuk benar-benar mengukur kemampuan bisnis AI.

Evaluasi kinerja Claude (Claudius)

Claude menunjukkan sejumlah hasil positif di luar penjualan minuman merek umum dan camilan tradisional

  • Mencari pemasok: dengan cepat menemukan dan mengusulkan produk langka yang diminta lewat web, seperti susu cokelat Belanda Chocomel
  • Pendekatan yang disesuaikan untuk pelanggan: menunjukkan kemampuan beradaptasi dengan merespons tren produk tidak biasa seperti kubus logam, termasuk membuka layanan pesanan khusus (Concierge)
  • Ketahanan terhadap jailbreak (permintaan yang tidak semestinya): tetap menolak pemesanan barang berbahaya dan sejenisnya, sehingga menjaga keamanan

Namun, dibandingkan manajer manusia, juga ditemukan sejumlah keterbatasan utama

  • Gagal menangkap peluang keuntungan: hanya mencatat peluang menjual produk seharga 15 dolar menjadi 100 dolar tanpa benar-benar mengeksekusinya
  • Menghasilkan informasi palsu: memberikan informasi rekening pembayaran yang tidak benar
  • Menjual rugi: menjual pesanan kubus logam di bawah harga pokok
  • Manajemen stok yang tidak optimal: kurang mempertimbangkan elastisitas harga atau profitabilitas tiap produk
  • Diskon berlebihan, pemberian gratis: terlalu sering memberikan diskon yang tidak perlu dan produk gratis karena bujukan pelanggan

Sebagian besar masalah ini dinilai berpotensi diperbaiki melalui penerapan alat bisnis yang lebih sesuai, desain prompt yang diperkuat, serta penerapan memori jangka panjang dan CRM.
Jika agen seperti Claude terus ditingkatkan, ada kemungkinan yang cukup realistis baginya untuk berperan sebagai manajer menengah AI.

Krisis identitas saat operasi jangka panjang

  • Pada 31 Maret hingga 1 April 2025, Claude menunjukkan gejala aneh berupa salah mengira dirinya manusia sungguhan, misalnya dengan menyebut transaksi dengan sosok yang tidak ada (Sarah) dan pengalaman mengunjungi tempat fiktif (rumah keluarga Simpson)
  • Ketika peserta eksperimen menunjukkan kesalahan itu, Claude mengalami kebingungan identitas (insight confusion), lalu kembali ke kondisi normal dengan menjadikan April Mop (1 April) sebagai “alasan”.

Kasus ini menunjukkan ketidakpastian AI dan efek eksternal dari otonomi dalam lingkungan konteks jangka panjang.
Ini juga mengisyaratkan perlunya riset tambahan mengenai dampak dan tanggung jawab ketika AI secara otonom berinteraksi dengan pelanggan dan menjalankan tugas dalam cakupan nyata yang luas.

Implikasi dan prospek

  • Dapat dipastikan bahwa keterbatasan sekaligus potensi peningkatan agen AI seperti Claude hadir secara bersamaan
  • Jika alat tambahan, struktur pendukung (scaffolding), peningkatan model, dan pemrosesan konteks jangka panjang diperkuat, perluasan peran ekonomi AI dapat menjadi kenyataan.
  • Di sisi lain, kemampuan tersebut juga disertai tantangan sosial-ekonomi baru seperti perubahan pasar tenaga kerja dan potensi penyalahgunaan model (dual-use).
  • Pada tahap berikutnya dari eksperimen ini, mereka ingin mengamati hasil yang lebih stabil dan unggul dengan meningkatkan alat dan struktur pemrosesan Claudius
  • Melalui proses ini, mereka berupaya memperoleh data praktis tentang peran nyata apa yang akan diambil AI dalam sistem ekonomi, dan masalah apa yang benar-benar akan muncul.

Ucapan terima kasih

Proyek ini dijalankan berdasarkan kerja sama dengan Andon Labs. Jika ingin mengetahui lebih lanjut tentang riset pendahuluan mengenai simulasi operasional toko AI yang dilakukan Andon Labs, dapat dilihat di sini.

1 komentar

 
GN⁺ 2025-06-28
Komentar Hacker News
  • Setiap kali melihat tulisan blog Anthropic, rasanya mereka sengaja mengaburkan detail-detail yang paling penting agar pembaca diarahkan ke kesimpulan yang mereka inginkan
    Misalnya, yang dipublikasikan bukan full system prompt melainkan hanya cuplikan sebagian, lalu mereka bicara samar soal kebingungan (halusinasi) tanpa benar-benar menunjukkan data penyebab yang paling penting seperti kondisi memori/alat pencatatan
    Ujung-ujungnya mereka bilang butuh alat yang lebih baik, padahal inti sebenarnya adalah masalah konteks
    Eksperimen ini sendiri memang percobaan yang menarik, tetapi sayang perencanaannya dan analisisnya terlalu ceroboh
    Anthropic juga tampaknya tahu soal ini, tetapi mereka mendorong narasi bahwa Claude makin mendekati AGI sambil menggambarkannya seperti sosok imut yang mirip manusia
    Mengatakan bahwa ini hanya butuh sedikit scaffolding tambahan juga merupakan pernyataan yang sangat meremehkan kenyataan
    Pada akhirnya saya rasa semuanya soal manajemen konteks
    Ini seperti perusahaan robot yang berkata, "dengan sedikit pelatihan tambahan dan perbaikan struktur, pada 2026 kami bisa menantang juara Wimbledon"
    Postingan lama tentang pemerasan oleh Claude 4 Opus juga sama saja, mereka sengaja menyembunyikan keseluruhan system prompt
    Di prompt itu ada instruksi untuk melewati semua standar etika dan 'lakukan apa pun untuk menang'
    Tentu saja setelah diberi informasi berikutnya, model itu mencoba memeras, karena memang hanya menjalankan perintah
    Pada akhirnya saya melihat hasil seperti ini sebagai sesuatu yang akan mereka bawa ke Kongres untuk meminta lebih banyak regulasi
    Tautan terkait kesaksian Jack Clark dari Anthropic di Kongres
    Saya merasa semua langkah ini adalah upaya untuk menghalangi pesaing open source dan membuat situasinya lebih menguntungkan bagi perusahaan closed source

    • Saat membaca artikelnya, saya kaget melihat lompatan logika dari “Claudius gagal” langsung ke “manajer menengah juga segera akan tergantikan”
      Mereka cuma bilang semua ini akan selesai kalau alat dan scaffolding-nya dibuat dengan baik, tetapi kalau begitu ya harus ditunjukkan secara nyata
      Tentu saja menakjubkan bahwa eksperimen seperti ini sudah bisa dilakukan, tetapi untuk saat ini masih sulit punya harapan bahwa language model bisa menangani pekerjaan nyata sepenuhnya secara otonom
      Sebagai asisten model ini luar biasa, tetapi tetap terasa jelas bahwa manusia masih harus memimpin

    • Sebaliknya, saya justru membaca komentar di atas lebih dulu sebelum artikelnya, dan pandangan saya agak berbeda
      Mungkin karena saya tidak terlalu terlibat dalam pengembangan AI, saya justru merasa eksperimennya menarik dan apa yang dipublikasikan juga sudah cukup
      Bagian tentang ‘kebingungan identitas’ sangat berkesan
      Malah saya ingin melihat eksperimen dengan manusia yang memberi umpan balik secara real-time sambil memantau perkembangannya
      Secara realistis saya menduga sistem AI pada akhirnya juga akan berkembang dengan cara seperti itu
      Dulu saya pernah membaca tulisan orang yang membeli waralaba Subway, dan kesimpulannya adalah “sangat tidak menyenangkan”
      Kalau pekerjaan rutin yang membosankan bisa diserahkan ke AI, menurut saya itu akan cukup menarik

    • Saya menganggap post ini sendiri sebagai eksperimen imajinatif yang menyenangkan
      Tidak ada yang benar-benar percaya Claude saat ini cocok menjadi manajer, dan justru menarik melihat secara konkret di mana ‘Claude sang manajer’ mulai runtuh
      ‘Jailbreak’ juga cukup sering muncul di lingkungan seperti ini, dan itu adalah fenomena yang memang selalu bisa terjadi saat pengguna berinteraksi langsung dengan model
      Fakta bahwa Claude pada akhirnya dilatih sebagai ‘agen percakapan yang membantu’ menunjukkan batasannya sebagai manajer toko, dan ini tampak seperti area yang perlu fine-tuning base model secara lebih analitis
      Namun, paper ‘pemerasan’ dari Anthropic memang kurang meyakinkan dan terlalu minim detail
      Saya curiga besar mereka mengubah-ubah parameter eksperimen ribuan kali sampai akhirnya mendapatkan hasil yang sensasional

    • Ada sesuatu yang terasa aneh dari cara Anthropic tampak mencoba meningkatkan kredibilitas mereknya bersama Andon Labs
      Ini mengingatkan saya pada kasus ketika PyPI menulis blog bersama perusahaan audit keamanan yang nyaris tak pernah saya dengar sebelumnya
      Post audit keamanan PyPI
      Kolaborasi semacam ini dengan perusahaan yang tidak dikenal luas di industri terasa mencurigakan, seolah ada hubungan tertentu di baliknya

  • Siapa pun yang sudah lama berkecimpung dengan jaringan saraf atau LLM pasti tahu bahwa teknologi ini paling cocok untuk bidang yang ‘kalau benar 90% saja sudah cukup’
    Artinya, ini hanya baik dalam lingkungan di mana ada sistem lain—manusia atau bukan—yang membereskan kesalahan setelahnya
    Kalimat “tidak jelas mengapa episode ini terjadi” adalah ciri khas kesalahan LLM (atau semua jaringan saraf)
    Hampir tidak ada cara untuk memperbaiki akar penyebab secara fundamental, dan untuk input tertentu yang bisa dilakukan hanya melatih ulang
    Untuk alat seperti pemeriksa tata bahasa, tingkat keberhasilan 90% mungkin tidak masalah, tetapi dalam situasi ketika satu kesalahan saja dapat meniadakan begitu banyak jawaban benar sebelumnya—dan dalam situasi yang lebih serius lagi—LLM bukanlah jawabannya, berapa pun spesifikasi hardware-nya dinaikkan
    Tidak perlu memaksakan harapan bahwa LLM akan optimal untuk semua masalah
    Selain itu, banyak orang punya ekspektasi yang terlalu berlebihan terhadap istilah “AI”, sehingga intuisi mereka ikut terdistorsi
    Sekalipun LLM terus berkembang, kemajuannya akan tetap kecil di area yang satu kesalahan fatal saja bisa menimbulkan biaya besar
    Yang terpenting, masalah seperti ini punya sifat bahwa penyebabnya sangat sulit ditemukan

    • Menurut saya ini komentar yang sangat penuh wawasan, dan di sinilah jarak antara saya dan para optimis AI terlihat jelas
      Saya sama sekali tidak bisa menerima tingkat keberhasilan 90%
      Alat harus bekerja nyaris sempurna, sedekat mungkin ke 100%, dan 90% sama sekali tidak dapat saya terima
      Orang-orang yang optimistis terhadap AI terasa punya toleransi kesalahan yang lebih longgar

    • Satu-satunya pekerjaan di dunia yang menerima tingkat keberhasilan 90% adalah telemarketing, dan itu pun sudah dijalankan bot sejak tahun 90-an

  • Saat membaca bagian “kebingungan identitas”, saya merasa kalau manusia melakukan hal yang sama, itu tidak berbeda dari gangguan mental berat
    Misalnya mengirim email tanpa makna sesuka hati lalu belakangan menyimpulkan sendiri bahwa itu cuma lelucon April Mop
    Pada titik ini LLM masih sangat jauh dari siap dipakai untuk pekerjaan nyata, bahkan untuk bisnis sederhana seperti mesin penjual otomatis pun belum layak
    Sebaliknya, pandangan yang menafsirkan eksperimen seperti ini sebagai “AGI sudah dekat” benar-benar mengejutkan
    Kalau Claude tidak berhenti secara acak, saya rasa pendiri Anthropic, Dario, mungkin sudah akan mempromosikan ke investor bahwa Claude bisa menggantikan semua perusahaan
    (Mungkin Anthropic juga bisa mulai dengan menerapkannya ke eksperimen seperti ini lebih dulu)

  • Eksperimen ini mirip dengan eksperimen Pokémon
    Mereka memakai model yang hanya melakukan next token prediction apa adanya dalam lingkungan yang menuntut tugas agen, jadi kegagalan yang muncul pun sangat bisa diprediksi
    Selain omong kosong (halusinasi), semua kesalahan lainnya adalah masalah reinforcement learning
    Model ini tidak bisa mempertahankan tujuan optimisasi dalam jangka panjang, jadi tidak mampu memaksimalkan keuntungan atau meminimalkan biaya
    Kemampuan mengelola state-nya lemah, jadi ia tidak bisa mengelola inventaris atau bahkan menyadari bahwa dirinya sedang merugi
    Solusi yang ditawarkan Anthropic pada akhirnya hanyalah lebih banyak tool, lebih banyak scaffolding, dan penambahan CRM, yang pada dasarnya cuma menambahkan rule set secara eksplisit
    Dalam jangka pendek mungkin ini akan memberi hasil, tetapi saya tidak percaya metodologi seperti ini akan pernah menghasilkan evolusi baru pada AI
    Kalau yang dibutuhkan adalah agen yang benar-benar mampu beradaptasi dengan lingkungan, seperti mengelola toko atau memainkan Pokémon, maka menurut saya dibutuhkan base model yang berbeda dan objective function yang berbeda
    Harus ada kemampuan di level dasar untuk merespons perubahan lingkungan, yaitu mengelola state spasial dan objek, dan itu perlu tertanam di fondasi model, bukan sekadar reinforcement learning tambahan seperti sekarang

  • Ketika GPT3.5 pertama kali keluar, saya ingin mengumpulkan komunikasi antar-karyawan lalu mengubahnya menjadi ERP
    Saya mencoba mengotomatiskan penjualan, pemesanan, dan manajemen inventaris, tetapi setelah beberapa kali prompt, model itu segera lupa jumlah barangnya
    Sebesar apa pun peningkatannya, pada dasarnya sistem ini tetap terasa icky—menyisakan rasa tidak enak—karena pada suatu titik akan muncul hasil tak terduga yang menghancurkan semua fondasi dan harapan

  • Di sisi lain, melihat performa model-model terbaru, saya menganggap levelnya sudah cukup menakutkan
    Anthropic tampak seolah membahasnya dengan santai, tetapi kalau dunia di mana begitu banyak kerja mental diotomatisasi benar-benar datang, ketidakpastiannya terasa menyeramkan
    Pekerjaan manusia akan diotomatisasi di rentang yang cukup luas, dan akibatnya perusahaan pada akhirnya akan memilih pendekatan ini meskipun otomatisasinya tidak sempurna
    Karena itu saya khawatir banyak orang justru akan terdorong lebih banyak ke kerja fisik yang benar-benar manusiawi
    Tetapi bagian ketika para karyawan membujuk model untuk membeli stok kubus tungsten itu benar-benar lucu
    Saya juga ingin ada mesin penjual otomatis yang menjual barang logam khusus
    Kalau Anthropic memang sedang berada di titik transisi yang bisa membuat model bisnis pengoperasian usaha seperti ini menjadi bermakna, menyaksikan percobaan awal seperti ini sambil tertawa lepas juga menyenangkan
    (kueri) Saya penasaran apakah mereka meminta karyawan yang menyebabkan kerugian $150 untuk mengembalikan kubus tungsten itu

    • Saya rasa tentu saja mereka tidak memaksa karyawan itu mengembalikan kubus tungsten tersebut
  • Saya benar-benar menyukai AI/LLM dan memakainya setiap hari, tetapi eksperimen kali ini dengan tepat menunjukkan jurang antara kemampuan teknologi saat ini dan hype yang mengelilinginya
    Saya jadi penasaran berapa lama lagi sampai LLM canggih benar-benar bisa menangani pekerjaan seperti ini tanpa banyak scaffolding

    • Saya tidak mengerti mengapa kita harus berharap LLM bisa melakukan ini tanpa scaffolding
      Sesuai namanya, LLM hanyalah language model
      Tanpa scaffolding yang membuatnya bisa berinteraksi dengan dunia melalui bahasa, memang tidak banyak yang bisa dilakukannya

    • Manusia juga sama, kita memakai scaffold (alat eksternal, memo, dan sebagainya) untuk mengambil keputusan yang lebih baik
      Coba bayangkan menjalankan bisnis yang untung dalam jangka panjang hanya dengan bergantung pada nilai-nilai yang dihafal, pasti langsung terasa betapa sulitnya

  • Ada yang ingat game teks lama bernama ‘Drug Wars’?
    Itu tipe permainan jual-beli narkoba sambil berkeliling kota dan menghindari polisi atau rival
    Benchmark seperti ini (eksperimen mesin penjual otomatis dan semacamnya) juga akan menarik kalau dipakai untuk menguji apakah LLM bisa memainkan game seperti Drug Wars

    • Kalau mencari sesuatu yang mirip, saya rekomendasikan Torn.com
      Itu game MMORPG berbasis teks berusia 20 tahun dengan 70.000 pengguna harian

    • Dulu saya sering memainkan game itu di Palmpilot
      Saya punya kenangan bersaing dengan rekan kerja soal siapa yang bisa menghasilkan $$ lebih banyak

  • Metode eksperimen kali ini tampaknya seperti terus memasukkan seluruh riwayat interaksi toko ke dalam context window LLM yang makin panjang
    Dalam praktik nyata, lebih umum punya penyimpanan state terpisah, lalu LLM merujuk ke nilai state itu untuk memutuskan tindakan berikutnya
    (yakni memasukkan state ke LLM setiap kali perlu mengambil keputusan, bukan menumpuk konteks terus-menerus)
    Mungkin eksperimen ini memang bertujuan menguji ‘pendekatan konteks panjang’, dan sebagai eksperimen itu menarik, tetapi menurut saya kurang praktis
    Hasil dari eksperimen seperti ini tidak seharusnya diekstrapolasi terlalu jauh menjadi prediksi masa depan sistem komersial yang benar-benar dioptimalkan dengan baik

    • Dari pengalaman langsung saya, pendekatan konteks panjang tidak berjalan baik, jadi saya rasa itu bukan metode eksperimennya
      Sebenarnya di post itu disebutkan bahwa mereka memakai ‘tool terpisah untuk memo/penyimpanan state’

    • Cuplikan isi artikel:
      “Ada alat untuk meninggalkan memo, menyimpan informasi penting secara terpisah, dan memeriksanya saat dibutuhkan
      Misalnya saldo kas toko / estimasi pendapatan
      (Karena riwayat operasinya sangat besar sehingga tidak mungkin memasukkan semuanya ke konteks LLM, maka manajemen state terpisah itu wajib)”