Selama beberapa bulan terakhir, kalau melihat komunitas developer di Korea, ada klaim-klaim aneh seperti "jumlah penggunaan token adalah kemampuan itu sendiri" yang beredar.
Lalu ada juga klaim ngawur bahwa dengan satu PRD yang dibuat dengan baik, AI akan menyelesaikan semuanya.
Awalnya saya kira itu cuma sensasi berlebihan yang umum ada di komunitas, tetapi ketika klaim-klaim seperti itu terus muncul seolah-olah itu adalah kebenaran, saya sempat berpikir mungkin saya yang tertinggal.
(Terutama setelah melihat hal-hal seperti Oh-my-OpenCode.)
Namun, setelah dicari, sulit menemukan bahkan satu contoh yang benar-benar layak, dan pada praktiknya nyaris mustahil direproduksi.
Di komunitas frontier Amerika, sama sekali tidak ada klaim seperti itu, dan ketika OpenClaw muncul, menjadi populer, lalu OpenAI langsung merekrut pendirinya, saya pun makin yakin.
(Khususnya setelah melihat bahwa filosofi utama OpenClaw adalah HITL(Human In The Loop).)
Ah, jadi bukan saya yang tertinggal, melainkan komunitas Korea yang dipenuhi lebay religius dan ilusi.)
Kemarin, pendiri OpenClaw juga mengatakan
Anda bisa membuat kode dan menjalankannya semalaman, tetapi hasil akhirnya tetap akan menjadi sampah terbaik.
katanya,
Dan CEO YC Garry Tan juga mengatakan ia 100% setuju.
https://x.com/garrytan/status/2043738478220062813?s=20
Selama beberapa bulan terakhir, melihat bagaimana klaim-klaim ilusif semacam ini secara langsung maupun tidak langsung merugikan saya, sekarang saya sudah tidak bisa menahannya lagi.
Saya berharap orang-orang yang membuat klaim seperti itu dilawan.
Saya adalah orang yang sangat optimistis terhadap AI dan sudah menggunakan Codex sejak 5 tahun lalu.
Saya pikir suatu hari nanti otomatisasi penuh seperti itu memang akan terjadi. Saya juga berpikir bisa saja benar-benar terjadi tahun depan seperti yang ramai dibicarakan orang.
Namun, setidaknya hari ini belum.
66 komentar
Kalau klaim itu benar, anthropic, google, dan openai pasti sudah lebih dari cukup untuk menggantikan semua perangkat lunak yang ada.
Bahkan di dalam perusahaan pun sekarang muncul arus aneh bahwa kalau banyak memakai token, kinerjanya akan dinilai lebih baik
Benar-benar entah keluar dari kepala siapa...
Setiap kali melihat tulisan kelompok itu, rasanya saya benar-benar bisa sampai gatal-gatal.
Tulisan ini terasa seperti sengaja ditulis seperti ini, ya.
Namun ada sisi seperti ini juga.
Bagian yang kita semua bicarakan 3 tahun lalu adalah bahwa biaya AI pada akhirnya akan menjadi murah.
Ternyata tidak. Biayanya justru makin mahal. Bahkan model AI dari Tiongkok pun sama saja.
Karena itu, belakangan mulai ramai dibicarakan cara menghemat biaya dengan menukar dan memakai model dari beberapa tier dalam satu pekerjaan, atau bahkan menjalankan open source, khususnya gemma 4 (karena
reasoning trace-nya jauh lebih pendek), secara lokal lalu memanfaatkannya untuk agent. Ini adalah gagasan yang pada awalnya ditentang semua orang, tetapi sekarang terlihat sangat masuk akal dan banyak pergerakan terkait juga mulai muncul. Demikian pula, AI saat ini adalah pertarungan tanpa jawaban pasti, tetapi pada akhirnya menjadi industri yang didorong oleh keyakinan bahwa pemenangnya akan mendapatkan banyak hal.Kesimpulannya, menurut saya kurang lebih itulah maknanya.
Noise, ini juga sangat besar terlihat dalam aktivitas promosi perusahaan AI frontier. Lalu apakah karena perusahaan-perusahaan ini berbuat salah kita tidak akan menggunakannya? Tidak. Jelas kita tetap akan menggunakan AI. Hanya saja kita perlu menyaring informasi yang berupa noise. Apalagi ketika rasa tidak puas sedang besar.
Aksi yang tidak perlu, ini juga sama dalam investasi. Orang-orang yang berhasil dalam investasi kemungkinan besar adalah orang yang sudah pernah merasakan kegagalan. Dengan pola pikir "saya 'tidak akan pernah' rugi", sejak awal pun akan sulit untuk benar-benar mulai berinvestasi; saat pasar turun, yang dirasakan hanya rasa lega karena tidak berinvestasi dan belas kasihan pada orang-orang yang berinvestasi, lalu saat pasar benar-benar naik, yang tersisa hanya rasa frustrasi. Demikian juga pada akhirnya, dalam AI yang lebih diuntungkan adalah orang yang terus mengamati, mencoba memakai, dan bereksperimen dengan berbagai hal. Saya justru lebih kuat merasakan ini pada orang-orang non-developer. Ada banyak orang yang awalnya tidak punya pengetahuan development, tetapi terus memanfaatkan, mengeksplorasi, mempelajari pengetahuan development, lalu menghasilkan software yang lebih baik. Orang yang punya "semangat" seperti ini ternyata lebih sulit dikalahkan daripada yang dibayangkan. Saya sendiri sangat sering merasakan hal ini, dan rasanya saya terus berusaha agar semangat saya tidak padam di setiap momen.
Kesimpulannya,
ralphjuga bukan konsep yang sepenuhnya semu, melainkan semacam konsepindustrial engineering, sebuah pendekatan yang sudah terbukti dari sisitest-time computingsebagaiadvantage. Tentu saja orang bisa menyebutnya semu, tetapi meskipun begitu, pengalaman saat Anda tertarik dan mencoba mereproduksinya saya rasa akan menjadi aset yang besar.Memang benar kita perlu menyaring noise, tetapi menurut saya kita harus berhati-hati dengan narasi seperti "kalau tidak nyaman, perbaiki saja postur dudukmu". Jika sampai mempermasalahkan orang yang menyampaikan ketidakpuasan, lalu mendorong pesan seperti "jangan bersikap seperti orang yang gagal beradaptasi, cepatlah menyesuaikan diri dan jadilah pemenang", saya rasa itu justru mengarah pada paham hasil akhir yang membabi buta seperti sekarang. Tentu saja, sepertinya itu bukan maksud dari komentar tersebut.
Baik looping seperti ralph, metode ensemble dengan bertanya bergantian ke beberapa model, maupun
subagent orchestration, keunggulan dari metode-metode test-time computing seperti ini belum benar-benar terbukti. Pada dasarnya, LLM saat ini memang disuntikkan perilaku people pleasing, jadi kalau kita cermati hasil yang muncul dari proses seperti ini, sering kali alih-alih memperbaiki hal yang memang layak diperbaiki, model justru membuat masalah yang sebenarnya tidak ada lalu "memperbaikinya" hanya karena diminta untuk memperbaiki sesuatu.Saya setuju bahwa pengalaman yang cepat menjadi aset terbesar adalah ungkapan yang sangat menggambarkan zaman sekarang, tetapi menurut saya jika hal ini tidak hanya dimanfaatkan untuk kepentingan pribadi melainkan sampai disalahgunakan, itu layak dikritik. Sepertinya topik tulisan aslinya juga adalah "saya tidak suka ketika [pokoknya harus cepat dan banyak, lebih dulu dari siapa pun] dibesar-besarkan seolah-olah itu adalah skenario pengembangan berbasis AI yang sukses".
Saya baru sekarang melihat komentar Anda.
Sepertinya pembaruan komentar tidak berjalan dengan baik.
Terima kasih atas pendapat yang bagus.
Pertama, saya juga ingin menyampaikan pendapat saya.
Daripada menganggap masalahnya adalah karena ada yang menyampaikan ketidakpuasan (saya pribadi tidak menganggapnya sebagai ketidakpuasan), saya harap ini bisa dipahami sebagai saya juga menyampaikan pendapat tentang fenomena ini. Karena tidak mungkin menciptakan situasi yang memuaskan semua orang, saya juga menghormati pendapat penulis postingan asli maupun penulis komentar. Namun, saya juga berpikir bahwa pendapat saya pun seharusnya dihormati.
Menurut saya, test-time computing sudah merupakan kasus yang terbukti lewat penelitian. Namun, saya menilai metode ensemble lebih sebagai cara untuk menghindari keterbatasan ukuran context window daripada konsep test-time computing. Masalah pada bagian 'daripada memperbaiki hal yang memang perlu diperbaiki, sering kali karena disuruh memperbaiki, malah dibuat masalah yang sebenarnya tidak ada lalu diperbaiki' memang jelas terjadi, jadi tampaknya solusi terbaik saat ini adalah memblokirnya semaksimal mungkin dengan harness.
Dan terakhir, mengenai hal yang disebut 'viral', saya juga setuju bahwa ada cukup banyak noise dan banyak orang yang tidak menyukainya. Namun, orang-orang yang membuat harness ini sebenarnya adalah pihak yang merilisnya sebagai open source, jadi saya ragu apakah ada sesuatu yang benar-benar bisa disebut sebagai kepentingan pribadi; bahkan dalam situasi sekarang, ketika mereka memberikannya gratis sambil tetap menerima kritik dari orang-orang yang tidak menyukainya, saya mempertanyakan apakah ini bisa disebut demi kepentingan pribadi. Tentu saja, jika mereka menjual dengan memicu rasa takut, maka saya setuju bahwa itu adalah tindakan yang salah dan pantas dikritik.
Sekali lagi, terima kasih atas pendapat Anda!
Dibanding 3 tahun lalu, memang jadi jauh lebih murah.
Di era GPT-4, bahkan kalau pakai yang berbayar pun saya langsung dapat pesan untuk coba lagi beberapa jam kemudian, tetapi sekarang meski memakai paket seharga 22 dolar hal seperti itu tidak terjadi.
Kemampuan intelektual per token sudah meningkat sampai ke tingkat yang sulit dibandingkan.
Tetapi yang penting, lebih dari itu, kita memakai lebih banyak token sambil membayar lebih banyak uang kepada penyedia LLM (paradoks Jevons).
Bukan berarti saya belum pernah mencoba Ralph Loop.
Saya juga sudah mencoba sub-agent driven development yang lebih baik daripada itu.
Tetapi pada akhirnya pengalaman saya juga berujung pada kesimpulan yang sama seperti yang dikatakan pendiri OpenClaw.
Kalau benar-benar menjadi sepenuhnya otomatis, hal seperti Ralph Loop pun mungkin tidak perlu dipaksakan lagi.
Yang paling penting adalah, pada kenyataannya, itu tidak bisa benar-benar menghasilkan kode maupun layanan yang layak.
Saya sependapat dengan sebagian opini penulis.
Saya juga setuju soal kemampuan intelektual per token dan harga dibandingkan GPT-4.
Namun, harga token sempat turun lalu naik lagi, dan jika dilihat dari token inferensi, penggunaan token per tugas, serta penggunaan token per individu, dampaknya menjadi cukup berat baik bagi pengguna individu maupun operator layanan AI. Inilah alasan Cursor, Intercom, Shopify, Chroma, dan lainnya mulai membuat model mereka sendiri berbasis open source. Sampai-sampai mereka nyaris tidak bisa lagi memiliki daya saing harga.
Sebenarnya, yang disebut ralph itu bukan sesuatu yang dipaksakan, melainkan skrip bash berbasis
while. Strukturnya sesederhana itu. Menurut saya, yang perlu kita pahami di sini adalah bahwa ini tampaknya merupakan pertarungan soal apakah sesuatu bisa disistematisasi atau tidak. Otomatisasi pun pada akhirnya adalah proses mengekstrakintentsecara akurat, membagi tugas tanpa bermalas-malasan dan dengan tepat, lalu mengeksekusinya dengan benar agar implementasinya sempurna tanpa error; dan bila belum bisa, menentukan bagian mana yang perlu dikerjakan.Namun, bagian yang saya setujui adalah bahwa akan bagus jika semua pekerjaan itu bisa dilakukan hanya dengan sekali 'klik', tetapi seperti yang mungkin juga Anda rasakan, kenyataannya sama sekali tidak begitu. Bahkan, masalah saat ini justru terasa seperti perlu lebih banyak pengaturan dibanding pekerjaan menulis kode itu sendiri. Dan dari sisi layanan, secara umum juga belum ada sesuatu yang benar-benar terasa manfaatnya.
Tetapi satu hal yang saya rasakan dengan jelas adalah bahwa kebanyakan orang tidak begitu pandai membuat dokumentasi. Karena mereka kurang mampu merapikan dan menyusun sesuatu, mereka sulit membangun sesuatu secara sistematis, dan karena itu saya sering melihat mereka sangat kesulitan saat mengerjakan jenis pekerjaan seperti ini. Lagi pula, AI juga tidak sempurna. Dalam hal itu, saya melihatnya sebagai peluang. Saya pikir akan ada perbedaan yang cukup besar antara orang-orang yang terus melakukan pekerjaan ini dan mereka yang tidak. Orang-orang yang sudah terbiasa akan beradaptasi dengan cepat, sementara mereka yang, karena berbagai keadaan, tidak sempat membiasakan diri akan makin tertinggal dan tampaknya diliputi rasa takut. Padahal, seperti yang Anda katakan, ini sebenarnya bukan sesuatu yang perlu ditakuti, bukan? Itulah arah yang lebih baik.
Maksud saya adalah
while loopitu akal-akalan.Sejak awal, alasan itu muncul adalah karena LLM tidak mahir dalam tugas agentic sehingga berhenti terlalu cepat (mengembalikan token EOS).
Kalau benar-benar muncul model yang setara dengan AGI pamungkas, tentu tidak akan ada alasan untuk memakai while loop.
Kemampuan saya dalam membuat dokumentasi mungkin kurang, tetapi Garry Tan atau Peter Steinberger tidak begitu.
Kalau itu memang masalah LLM yang tidak bekerja dengan semestinya, cukup tunjukkan demo best practice yang benar-benar mudah direproduksi.
Namun saya belum pernah melihat hal seperti itu, bahkan sekali pun.
Saya juga sependapat dengan opini penulis.
Tampaknya ada juga bagian yang terdistorsi karena, dari sisi pengalaman, LLM bisa melakukan chat dan merupakan sistem yang dapat berkomunikasi.
Terima kasih atas pendapat yang bagus.
Kalau begitu, kira-kira demo best practice seperti apa yang dibutuhkan?
Saya ingin meminta pandangan Anda tentang pekerjaan seperti apa yang, bila diimplementasikan dengan cara tertentu, dapat menjadi dasar untuk menilai apakah Ralph loop itu ilusi atau bukan.
Maksudnya adalah menyelesaikan pengembangan hingga level siap produksi dengan menjalankan Ralph Loop hanya bermodalkan satu PRD yang nyaris sempurna.
Agar, dilihat oleh siapa pun, hasilnya tidak tampak seperti AI slop.
Ah, jadi apakah dengan satu PRD yang nyaris sempurna lalu menjalankan Ralph Loop kita bisa membuat produk sampai tingkat tertentu?
Apakah bisa membuat AI chat milik Channel Talk?
Dan saya ingin menanyakan satu hal lagi.
Apakah boleh melanjutkan dengan menyiapkan sesuatu yang disebut harness?
Ya, mau itu harness, multi-agent, atau sub-agent, tidak masalah.
Terima kasih atas pendapatnya!
Benar juga. Akan bagus kalau bisa membuat contoh seperti ini, hehe
Sejujurnya, dibanding pengangkatan masalahnya sendiri, saya justru merasa pengembangan argumennya lebih disayangkan.
Ungkapan seperti “jumlah penggunaan token adalah kemampuan”, “cukup dengan satu PRD yang dibuat dengan baik maka AI akan menyelesaikan semuanya” adalah klaim yang sangat kuat, tetapi justru tidak begitu terlihat siapa yang mengatakan itu, di mana, dan dalam konteks apa. Karena itu, dari sudut pandang pembaca, ini tampak bukan seperti kritik terhadap arus yang benar-benar ada, melainkan seperti argumen orang-orangan sawah yang menggabungkan beberapa klaim ekstrem dengan representativitas yang tidak jelas lalu membantahnya.
Khususnya termasuk kelompok om, saya hampir tidak pernah melihat orang-orang yang benar-benar membuat tool dan merapikan workflow berbicara seolah-olah “satu PRD saja bisa menyelesaikan semuanya”. Justru mereka terus mengulang rilis, revisi, dan verifikasi. Menurut saya, itu sendiri berangkat dari premis bahwa penilaian dan campur tangan manusia masih esensial untuk saat ini.
Karena itu, hal yang perlu lebih diwaspadai adalah bahwa jika penulisan seperti ini dibaca secara keliru, ini bisa membuat builder atau developer tertentu terlihat seolah-olah mereka benar-benar mengatakan sesuatu yang sebenarnya tidak pernah mereka katakan. Menurut saya, cara seperti itu lebih dekat pada membangun frame yang dibesar-besarkan lalu menyerangnya, ketimbang kritik yang sehat.
Hal yang sama berlaku untuk penggunaan token. Ini memang bukan indikator mutlak kemampuan, tetapi juga sulit dikatakan sebagai angka yang sama sekali tidak bermakna. Jika perbedaan penggunaan menjadi sangat besar, itu bisa jadi bukan sekadar pemborosan, melainkan perbedaan dalam jumlah eksplorasi, eksperimen, dan verifikasi, dan bisa juga berujung pada perbedaan kepadatan kerja yang nyata. Bahkan Jensen Huang juga pernah mengatakan bahwa kita perlu menggunakan token senilai lebih dari setengah gaji kita.
https://www.youtube.com/shorts/XBnFPuru4xA
PRD yang baik juga bukan solusi serba bisa, melainkan leverage. Jadi pada akhirnya, yang penting menurut saya bukanlah dikotomi sederhana seperti “apakah token itu kemampuan atau bukan”, melainkan dengan standar apa kemampuan memecahkan masalah dengan memanfaatkan AI akan dinilai ke depannya.
Saya sepenuhnya setuju dengan tulisan Anda.
Sebenarnya, anggapan bahwa “jumlah penggunaan token sama dengan kemampuan” jelas keliru dan merupakan kerangka yang terdistorsi.
Sebaliknya, ini sebaiknya dipandang dari perspektif bahwa kita baru menyadari pentingnya penggunaan token pada titik ketika kita memahami bahwa keterbatasan sumber daya komputasi (termasuk manusia) adalah satu-satunya bottleneck.
Saya tahu kelompok mana yang membuat klaim seperti itu, tetapi saya sengaja tidak menyebutkannya karena bisa menimbulkan masalah hukum.
Ada perusahaan terkenal yang bahkan mengukur penggunaan token, dan ada juga orang yang menyebutkannya secara anonim di bawah.
Di GeekNews juga kita bisa melihat tulisan yang seolah membanggakan penggunaan token mereka sendiri.
Orang-orang yang membuat klaim seperti ini bukan mayoritas.
Namun, di ranah AI Korea ada sejumlah tokoh yang cukup berisik yang membuat klaim seperti ini, dan fakta bahwa Garry Tan terus mengkritik fat harness selama beberapa hari terakhir mungkin menjadi bukti bahwa klaim yang nyaris seperti agama dari Korea itu sudah sampai ke Amerika.
Membawa-bawa klaim Jensen Huang lalu menganggapnya seolah-olah sebagai kebenaran justru merupakan gaya bicara yang khas otoritarian.
Jensen Huang puluhan tahun lalu memang seorang insinyur yang membuat kartu grafis, tetapi sekarang dia bahkan bukan insinyur aktif, juga bukan ahli AI.
Saya setuju soal korelasi, tetapi klaim dari kelompok yang saya bicarakan itu pada akhirnya hanya memutar Ralph yang sama sekali tidak berguna.
Kalau bicara yang sebenarnya, bahkan di makalah asli o1 dari OpenAI yang pertama kali mengemukakan test-time compute pun dijelaskan dengan jelas bahwa terus menaikkannya tidak berarti hasilnya akan terus membaik, atau bahwa hal itu hanya berlaku pada sebagian kasus.
Bahkan itu pun berbicara tentang reasoning effort, tentu saja bukan menyuruh orang menjalankan ralph loop.
Bahkan panduan prompt GPT-5.4 juga menyatakan bahwa reasoning effort yang lebih tinggi tidak selalu lebih baik.
https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance
Bukan hanya itu, untuk desain justru direkomendasikan agar reasoning effort dikurangi.
https://developers.openai.com/blog/…
Saya mengatakan ini karena ada orang yang mengklaim PRD seolah-olah serbabisa, padahal sebenarnya tidak.
Judulnya jelas menanyakan apa pendapat tentang ilusi bernama Ralph loop, tetapi isi tulisannya justru melebar ke pembahasan yang jauh lebih luas dan berada dalam konteks lain alih-alih membahas topik itu secara spesifik, sehingga saya mendapat kesan bahwa keseluruhan tulisan tidak benar-benar selaras dengan judulnya.
Karena itu, yang saya persoalkan bukanlah “apakah orang seperti itu benar-benar ada atau tidak”, melainkan bahwa isi tulisan menyusun berbagai klaim ekstrem yang sumber dan konteksnya tidak jelas lalu membantahnya, sehingga terbaca seperti kritik terhadap orang-orangan sawah.
Namun, jawaban terhadap komentar saya juga, alih-alih menjelaskan titik itu secara langsung, justru terus bergerak dengan cara membawa tokoh lain, wacana lain, dan contoh lain, sehingga sejujurnya terasa lebih dekat pada pengaburan pokok persoalan.
Khususnya, saat Anda mengkritik kutipan ucapan tokoh terkenal sebagai gaya bicara yang otoritarian, tetapi dalam jawaban Anda sendiri justru kembali membawa Garry Tan, dokumen OpenAI, dan panduan GPT sebagai dasar, itu juga tampak agak selektif.
Saya pikir budaya membanggakan penggunaan token secara berlebihan memang bisa terasa tidak nyaman. Namun terlepas dari itu, memasukkan orang-orang yang benar-benar menyempurnakan tool dan workflow melalui proses eksperimen, verifikasi, dan revisi yang berulang ke dalam bingkai yang sama menurut saya juga merupakan bentuk berlebihan yang lain.
Apakah Anda menilai tulisan hanya dari judulnya?
Kalau begitu, bagaimana pendapat Anda tentang makalah "Attention Is All You Need"?
Garry Tan belakangan ini menunjukkan kemampuannya dalam menggunakan AI dengan membuat skill LLM yang bagus seperti GStack.
Pendiri OpenClaw juga sama, dan OpenAI adalah panduan resmi dari perusahaan yang memimpin riset dan industri LLM.
Sebaliknya, bagaimana dengan Jen-Hsun Huang? Tolong jangan bilang bahwa hanya karena dia CEO perusahaan yang menjual cangkul, dia jadi paham soal emas.
Pada dasarnya, Jensen Huang juga cuma mengulang perkataan orang lain.
Kalau ini dianggap mengaburkan pokok bahasan, saya tidak ada lagi yang bisa dikatakan.
Sayalah orang yang merapikan tool dan workflow itu, jadi maksud Anda saya sedang merendahkan diri sendiri?
Saya tidak menilai hanya dari judul, melainkan ingin menyampaikan seberapa selaras judul dan isi utamanya saling terkait.
Dan yang saya maksud bukan soal apakah Garry Tan atau OpenAI lebih berotoritas daripada Jensen Huang, melainkan bahwa sambil mengkritik kutipan orang lain sebagai bentuk otoritarianisme, dalam jawaban Anda sendiri Anda kembali membawa otoritas lain sebagai dasar, sehingga caranya tidak tampak konsisten.
Terakhir, ungkapan “bahkan orang-orang yang merapikan tool dan workflow dimasukkan ke frame yang sama” bukan ditujukan kepada individu tertentu, melainkan maksudnya adalah bahwa cara penulisan artikel itu bisa terbaca seperti itu. Menafsirkannya langsung sebagai “apakah itu berarti self-diss” tampaknya sedikit melampaui cakupan komentar saya.
Dan jika Anda melihat bahwa judul dan isi bisa berbeda, saya penasaran apakah tulisan ini sebaiknya dipahami bukan sebagai analisis tentang Ralph loop itu sendiri, melainkan sebagai tulisan yang menargetkan kelompok tertentu yang Anda sebutkan secara lebih luas.
Itu mengutip ucapan Jensenghwang yang bahkan bukan ahli AI/LLM.
Ya, ini memang tulisan yang menyasar kelompok tertentu.
Di antaranya saya menyinggung PRD + Ralph loop, yang paling representatif sekaligus paling aneh.
Entah Anda memang tidak tahu ada kelompok seperti itu, atau Anda sendiri bagian dari kelompok itu dan berpura-pura tidak tahu.
Ada alasan mengapa kelompok seperti itu terus dikritik, baik di dalam maupun luar negeri.
Kalau tidak ada api, tidak mungkin ada asap dari cerobong.
Dan secara pribadi, saya cukup menyayangkan tulisan kali ini.
Selama ini saya merasa GeekNews bagus karena saya bisa menemukan tulisan-tulisan yang memberi informasi yang sebelumnya tidak saya ketahui, sudut pandang baru, dan perluasan cara berpikir, alih-alih tulisan yang menargetkan seseorang atau kelompok tertentu.
Karena itu, cara penyampaian yang mengalir dengan mengandaikan kelompok tertentu seperti kali ini terasa lebih disayangkan.
Setidaknya bagi saya, GeekNews lebih dekat sebagai ruang yang membantu memperluas pemikiran melalui informasi dan konteks yang lebih konkret, daripada ruang yang membingkai dan membidik seseorang. Karena itu, dibandingkan isi klaimnya sendiri, cara klaim tersebut dikembangkan dalam tulisan ini justru terasa lebih disayangkan. Saya akhiri sampai di sini.
Saya sudah beberapa kali menyampaikan ini.
Dari sudut pandang saya, tidak baik jika secara langsung membidik kelompok atau individu tertentu.
CEO YC dan pendiri OpenClaw adalah orang-orang yang telah membuktikan sendiri bahwa mereka layak disebut pakar AI.
Tidak seperti Jensen Huang.
Saya tidak pernah mengatakan PRD itu ilusi. Tolong lihat konteksnya.
Sekarang ketika klaim-klaim ilusif seperti ini membesar, ini bukan lagi sekadar kemarahan pribadi saya, melainkan hal yang berkaitan dengan perkembangan AI di Korea Selatan, bahkan kemajuan umat manusia.
Sebelum orang-orang ini semakin membesar dan punya pengaruh di sisi lain, bukankah kita harus meluruskan alkimia semu ini?
Kalau itu bukan Anda, lewatkan saja.
Di komentar lain pada tulisan ini sudah ada yang setuju, atau orang-orang dari kelompok yang saya bicarakan datang untuk menyerang saya.
Dan satu hal lagi yang ingin saya sampaikan, ungkapan seperti “AI Korea Selatan”, “kemajuan umat manusia”, atau “alkimia harus diluruskan” memberi kesan bahwa pembenaran besar didahulukan terlebih dahulu. Saya rasa wajar saja jika memiliki kesadaran masalah seperti itu. Namun, saya merasa pembicaraan pada level seperti itu akan jauh lebih meyakinkan bila disertai contoh nyata, hasil kerja, atau kriteria verifikasi yang lebih konkret, daripada mengkritik seseorang secara luas dengan mengelompokkannya di dalam komunitas.
Selain itu, cara menerima pernyataan CEO YC atau pendiri OpenClaw sebagai dasar yang bermakna, tetapi hanya kutipan Jensen Huang yang justru diperlakukan seolah-olah otoriter, juga tidak terlihat konsisten bagi saya. Pada akhirnya, tulisan itu terbaca seakan standar tentang ucapan siapa yang menjadi dasar dan ucapan siapa yang menjadi tidak berarti berubah tergantung penuturnya, bukan pada isi klaim itu sendiri. Ucapan Jensen Huang mungkin bukan dasar yang menentukan, tetapi tetap saja terasa agak berlebihan jika hanya kutipan itu yang diperlakukan seolah pernyataan yang tidak bernilai.
Pada akhirnya, agar klaim seperti itu juga bisa diterima oleh orang lain, saya rasa perlu disertakan contoh atau hasil kerja yang bisa langsung dirujuk dan diverifikasi, alih-alih hanya mengulang kritik. Dengan begitu, arah yang Anda sampaikan sekarang juga bisa terbaca bukan sebagai sekadar penolakan emosional, melainkan sebagai pengajuan masalah yang benar-benar meyakinkan. Jika ada hasil seperti itu, saya juga akan dengan aktif membacanya saat itu, dan bila perlu mencobanya sendiri.
Tolong berhenti berputar-putar. Anda mengatakan saya telah mengatakan sesuatu yang sebenarnya tidak saya katakan, lalu kembali mempertanyakan hal yang sudah saya bantah.
Sejujurnya, semakin saya membaca tulisan dan jawabannya bersama-sama, semakin terasa bahwa ini bukan tulisan untuk berbagi informasi atau analisis, melainkan tulisan yang lebih didorong oleh emosi untuk mengecam arus tertentu.
Kalau memang ingin mengkritik dengan sangat presisi, rasanya akan lebih baik bila Anda membawa dengan lebih jelas tulisan seperti apa yang benar-benar ada di komunitas, siapa yang mengatakan apa, dan dalam konteks apa. Namun alih-alih memberi contoh-contoh konkret seperti itu, Anda lebih dulu mengelompokkannya dengan ungkapan besar seperti “dunia developer Korea”, “kelompok seperti itu”, atau “pembesaran yang nyaris religius”, sehingga dari sudut pandang pembaca, asosiasi dan framing justru lebih kuat tertinggal daripada klaim yang sebenarnya.
Terutama, cara melemparkan ungkapan yang mengingatkan pada golongan
omtetapi kemudian mengatakan bahwa itu tidak secara langsung menargetkan kelompok atau tokoh tertentu, membuat tulisan ini terbaca bukan sebagai tulisan informatif, melainkan lebih sebagai luapan keinginan untuk mengecam seseorang secara luas.Selain itu, cara mengatakan kepada orang yang bereaksi bahwa “kalau bukan Anda, lewat saja”, atau bahwa mereka “datang menyerang karena merasa tersinggung atau karena mereka bagian dari kelompok yang saya bicarakan”, juga terasa lebih dekat dengan pelabelan daripada diskusi. Sejak awal, jika sebuah tulisan dibuka dengan framing sekuat itu, wajar bila muncul penolakan dan perbedaan pendapat. Namun jika respons tersebut kembali ditafsirkan dengan mengelompokkannya ke dalam kelompok tertentu, pada akhirnya bantahan apa pun akan terserap ke dalam frame itu sendiri.
Saya merasa justru cara seperti itulah yang lebih dekat dengan tata bahasa pembentukan kubu-kubu konflik ala komunitas, ketimbang tata bahasa tulisan yang membagikan informasi dan konteks. Dan sejujurnya, kalau tulisan seperti itu mungkin terasa lazim di ruang seperti X atau Threads, setidaknya menurut saya itu terlihat cukup jauh dari nuansa GeekNews yang saya harapkan, sehingga terasa lebih disayangkan.
Selama ini saya merasa GeekNews lebih dekat dengan ruang untuk berbagi hal-hal yang benar-benar pernah dicoba sendiri, informasi yang konkret, dan konteks yang memperluas cakrawala berpikir, daripada tempat untuk mengelompokkan lalu mengecam orang secara besar-besaran. Karena itu, dalam tulisan kali ini, yang lebih besar meninggalkan kekecewaan bagi saya bukanlah isi klaimnya sendiri, melainkan cara klaim tersebut dibahas.
Kalau begitu, pada akhirnya tulisan ini tampaknya lebih tepat dipahami bukan sebagai analisis tentang Ralph loop itu sendiri, melainkan sebagai tulisan yang menyoroti kelompok tertentu secara lebih luas seperti yang Anda sebutkan.
Namun, justru untuk tulisan seperti itu, saya rasa penetapan sasarannya harus lebih ketat. Dengan ungkapan seperti “ada kelompok seperti itu” atau “terus dikritik di dalam dan luar negeri”, sulit membedakan mana klaim yang benar-benar ada dan mana bingkai yang dibesar-besarkan, sehingga pada akhirnya mudah terbaca sebagai cara yang menyatukan orang-orang dan konteks yang berbeda ke dalam satu kategori. Kriteria “kelompok tertentu” itu sendiri sudah merupakan bingkai yang kuat; dalam keadaan batasnya tidak jelas, jawaban yang menempatkan pihak lain ke dalam kategori tersebut menurut saya bukan membuat diskusi lebih presisi, melainkan justru lebih kasar.
Selain itu, cara Anda terus membawa pernyataan dan contoh dari orang lain sebagai dasar, tetapi hanya kutipan Jensen Huang yang secara khusus diperlakukan sebagai sikap otoriter, juga tidak terasa konsisten. Pendiri OpenClaw maupun CEO YC juga merupakan tokoh dengan konteks dan otoritas masing-masing; jika kutipan dari satu pihak menjadi dasar yang sah sementara kutipan dari pihak lain langsung dianggap tidak bermakna, pada akhirnya standar penilaiannya akan terlihat berubah bukan berdasarkan isi klaimnya, melainkan berdasarkan siapa yang mengatakannya. Pada kenyataannya, kemungkinan besar orang-orang tersebut juga bereksperimen di atas komputasi dan tingkat penggunaan yang tidak sedikit; jika yang satu dibaca sebagai bukti kapabilitas sementara yang lain dibaca sebagai simbol ilusi, saya rasa kriteria pembeda itu sendiri harus dibuat lebih jelas terlebih dahulu.
PRD juga bukan solusi serba bisa, tetapi jika sampai perannya pun didorong seolah-olah hanya ilusi, itu juga kurang sejalan dengan proses pengembangan nyata yang melibatkan rilis, verifikasi, dan perbaikan berulang. Mungkin memang ada budaya yang terasa tidak nyaman, tetapi menurut saya rasa penolakan terhadap itu tidak serta-merta bisa menjadi dasar untuk generalisasi yang luas. Saya cukupkan sampai di sini.
Saya rasa hal-hal seperti leaderboard token termasuk oh-my-whatever pada dasarnya hanyalah noise untuk pemasaran.
Alih-alih membuat harness lalu menghasilkan sesuatu yang benar-benar berguna, lebih sering yang muncul justru harness yang makin rumit dan dioptimalkan untuk membakar token; karena itulah yang paling terlihat dan paling mudah menarik perhatian dalam jangka pendek, rasanya memang banyak orang yang jadi antusias ke arah sana.
Bahkan ada juga yang bilang tidak bisa beradaptasi dengan hal seperti ini itu persis mental loser. Ada juga klaim bahwa karena ini Korea itu cepat dan SF itu lambat.
Namun, menurut saya hal-hal seperti Ralph Loop atau harness pada akhirnya semuanya akan diserap menjadi fungsi internal model, dan ketika saat itu tiba, AI menyelesaikan masalah hanya dengan satu PRD yang dibuat dengan baik bukanlah sesuatu yang berlebihan.
Sebaliknya, membungkus dan menguras habis sesuatu seolah-olah luar biasa lewat jungkir-balik harness saat ini, menurut saya tidak jauh berbeda dari pecandu game clicker
number go up.https://x.com/WillManidis/status/2021655191901155534 Sudah agak lama, tetapi tulisan ini punya konteks yang mirip.
Bukankah kalau sesuatu itu populer, berarti itu sedekat mungkin dengan rata-rata? Bukan di level tinggi, melainkan cukup memuaskan di level biasa.. Namun kalau ini makin parah, alatnya jadi mati. Masih ada juga orang-orang yang berdebat apakah C atau Java.
Menurut saya, rata-ratanya sebenarnya masih sangat jauh dari yang disebut Ralph Loop maupun harness, dan levelnya hanya setara
claude codevanilla. Sejujurnya, kalau populasi yang dijadikan acuan sedikit diperluas, menurut saya orang yang cuma pernah memakai Claude Code saja sudah bisa dibilang di atas rata-rata.Kalau hal-hal seperti ini terlihat seperti rata-rata, saya rasa itu berarti pemasaran FOMO mereka berhasil.
Apakah menurut Anda ini berarti era baru para alkemis telah tiba?
Saya setuju.
Saya sepenuhnya setuju
Secara pribadi, saya merasa mereka hanyalah orang-orang yang ingin menjadi semacam influencer serupa di Korea.
Terima kasih sudah membagikan tulisan yang bagus ini
AI coding dan HITL memang sama-sama bikin ketagihan.
Kalau melihat hal seperti ini, rasanya memang jelas ada semacam naluri pada manusia untuk suka membuat sesuatu
Jangan menyindir, kalau tidak tahu setidaknya cari tahu dulu.
Menggunakan OpenAI Codex sebagai ekstensi Chrome
Penjelasan dan pengalaman menggunakan Copilot
codex itu 5 tahun lalu...? ChatGPT juga dirilis pada 2022, jadi bahkan belum 5 tahun...
Jangan-jangan isi Ask GN juga ditulis dengan AI sehingga halusinasi ikut masuk?
Codex sendiri sudah lama. Saya juga ingat melihatnya di GeekNews dan mengajukan permohonan untuk pratinjau GPT-3.
Apakah Anda kebetulan tahu apa hubungan antara pratinjau GPT-3 dan Codex?
Maksud Anda, saat itu Codex sudah ada? Atau maksud Anda sudah ada AI yang menulis kode, dan itu adalah Codex?
Di antara lini model lama yang sudah deprecated, keluarga
code-davinci-*,code-cushman-*adalah model Codex. Merek Codex sendiri sudah sangat lama.https://www.youtube.com/watch?v=SGUCcjHTmGY
Tentu saja nama
codex-nya tidak sama, dan tampaknya memang ada model code yang pernah ada.Wah, ini cukup mengejutkan. Saya juga termasuk pengguna sejak era gpt-2, dall-e, dan gym, tetapi ini pertama kalinya saya melihat nama model codex. Terima kasih sudah memberi tahu!
Sebagai tambahan, codex dirilis pada Mei 2025.
wkwkwkwkwkwkwkwkwkwkwkwkwkwk
Sebelum mempermalukan diri karena tidak tahu, bagaimana kalau setidaknya coba cari-cari dulu di Namuwiki?
Oh, sebagai referensi, ChatGPT Atlas bilang ini sudah hari ke-1812 sejak saya mendaftar.
Ah, jadi
codexyang sekarang dancodexpada waktu itu adalah produk dengan bentuk yang berbeda. Saat itu,codexadalah nama model LLM OpenAI yang berfokus pada kode, dan mereka meluncurkan platformcodexyang sekarang dengan memakai merek yang sama.Saya waktu itu memakai GitHub Copilot, dan hanya tahu bahwa model dasarnya adalah GPT-3, tapi saya tidak tahu bahwa mereka memakai merek
codexsebagai nama modelnya.Codex itu bukan model.
Yang seperti
GPT-5.3-Codexbaru dinamai belakangan ini.Itu adalah nama ekstensi VSCode yang menyediakan model coding hasil fine-tuning berbasis GPT-3.
(web tidak ada yang memakainya)
Model dan pendekatan yang sama juga dipakai di GitHub Copilot.
Pada saat itu belum bisa melakukan chat yang bermakna, jadi secara harfiah rasanya seperti prediksi kata berikutnya.
Hanya saja, kalau Anda memasukkan soal Baekjoon, itu terasa seperti autocomplete pamungkas yang menulis fungsi
solve.(Maksudnya, OpenAI melakukannya lebih dulu daripada yang ada di Cursor.)
Sepertinya yang Anda maksud adalah ekstensi vscode yang menggunakan model codex (mungkin ini? https://github.com/Implicate-dev/codex-vscode)
Jika melihat makalah yang ditulis Mark Chen pada 2021, tampaknya di openai codex pernah dipublikasikan sebagai nama model yang telah di-fine-tune.
Sepertinya benar, tetapi karena sudah lama, saya tidak ingat persis.
Bagaimana menurut Anda tentang ilusi yang disebut Ralph Loop?
https://www.youtube.com/watch?v=SGUCcjHTmGY
Saya ingat pernah merasa heran ketika melihat pembahasan di situs-situs Amerika, bukan situs Korea, yang mengatakan penggunaan token harus tinggi. Bukan hanya Korea, Amerika juga sama; banyak beredar cerita aneh dan dilebih-lebihkan yang sulit diterima.
Di Korea, klaim seperti ini sudah muncul sejak hampir setengah tahun lalu, dan belakangan sepertinya pembahasannya makin ramai dan intens.
Orang seperti Garry Tan juga secara aktif mengatakan bahwa itu tidak benar.
Ini cerita dalam konteks yang agak berbeda, tetapi saya memang berpandangan bahwa melakukan verifikasi dengan lebih banyak token pada hardware yang lebih murah lebih baik daripada memakai API cloud yang mahal sambil menghemat token.
Dengan berkembangnya agent dan harness, tampaknya struktur yang memiliki efisiensi biaya sehingga memungkinkan lebih banyak peninjauan dan verifikasi lebih disukai daripada sekadar mengandalkan presisi dan ukuran model.
Sejak kemunculan GDN dan Mamba, menurut saya hal itu terutama semakin terasa.
Secara pribadi saya sulit untuk setuju.
Dalam kasus Opus, harganya memang terlalu mahal, tetapi jika harganya setara GPT-5.4, maka dari berbagai sisi ekonomi akan lebih baik menjalankan 5.4 beberapa kali daripada memutar model murah buatan Tiongkok sepanjang hari.
Menurut saya, alasan mengapa bahkan para pro gamer dengan efisiensi belajar terbaik di dunia pun sering gagal mempelajari hal baru bukan semata-mata karena kemampuan mereka kurang.
Saya justru berpikir sebaliknya.
Karena mereka terlalu lama, dan pada level yang terlalu tinggi, teroptimasi pada meta yang ada, mereka sering menghadapi kesulitan yang lebih besar saat berhadapan dengan perubahan.
Pada awalnya, semua penilaian dilakukan secara sadar.
Namun ketika pembelajaran berulang menumpuk, penilaian yang awalnya diproses di otak besar perlahan menjadi otomatis, dan pemain yang mahir akhirnya mencapai tahap di mana tubuh bereaksi lebih dulu daripada pikiran.
Saya pikir otomatisasi ini jelas merupakan kekuatan yang luar biasa.
Hanya saja, saat meta berubah, kekuatan itu justru bisa berubah menjadi inersia yang kuat.
Vision, teamfight, dan sense makro yang dulu merupakan jawaban benar dalam meta lama terpatri di tubuh selama ribuan jam.
Karena itu, meskipun struktur permainan berubah dan jawaban lama bukan lagi jawaban yang benar, tubuh tetap cenderung bergerak lebih dulu dengan cara lama.
Pada akhirnya, masalahnya bukan pada kurangnya kemampuan untuk mempelajari hal baru, melainkan pada kemampuan untuk melepaskan optimasi yang sudah ada.
Sebagian besar kemahiran memang merupakan hasil akumulasi, tetapi pada saat yang sama juga merupakan hasil dari inersia.
Karena itu, saya tidak berpikir bahwa orang yang pernah unggul pasti akan selalu diuntungkan pada meta berikutnya.
Sebaliknya, kemungkinan mereka lebih kuat terikat pada keberhasilan era sebelumnya juga cukup besar.
Menurut saya, industri coding saat ini pun tidak jauh berbeda.
Banyak orang masih menghitung efisiensi dengan cara lama, dan menilai produktivitas dengan standar lama.
Namun saya melihat meta sudah mulai berubah.
Terlepas dari latar pendidikan atau pengalaman, jika melihat apa yang benar-benar terjadi di dunia, saya rasa kita perlu kembali memikirkan apakah pasar sekarang masih bergerak dengan struktur yang benar-benar sama seperti dulu, dan apakah pengembangan masih hanya memberikan nilai yang bersifat subordinatif.
Pada akhirnya, orang yang melangkah ke tahap berikutnya bukan hanya mereka yang lebih tekun membangun akumulasi, tetapi mereka yang bisa lebih cepat membuang hal-hal yang sudah ada.
Menurut saya, di era baru kemampuan untuk menyingkirkan optimasi usang menjadi jauh lebih penting daripada kemampuan untuk terus menumpuk lebih banyak hal.
Kalau Anda berpikir begitu, ya tinggal siarkan langsung 24 jam dan tunjukkan sendiri.
Oh
Terima kasih atas ide yang bagus.
Memang pengalaman itu berbeda 👍👍👍👍👍👍👍👍👍
Saya sudah mendengarkan panjang lebar penjelasan bahwa itu tidak bisa dilakukan.
Saya setuju, tetapi saya rasa set harness yang dibuat dengan baik seperti omo memang membantu pengembangan (setahu saya Ralph Loop bukan yang utama. Bukankah itu tidak diberikan sebagai opsi? ulw kah..?)
Kalau bicara langsung ke intinya, sepertinya ini sama sekali tidak ada hubungannya dengan jumlah penggunaan token.
Soal otomatisasi, di kalangan developer ada budaya yang sudah mengakar, sampai terasa seperti semacam tujuan pencapaian profesional yang dipandang bersama.
Bagian inilah yang tampaknya membuat orang berfantasi tentang menulis kode atau membuat produk secara otomatis sepanjang malam.
Padahal, kalau dilihat bukan dari sudut pandang developer melainkan dari sisi kegunaan bisnis nyata atau operasional bisnis, kenyataannya sering kali yang dinilai lebih penting bukan performa, kualitas hasil, atau respons cepat, melainkan mengukur masalah dan mencari solusinya...
Rasanya fantasi khas developer bahwa kalau membuat aplikasi yang bagus atau membangun layanan dengan baik pasti akan meledak sukses itu yang mendistorsi situasi.
Untuk memungut beberapa helai rambut di rumah, yang dibutuhkan bukan 500 jenis vacuum cleaner berperforma tinggi, melainkan satu benda sederhana yang bisa menggantikan jari saya.
Konsumsi token juga bisa dengan mudah menghabiskan $100 dalam 2-3 hari untuk pengembangan server sederhana sekalipun, setidaknya dengan patokan Claude, kalau salah mengelola sesi atau salah memakai SDD.
Karena spesifikasi tentang penggunaan token yang keliru itu tidak jelas, ternyata sulit juga untuk menilai sendiri apakah kita sedang memakainya dengan cara yang salah.
Bagaimanapun isi pembahasannya, menjadikan jumlah konsumsi token sebagai tolok ukur pemanfaatan AI rasanya sama saja seperti mengatakan seseorang hebat hanya karena makan banyak, atau seperti sulitnya mengklaim sudah bekerja banyak di kantor hanya karena semalaman menyalin dokumen lama dengan pensil.
Untuk saat ini, karena belum ada tolok ukur yang benar-benar akurat, orang masih fokus pada konsumsi token dan otomatisasi,
namun tampaknya tahap berikutnya akan segera masuk ke pembahasan tentang cara menciptakan nilai yang benar-benar nyata.
Sebenarnya, rasanya Amerika juga tidak terlalu berbeda. Harness coding jenis Oh-my tampaknya kurang dipasarkan ke luar negeri termasuk Amerika karena tim proyeknya berasal dari Korea, dan kalau melihat hal-hal yang dikemukakan oleh Steve Yegge atau Karpathy, para token maximalist yang representatif, ternyata tidak jauh berbeda dengan yang Anda sebutkan. Para pengikut mereka juga begitu.
Mereka sampai membuat leaderboard penggunaan token di dalam perusahaan dan bahkan berkompetisi antarperusahaan, tetapi secara pribadi saya merasa ini cuma termakan pemasaran dari perusahaan-perusahaan AI.
Kalau melihat hal-hal yang belakangan ini viral, rasanya performa dibanding token sama sekali tidak dipertimbangkan.
Lucunya, perusahaan AI tidak melakukan pemasaran seperti itu.
Sebaliknya, mereka malah mengatakan bisa menghasilkan performa yang lebih baik dengan reasoning token yang lebih sedikit dibanding model-model sebelumnya.
5 tahun yang lalu...? Mungkin bisa merekomendasikan saham?
Samsung Electronics.