- Benchmark OpenSCAD Pantheon menguji apakah alat coding AI dapat mengimplementasikan bangunan menjadi kode CAD parametrik hanya dengan 2 gambar referensi dan prompt singkat
- Google Antigravity 2.0 / Gemini 3.5 Flash High meraih skor tertinggi dengan kualitas 4.5/5, bahkan mengimplementasikan dimensi Pantheon asli, inskripsi, hingga pola langit-langit coffer di interior
- Codex 5.5 High memiliki kepadatan detail tinggi, tetapi nilainya dipotong karena ketidaksesuaian antara pratinjau PNG dan STL final, sementara Sonnet menghasilkan model paling rapi di antara eksekusi otonom yang ada
- Cursor adalah yang tercepat tetapi kualitasnya paling rendah, dan ModelRift/Gemini Flash 3.0 mencapai 3.8/5 lewat pendekatan human-in-the-loop dengan umpan balik visual
- Semua sistem berhasil melakukan rendering lewat OpenSCAD CLI, tetapi hambatannya bukan akses alat melainkan penilaian geometri dan verifikasi mesh final
Tujuan benchmark dan tugasnya
Mengapa memilih Pantheon dan OpenSCAD
- Pantheon adalah tugas yang melampaui sekadar pengujian sintaks
difference(), cube(), cylinder(), tetapi juga bukan geometri organik seperti patung atau karakter yang sulit ditangani OpenSCAD
- Struktur utamanya terdiri dari rotunda melingkar dan kubah, oculus di tengah, portico linear, kolom, podium bertingkat, dan pediment segitiga, sehingga cocok untuk membandingkan perbedaan hasil
- Hasil yang lemah pun masih bisa tampak seperti bangunan berkubah, tetapi hasil yang baik harus lebih akurat mencocokkan hubungan antara drum bundar, portico persegi panjang, cincin kubah, dan fasad depan
- OpenSCAD cocok sebagai target geometri yang dihasilkan LLM karena modelnya berupa kode teks biasa dan kosakatanya kecil
- Instruksi seperti “ulang 28 kolom di sekeliling radius” atau “kurangi oculus dari kubah” bisa dinyatakan langsung di kode sumber
- Hasilnya dapat diperiksa, direproduksi, dan mudah diperbaiki, sehingga kesalahan jarak antarkolom dapat diperbaiki lewat parameter atau loop, bukan lewat status scene tersembunyi
- Latar belakang mengapa ModelRift dibangun di atas OpenSCAD dijelaskan di Why we built ModelRift on OpenSCAD
- Kekurangannya, OpenSCAD bukan alat sculpting, dan paling cocok untuk objek konstruktif, parametrik, serta hard-surface
Hasil keseluruhan
- Skor adalah penilaian relatif di dalam benchmark ini, bukan peringkat model secara umum
- Skor waktu mencerminkan waktu implementasi yang diamati, bukan waktu publikasi proyek
- Skor kualitas diberikan secara konservatif, dan bahkan hasil terbaik pun masih belum mendekati model Pantheon yang sempurna
- Hasil per alat dan model:
- Cursor 3.5 / Composer 2.5: waktu 5/5, kualitas 1.4/5. Paling cepat tetapi juga paling lemah; selain bentuk besar kubah dan portico, hasilnya kurang dalam proporsi, kontrol warna, dan detail arsitektur
- Codex 5.5 High: waktu 4/5, kualitas 3.0/5. Detailnya sangat padat sampai memasukkan inskripsi entablature, tetapi nilainya turun karena STL final berbeda dari pratinjau PNG
- Claude Code 2.1 / Opus 4.7: waktu 2/5, kualitas 3.0/5. Strukturnya, portico, dan podium bertingkat lebih jelas daripada Cursor, tetapi warnanya terlalu seragam dan kurang meyakinkan dibanding hasil yang lebih kuat
- Claude Code 2.1 / Sonnet 4.6: waktu 1/5, kualitas 3.4/5. Menunjukkan kesan keseluruhan paling masuk akal dan proporsi paling seimbang di antara eksekusi otonom yang ada, tetapi butuh waktu implementasi paling lama
- Google Antigravity 2.0 / Gemini 3.5 Flash High: waktu 1/5, kualitas 4.5/5. Menggunakan dimensi dan inskripsi Pantheon asli, dan menjadi satu-satunya agen otonom yang mengimplementasikan pola langit-langit coffer di interior
- ModelRift / Gemini Flash 3.0: waktu 1/5, kualitas 3.8/5. Menjadi hasil non-otonom terbaik dengan workflow anotasi iteratif ModelRift, tetapi memakan waktu sekitar 2 kali lebih lama dibanding Claude Code
Pengamatan workflow
- Workflow klien sama pentingnya dengan model itu sendiri
- Codex Desktop menampilkan gambar yang dimuat LLM langsung di dalam percakapan, sehingga mudah memverifikasi apakah referensi benar-benar dipakai dalam pekerjaan CAD visual
- Cursor Agent dan Claude Code CLI juga dapat menggunakan gambar, tetapi konteks visual selama prosesnya terlihat kurang eksplisit
- Semua sistem yang diuji dapat menangani toolchain OpenSCAD lokal dan memanggil OpenSCAD dari
PATH macOS untuk merender pratinjau PNG
- Hambatannya bukan akses alat, melainkan penilaian geometri, pengaturan kamera, dan apakah model pratinjau bisa diekspor menjadi mesh final yang bersih
- Codex memperlihatkan gambar referensi, pengeditan file OpenSCAD, dan pratinjau yang dihasilkan dalam thread yang sama, sehingga proses iterasinya mudah diikuti
- Setelah benchmark dipublikasikan, Codex mencoba memperbaiki masalah ekspor atap dan entablature, tetapi perbandingan final tetap didasarkan pada model yang diajukan semula
- Cursor menawarkan loop interaksi tercepat dan UI paralel yang berguna untuk perencanaan dan kode OpenSCAD, tetapi kualitas output tertinggal dari eksekusi yang lebih lambat
- Claude Code berfokus pada terminal untuk membaca gambar dan mengulang perintah OpenSCAD, tetapi proses pembentukan modelnya kurang visual
Google Antigravity 2.0 / Gemini 3.5 Flash High
- Explore 3D result
- Eksekusi ini ditambahkan pada 22 Mei 2026, tepat setelah Google meluncurkan Antigravity 2.0 di I/O 2026 dan mengumumkan Gemini 3.5 Flash pada 19 Mei 2026
- Hasilnya adalah model otonom penuh terbaik dalam benchmark ini, dan sinyal awal terhadap Flash 3.5 juga positif
- Antigravity 2.0 lebih dekat ke aplikasi desktop yang mengutamakan agen dengan perencanaan, eksekusi tugas, dan pratinjau; pengguna yang menginginkan pengalaman IDE sebelumnya tidak punya jalur kembali yang mulus selain downgrade atau tetap memakai aplikasi lama, sehingga banyak kritik pada minggu peluncuran
- Flash 3.5 High tidak hanya memperkirakan dari gambar referensi, tetapi juga mencari parameter Pantheon yang sebenarnya
- Rencana dan kode menggunakan dimensi eksplisit untuk rotunda, kubah, portico, dan oculus, lalu mengubahnya menjadi nilai OpenSCAD parametrik
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
- Untuk mencerminkan struktur interior Pantheon juga, model ini mengusulkan mode cutaway
To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.
- Detail terkuatnya adalah bagian langit-langit
The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.
- Antigravity adalah satu-satunya agen otonom yang mengimplementasikan pola langit-langit coffer berupa kotak-kotak berulang yang terlihat melalui oculus
- Hasil eksteriornya juga mencakup elemen yang sering dihilangkan pada output OpenSCAD cepat
- material kolom campuran abu-abu dan kemerahan
- inskripsi yang bisa dibaca
- cincin atap bertingkat
- hubungan massa yang luas antara rotunda, blok tengah, portico, dan kubah
- Skor kualitasnya 4.5/5 dan skor kecepatannya 1/5
- Memang tidak cepat, tetapi berhasil menaikkan batas atas generasi otonom dalam benchmark ini dan menunjukkan Flash 3.5 tampak menjanjikan untuk generasi kode spasial saat dipadukan dengan alat perencanaan, rendering, inspeksi, dan revisi
ModelRift / Gemini Flash 3.0
- Explore 3D result
- Hasil ini dibuat lewat proses human-in-the-loop menggunakan ModelRift dan Gemini Flash 3.0, jadi bukan benchmark otonom single-pass seperti empat eksekusi pertama
- Workflow ini memakan waktu sekitar 10 menit dan sekitar 2 kali lebih lama daripada Claude Code, sehingga mendapat skor kecepatan yang sama, 1/5
- Benchmark ini dijalankan pada 21 Mei 2026, tepat setelah peluncuran Gemini 3.5 Flash
- Hasil Antigravity menunjukkan bahwa 3.5 Flash kuat, tetapi dalam pemilihan model default ModelRift, kualitas juga harus ditimbang bersama biaya dan latensi
- Harga Gemini API dari Google mencantumkan harga standar Gemini 3.5 Flash sebesar US$1.50 per 1 juta token input dan US$9.00 per 1 juta token output, sementara Gemini 3 Flash sebesar US$0.50 untuk input dan US$3.00 untuk output
- Gemini 3.5 Flash berarti kenaikan biaya 3 kali lipat dibanding generasi Flash sebelumnya, dan jauh lebih mahal daripada patokan biaya pada era Gemini 1.5 Flash yang lebih lama
- Kualitasnya 3.8/5, lebih baik daripada batch eksekusi otonom yang ada
- Modelnya belum sempurna, tetapi portico, penempatan kolom, atap, rusuk kubah, dan massa keseluruhan lebih konsisten
- Perbedaan kuncinya adalah kemampuan menempelkan umpan balik visual langsung di atas render saat ini
- Workflow ModelRift dirancang untuk mengulang proses pembuatan model, inspeksi di browser, penulisan catatan visual di atas render, lalu meminta AI merevisi OpenSCAD
- Untuk pekerjaan CAD spasial, loop ini jauh lebih presisi daripada memberi instruksi hanya lewat teks
Hasil utama eksekusi otonom
-
Codex 5.5 High
- Explore 3D result
- Codex 5.5 High menghasilkan model paling padat
- Elemen yang disertakan mencakup rotunda, rusuk kubah, oculus, pita batu bertingkat, portico depan, kolom, detail podium sekeliling, dan teks entablature
- Entablature memuat
M AGRIPPA L F COS TERTIVM FECIT
- Dalam OpenSCAD, teks merupakan elemen yang menantang dari sudut pandang pemodelan karena perlu penempatan, ekstrusi, orientasi, dan ketebalan tipis yang tetap terjaga
- Selama iterasi, pratinjau render terlihat lebih baik daripada STL final yang diekspor
- Pada hasil final, muncul permukaan mirip langit-langit bermasalah di area entablature dan atap portico, sehingga kesan rakitan fasad depan berubah
- Codex menunjukkan penalaran spasial yang kuat dan upaya detail yang tinggi, tetapi juga memperlihatkan risiko ekspor bahwa akurasi pratinjau tidak sama dengan akurasi mesh final
- Jika yang dijadikan dasar adalah pratinjau PNG terbaik, bukan STL yang dipublikasikan, tingkat struktur dan detailnya cukup untuk ditempatkan tepat di bawah Antigravity 2.0
- Skor 3.0/5 lebih banyak dipengaruhi penalti atas ketidaksesuaian ekspor dan rendering final daripada niat desain modelnya
-
Claude Sonnet
- Explore 3D result
- Claude Sonnet menghasilkan model paling rapi di antara batch eksekusi otonom yang ada
- Memang tidak mencoba detail sehalus Codex, tetapi siluetnya lebih bersih dan komponen arsitektur utama menyatu lebih alami
- Kubah, drum, portico, dan penempatan kolom terbaca sebagai satu bangunan utuh, bukan sekadar kumpulan primitive yang berdampingan
- Proporsinya juga lebih terkendali, dan sebelum eksekusi Antigravity, inilah hasil otonom penuh terkuat
- Claude Code sekitar 2–3 kali lebih lambat daripada Codex dalam benchmark ini, dan Sonnet tetap mendapat skor waktu terendah meski kualitasnya baik
- Skor kualitasnya 3.4/5, tetapi masih berupa model perkiraan, bukan rekonstruksi arsitektur kualitas produksi
-
Cursor Composer
- Explore 3D result
- Kombinasi Cursor dan Composer 2.5 adalah eksekusi tercepat, tetapi hasilnya paling lemah
- Gestur besar seperti rotunda, kubah, portico, dan kolom sudah tepat
- Namun, ia melewatkan pengendalian material dan nuansa arsitektural yang membuat Pantheon mudah dikenali
- Output-nya lebih mendekati placeholder yang disederhanakan daripada model jadi, dan akan membutuhkan banyak pengerjaan ulang sebelum layak dipublikasikan
-
Claude Opus
- Explore 3D result
- Claude Opus berada di antara Cursor dan Sonnet
- Ia menghasilkan bangunan yang lebih selesai daripada Cursor, dan portico serta podium bertingkatnya lebih jelas
- Namun output-nya terlalu seragam dan kurang meyakinkan daripada Sonnet
- Strukturnya ada, tetapi kurang dalam penilaian hierarki visual
- Warna dan bobot hampir semua elemen sama, sehingga detail saling bersaing alih-alih membimbing perhatian
- Skor yang diperbarui menjadi 3.0/5, cukup untuk dinilai lebih tinggi daripada versi tabel awal, tetapi tetap di belakang Sonnet dan Antigravity
Pelajaran utama
- OpenSCAD bertahan dengan baik sebagai bahasa target
- Sintaksnya kecil, output-nya deterministik, dan CLI-nya merender pratinjau yang bisa diperiksa dalam loop iteratif
- LLM tidak memerlukan pegangan khusus untuk menggunakan OpenSCAD
- Penggunaan alat bukan hambatannya
- Semua agen dapat memanggil OpenSCAD dari
PATH macOS dan merender pratinjau PNG
- Bagian sulitnya bukan pipeline, melainkan penilaian geometri
- Kecepatan tidak memprediksi kualitas
- Cursor paling cepat tetapi menghasilkan hasil paling lemah
- Sonnet memakan waktu paling lama di antara eksekusi otonom yang ada, tetapi menghasilkan model paling bersih
- Antigravity juga lambat, tetapi Gemini 3.5 Flash High menghasilkan hasil otonom terbaik setelah diberi waktu untuk merencanakan dan beriterasi
- ModelRift/Gemini Flash 3.0 memakan waktu lebih lama, tetapi berkat umpan balik visual mampu mencapai kualitas lebih tinggi daripada batch otonom yang ada
- Pratinjau dan ekspor tidaklah sama
- Codex terlihat kuat dalam loop render, tetapi mesh STL finalnya mengalami masalah geometri di sekitar atap portico
- Untuk model yang ditujukan untuk dicetak, bukan hanya pratinjau yang harus diperiksa, tetapi juga mesh hasil ekspor secara terpisah
- Tidak ada output yang benar-benar lolos sebagai model arsitektur yang setia
- Inskripsi Codex adalah detail yang bagus
- Proporsi Sonnet konsisten
- Langit-langit coffer Antigravity adalah detail yang paling mengesankan
- Hasil ModelRift/Gemini Flash 3.0 menunjukkan bagaimana kualitas bisa meningkat ketika manusia melakukan penyesuaian visual
- Hanya dengan dua gambar referensi dan prompt singkat, semua sistem berhasil mencapai OpenSCAD yang valid dan bisa dirender tanpa perlu menulis kode CAD secara manual
- Perbedaan kualitas antaralat memang besar, tetapi garis start dasarnya sendiri lebih tinggi dari perkiraan
- Generasi sepenuhnya otonom masih belum menjadi workflow yang tepat untuk pekerjaan seperti ini
- Di ModelRift, pekerjaan iteratif masih menggunakan Annotation Mode
- Caranya adalah menggambar panah dan catatan langsung di screenshot model 3D lalu mengirimkannya kembali ke AI
- Dalam geometri spasial, tahap human-in-the-loop tetap penting bahkan saat memakai model terbaik
- Model bisa benar dalam massa besar tetapi tetap salah pada posisi kolom atau proporsi kubah
- Menunjuk langsung masalah di atas render lebih cepat dan akurat daripada menjelaskannya lewat teks
1 komentar
Komentar Hacker News
Minggu lalu saya membeli sepeda istri saya di Marketplace, kondisinya bagus, tetapi ada satu sumbat karet untuk internal cable routing yang hilang
Saya memasukkan ke Claude foto lubang berbentuk kapsul itu saja, plus foto saat saya mengukur sisi panjang dan sisi pendeknya dengan digital caliper, lalu dengan prompt singkat Claude membuat model OpenSCAD dengan semua dimensi diparameterkan
Saya mencetaknya dengan TPU tanpa modifikasi, dan hasil percobaan pertama sudah hampir sempurna; ketika saya menurunkan pengurangan dimensi x/y yang dibuat Claude dari 0,3 mm menjadi 0,1 mm, hasilnya pas sekali. Bentuknya memang jauh lebih mudah daripada arsitektur Romawi kuno, tetapi tetap keren bahwa ini bisa dilakukan semudah itu
Saya punya pengalaman serupa membuat komponen fungsional sederhana untuk printer 3D dengan OpenSCAD dan LLM, dan saya juga tahu model-model ini belum sebagus saat menghasilkan kode React, serta saya jelas kebalikan dari operator yang terampil. Tetap saja, keren karena ini membuat saya mulai belajar keterampilan baru di level hobi
Keajaiban yang sesungguhnya adalah saat Anda hanya memberi satu dimensi atau satu foto dengan penggaris lalu AI bisa menyimpulkan sisanya, tetapi setidaknya saat ini Claude masih cukup lemah dalam menebak
Sangat mengesankan bahwa “Antigravity adalah satu-satunya agen otonom yang berhasil merepresentasikan pola langit-langit interior khas Pantheon, yaitu langit-langit coffer persegi berulang yang terlihat melalui oculus”
Bahkan setelah melihat model 3D-nya, saya bahkan tidak terpikir untuk melihat bagian dalam sampai membaca kalimat itu
Model 3D dengan
show_cutawayaktif ada di sini: https://modelrift.com/models/pantheon-benchmark-antigravity-...Jika yang diminta adalah “Pantheon”, tentu itu tindakan yang tepat, tetapi jika saya seorang drafter atau engineer, saya rasa akan sulit menerima hasil kerja seperti itu
Entah benchmark apa yang membuat Antigravity jadi nomor satu, tetapi Antigravity saya yang secara paksa menggantikan Gemini CLI meminta login browser setiap kali dipakai, dan Antigravity IDE bahkan tidak bisa diperbarui sama sekali
Kalau memungkinkan, saya ingin mereka memenuhi dulu kualitas rilis dasar yang layak diterima sebelum khawatir soal menjadi nomor satu dalam sesuatu
Judul aslinya adalah “OpenSCAD LLM Benchmark: Building the Pantheon”
Meski begitu, model LLM-nya sendiri bagus dan Antigravity 2.0 juga tidak terlalu buruk. Namun ceritanya berbeda jika seperti banyak orang lain Anda kehilangan pengaturan dan proyek Antigravity 1.0 Anda
Gemini 3.5 Flash itu aneh. Cutoff-nya sudah lama, dalam beberapa hal lebih baik daripada 3.1 Pro tetapi dalam hal lain lebih buruk, dan kadang lebih murah tetapi kadang juga lebih mahal daripada 3.1 Pro
Antigravity tampak seperti ditelantarkan dan orang-orang berspekulasi bahwa ia akan dihentikan, dan kenyataannya memang kurang lebih begitu karena semua orang dipindahkan ke Antigravity baru
Rasanya Google mengekspor bagan organisasinya langsung menjadi produk, dan produk AI mereka terlalu banyak tetapi tak satu pun tampak terbaik di kelasnya. Misalnya, integrasi Gemini di Google Docs lebih buruk daripada Claude
Yang saya harapkan adalah model dengan “kecerdasan setingkat Opus dengan biaya Haiku” atau “performa setingkat Sonnet dengan harga Gemini 3.0”. Kalau salah satu saja muncul, itu bisa jadi model utama sekaligus pesaing Claude/Codex, tetapi kami tidak mendapatkan keduanya
Saya penasaran aspek apa yang tidak tercakup oleh kombinasi Antigravity CLI + VS Code atau kombinasi IDE lain
Lalu email yang mereka kirim hari Rabu bernada seperti, “terima kasih sudah berlangganan Google One AI Pro, mulai sekarang kami menambahkan pembatasan pada akun Anda. Mau bagaimana lagi,” dan itu benar-benar menjengkelkan. Sebelumnya saya justru memuji langganan AI Pro karena value for money-nya bagus
Saya senang Google berinvestasi di sini, tetapi makin tua saya, makin saya menjaga alur kerja saya
Saya sudah banyak menjalankan benchmark untuk OpenSCAD dengan berbagai model dan pengaturan, dan inilah yang saya pelajari
Model-model itu inkonsisten, sehingga bisa sangat bagus untuk satu jenis model 3D tetapi tidak untuk jenis lainnya
Dalam pengalaman saya, model Gemini adalah yang paling tidak inkonsisten dan paling baik dalam memahami gambar
Model Gemini juga yang paling kreatif, tetapi jika Anda menginginkan komponen CAD yang presisi, itu justru mungkin tidak diinginkan
Secara keseluruhan, benchmark ini tidak membuktikan banyak hal. Satu model 3D dan satu percobaan saja tidak cukup. Biasanya saya menguji setidaknya 12 model, masing-masing dibuat 3 kali, tetapi sebenarnya seharusnya jauh lebih banyak. Hanya saja biayanya terlalu besar bagi pengembang independen
Tetap saja, terima kasih sudah memublikasikannya, dan saya berencana segera menjalankan Flash 3.5 untuk melihat performanya
Menilai LLM berdasarkan kemampuannya menghasilkan model CAD 3D yang valid adalah benchmark yang menarik
OpenSCAD sangat cocok untuk penilaian seperti ini karena sepenuhnya bergantung pada kode
Saat dicoba langsung, pengalamannya cukup buruk. Pada percobaan pertama, kadang muncul draf awal yang lumayan, tetapi begitu Anda mulai “debug”, sesi itu menjadi sangat membuat frustrasi dan akhirnya Anda sadar model itu tidak bisa benar-benar “melihat” hasilnya dengan baik
Artinya, sama sekali tidak bisa melakukan perbaikan iteratif
Kebanyakan alat eksekusi atau harness tampaknya mengecilkan ukuran gambar sebelum memprosesnya, dan dalam proses itu detail hilang sampai-sampai, terutama untuk gambar wireframe, sulit untuk melakukan penalaran
Mungkin saya yang memakainya salah, tetapi tes ini tidak benar-benar memverifikasi bagian itu. Ini hanya percobaan sekali jalan, dan pendekatan seperti itu cepat runtuh. Terutama jika Anda tidak punya foto referensi untuk apa yang ingin dibuat
Membuat satu objek dunia nyata lalu menyebutnya benchmark bukanlah cara yang kokoh untuk mengevaluasi alat
Seharusnya seperti Iron Chef: beri tema arsitektur Yunani, lalu panel juri yang menentukan pemenangnya. Saat ini, yang terjadi hanyalah melihat alat mana yang secara subjektif membuat Pantheon yang paling meyakinkan
Penilaiannya dilakukan pada satu contoh tunggal yang tidak didefinisikan dengan baik, tanpa use case akhir, dan dengan kriteria penilaian yang sepenuhnya subjektif
Masih terlalu dini untuk short Autodesk
Sebagai referensi, Autodesk merilis asisten agentic untuk Fusion pada bulan Desember, dan setelah 6 bulan sekarang pun masih cukup buruk
Dalam beberapa minggu terakhir saya perlu merancang beberapa komponen sederhana untuk 3D printing, jadi saya mencobanya, dan meskipun tiap komponen hanya butuh sekitar 4 langkah di timeline, bahkan saat saya menuliskannya secara detail langkah demi langkah sesuai istilah Fusion, ia tetap tidak bisa membuat sesuatu yang mendekati apa yang saya inginkan
Sekarang saya bahkan tidak yakin ia bisa membuat bentuk dasar sederhana dengan benar
Saya agak tidak bisa menerimanya. Pantheon adalah salah satu bangunan bersejarah paling ikonis, jadi ada banyak buku tentangnya, dan pasti juga banyak foto serta model publik yang sudah digunakan untuk pelatihan
Benchmark yang memodelkan struktur anonim hanya berdasarkan referensi yang diberikan akan jauh lebih menarik. Ini terasa seperti sulap dangkal saat melihat LLM membuat aplikasi to-do dalam sekali jadi
Saya sedang membuat perangkat teknologi untuk pengasuhan anak, dan casing luarnya sepenuhnya dihasilkan AI
Saya sama sekali tidak tahu harus mulai dari mana untuk 3D modeling, dan LLM memberi tahu saya bahwa ini juga, seperti hal lain, pada dasarnya adalah kode
Anehya, Opus 4.5 membuatnya sempurna dalam sekali jalan, dan itu terjadi tepat sebelum kontroversi penurunan performa; sejak saat itu, bahkan sedikit memodifikasi casing itu pun menjadi sangat sulit
Rasanya Opus berubah dari model yang secara profesional bisa memutar bentuk di kepalanya, menjadi model yang bahkan tidak tahu apa yang sedang ditanganinya
Hanya saja 4.7 lumayan untuk pekerjaan modifikasi