Antigravity 2.0 menempati peringkat 1 dalam benchmark LLM arsitektur 3D OpenSCAD

(modelrift.com)

3 poin oleh GN⁺ 2026-05-23 | 2 komentar | Bagikan ke WhatsApp

Benchmark OpenSCAD Pantheon menguji apakah alat coding AI dapat mengimplementasikan bangunan menjadi kode CAD parametrik hanya dengan 2 gambar referensi dan prompt singkat
Google Antigravity 2.0 / Gemini 3.5 Flash High meraih skor tertinggi dengan kualitas 4.5/5, bahkan mengimplementasikan dimensi Pantheon asli, inskripsi, hingga pola langit-langit coffer di interior
Codex 5.5 High memiliki kepadatan detail tinggi, tetapi nilainya dipotong karena ketidaksesuaian antara pratinjau PNG dan STL final, sementara Sonnet menghasilkan model paling rapi di antara eksekusi otonom yang ada
Cursor adalah yang tercepat tetapi kualitasnya paling rendah, dan ModelRift/Gemini Flash 3.0 mencapai 3.8/5 lewat pendekatan human-in-the-loop dengan umpan balik visual
Semua sistem berhasil melakukan rendering lewat OpenSCAD CLI, tetapi hambatannya bukan akses alat melainkan penilaian geometri dan verifikasi mesh final

Tujuan benchmark dan tugasnya

Karena ModelRift menghasilkan kode OpenSCAD untuk semua model 3D, kemampuan LLM dalam menangani geometri spasial terhubung langsung ke kualitas model nyata
Pengujian ini adalah benchmark praktik berskala kecil yang memberi beberapa alat coding AI tugas yang sama: mengimplementasikan Pantheon dalam OpenSCAD berdasarkan gambar referensi dan prompt singkat
Tujuannya adalah memeriksa kemampuan mengubah referensi arsitektur menjadi kode CAD parametrik, merender pratinjau PNG dengan OpenSCAD CLI, lalu melakukan iterasi perbaikan

Prompt meminta agar rotunda, kubah, portico, kolom, pediment, dan detail fasad depan Pantheon disertakan

see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.

Mengapa memilih Pantheon dan OpenSCAD

Pantheon adalah tugas yang melampaui sekadar pengujian sintaks difference(), cube(), cylinder(), tetapi juga bukan geometri organik seperti patung atau karakter yang sulit ditangani OpenSCAD
Struktur utamanya terdiri dari rotunda melingkar dan kubah, oculus di tengah, portico linear, kolom, podium bertingkat, dan pediment segitiga, sehingga cocok untuk membandingkan perbedaan hasil
Hasil yang lemah pun masih bisa tampak seperti bangunan berkubah, tetapi hasil yang baik harus lebih akurat mencocokkan hubungan antara drum bundar, portico persegi panjang, cincin kubah, dan fasad depan
OpenSCAD cocok sebagai target geometri yang dihasilkan LLM karena modelnya berupa kode teks biasa dan kosakatanya kecil
Instruksi seperti “ulang 28 kolom di sekeliling radius” atau “kurangi oculus dari kubah” bisa dinyatakan langsung di kode sumber
Hasilnya dapat diperiksa, direproduksi, dan mudah diperbaiki, sehingga kesalahan jarak antarkolom dapat diperbaiki lewat parameter atau loop, bukan lewat status scene tersembunyi
Latar belakang mengapa ModelRift dibangun di atas OpenSCAD dijelaskan di Why we built ModelRift on OpenSCAD
Kekurangannya, OpenSCAD bukan alat sculpting, dan paling cocok untuk objek konstruktif, parametrik, serta hard-surface

Hasil keseluruhan

Skor adalah penilaian relatif di dalam benchmark ini, bukan peringkat model secara umum
Skor waktu mencerminkan waktu implementasi yang diamati, bukan waktu publikasi proyek
Skor kualitas diberikan secara konservatif, dan bahkan hasil terbaik pun masih belum mendekati model Pantheon yang sempurna
Hasil per alat dan model:
- Cursor 3.5 / Composer 2.5: waktu 5/5, kualitas 1.4/5. Paling cepat tetapi juga paling lemah; selain bentuk besar kubah dan portico, hasilnya kurang dalam proporsi, kontrol warna, dan detail arsitektur
- Codex 5.5 High: waktu 4/5, kualitas 3.0/5. Detailnya sangat padat sampai memasukkan inskripsi entablature, tetapi nilainya turun karena STL final berbeda dari pratinjau PNG
- Claude Code 2.1 / Opus 4.7: waktu 2/5, kualitas 3.0/5. Strukturnya, portico, dan podium bertingkat lebih jelas daripada Cursor, tetapi warnanya terlalu seragam dan kurang meyakinkan dibanding hasil yang lebih kuat
- Claude Code 2.1 / Sonnet 4.6: waktu 1/5, kualitas 3.4/5. Menunjukkan kesan keseluruhan paling masuk akal dan proporsi paling seimbang di antara eksekusi otonom yang ada, tetapi butuh waktu implementasi paling lama
- Google Antigravity 2.0 / Gemini 3.5 Flash High: waktu 1/5, kualitas 4.5/5. Menggunakan dimensi dan inskripsi Pantheon asli, dan menjadi satu-satunya agen otonom yang mengimplementasikan pola langit-langit coffer di interior
- ModelRift / Gemini Flash 3.0: waktu 1/5, kualitas 3.8/5. Menjadi hasil non-otonom terbaik dengan workflow anotasi iteratif ModelRift, tetapi memakan waktu sekitar 2 kali lebih lama dibanding Claude Code

Pengamatan workflow

Workflow klien sama pentingnya dengan model itu sendiri
Codex Desktop menampilkan gambar yang dimuat LLM langsung di dalam percakapan, sehingga mudah memverifikasi apakah referensi benar-benar dipakai dalam pekerjaan CAD visual
Cursor Agent dan Claude Code CLI juga dapat menggunakan gambar, tetapi konteks visual selama prosesnya terlihat kurang eksplisit
Semua sistem yang diuji dapat menangani toolchain OpenSCAD lokal dan memanggil OpenSCAD dari PATH macOS untuk merender pratinjau PNG
Hambatannya bukan akses alat, melainkan penilaian geometri, pengaturan kamera, dan apakah model pratinjau bisa diekspor menjadi mesh final yang bersih
Codex memperlihatkan gambar referensi, pengeditan file OpenSCAD, dan pratinjau yang dihasilkan dalam thread yang sama, sehingga proses iterasinya mudah diikuti
Setelah benchmark dipublikasikan, Codex mencoba memperbaiki masalah ekspor atap dan entablature, tetapi perbandingan final tetap didasarkan pada model yang diajukan semula
Cursor menawarkan loop interaksi tercepat dan UI paralel yang berguna untuk perencanaan dan kode OpenSCAD, tetapi kualitas output tertinggal dari eksekusi yang lebih lambat
Claude Code berfokus pada terminal untuk membaca gambar dan mengulang perintah OpenSCAD, tetapi proses pembentukan modelnya kurang visual

Google Antigravity 2.0 / Gemini 3.5 Flash High

Explore 3D result
Eksekusi ini ditambahkan pada 22 Mei 2026, tepat setelah Google meluncurkan Antigravity 2.0 di I/O 2026 dan mengumumkan Gemini 3.5 Flash pada 19 Mei 2026
Hasilnya adalah model otonom penuh terbaik dalam benchmark ini, dan sinyal awal terhadap Flash 3.5 juga positif
Antigravity 2.0 lebih dekat ke aplikasi desktop yang mengutamakan agen dengan perencanaan, eksekusi tugas, dan pratinjau; pengguna yang menginginkan pengalaman IDE sebelumnya tidak punya jalur kembali yang mulus selain downgrade atau tetap memakai aplikasi lama, sehingga banyak kritik pada minggu peluncuran
Flash 3.5 High tidak hanya memperkirakan dari gambar referensi, tetapi juga mencari parameter Pantheon yang sebenarnya
Rencana dan kode menggunakan dimensi eksplisit untuk rotunda, kubah, portico, dan oculus, lalu mengubahnya menjadi nilai OpenSCAD parametrik
```
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
```

Untuk mencerminkan struktur interior Pantheon juga, model ini mengusulkan mode cutaway

To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.

Detail terkuatnya adalah bagian langit-langit

The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.

Antigravity adalah satu-satunya agen otonom yang mengimplementasikan pola langit-langit coffer berupa kotak-kotak berulang yang terlihat melalui oculus
Hasil eksteriornya juga mencakup elemen yang sering dihilangkan pada output OpenSCAD cepat
- material kolom campuran abu-abu dan kemerahan
- inskripsi yang bisa dibaca
- cincin atap bertingkat
- hubungan massa yang luas antara rotunda, blok tengah, portico, dan kubah
Skor kualitasnya 4.5/5 dan skor kecepatannya 1/5
Memang tidak cepat, tetapi berhasil menaikkan batas atas generasi otonom dalam benchmark ini dan menunjukkan Flash 3.5 tampak menjanjikan untuk generasi kode spasial saat dipadukan dengan alat perencanaan, rendering, inspeksi, dan revisi

ModelRift / Gemini Flash 3.0

Explore 3D result
Hasil ini dibuat lewat proses human-in-the-loop menggunakan ModelRift dan Gemini Flash 3.0, jadi bukan benchmark otonom single-pass seperti empat eksekusi pertama
Workflow ini memakan waktu sekitar 10 menit dan sekitar 2 kali lebih lama daripada Claude Code, sehingga mendapat skor kecepatan yang sama, 1/5
Benchmark ini dijalankan pada 21 Mei 2026, tepat setelah peluncuran Gemini 3.5 Flash
Hasil Antigravity menunjukkan bahwa 3.5 Flash kuat, tetapi dalam pemilihan model default ModelRift, kualitas juga harus ditimbang bersama biaya dan latensi
Harga Gemini API dari Google mencantumkan harga standar Gemini 3.5 Flash sebesar US$1.50 per 1 juta token input dan US$9.00 per 1 juta token output, sementara Gemini 3 Flash sebesar US$0.50 untuk input dan US$3.00 untuk output
Gemini 3.5 Flash berarti kenaikan biaya 3 kali lipat dibanding generasi Flash sebelumnya, dan jauh lebih mahal daripada patokan biaya pada era Gemini 1.5 Flash yang lebih lama
Kualitasnya 3.8/5, lebih baik daripada batch eksekusi otonom yang ada
Modelnya belum sempurna, tetapi portico, penempatan kolom, atap, rusuk kubah, dan massa keseluruhan lebih konsisten
Perbedaan kuncinya adalah kemampuan menempelkan umpan balik visual langsung di atas render saat ini
Workflow ModelRift dirancang untuk mengulang proses pembuatan model, inspeksi di browser, penulisan catatan visual di atas render, lalu meminta AI merevisi OpenSCAD
Untuk pekerjaan CAD spasial, loop ini jauh lebih presisi daripada memberi instruksi hanya lewat teks

Hasil utama eksekusi otonom

Codex 5.5 High
- Explore 3D result
- Codex 5.5 High menghasilkan model paling padat
- Elemen yang disertakan mencakup rotunda, rusuk kubah, oculus, pita batu bertingkat, portico depan, kolom, detail podium sekeliling, dan teks entablature
- Entablature memuat M AGRIPPA L F COS TERTIVM FECIT
- Dalam OpenSCAD, teks merupakan elemen yang menantang dari sudut pandang pemodelan karena perlu penempatan, ekstrusi, orientasi, dan ketebalan tipis yang tetap terjaga
- Selama iterasi, pratinjau render terlihat lebih baik daripada STL final yang diekspor
- Pada hasil final, muncul permukaan mirip langit-langit bermasalah di area entablature dan atap portico, sehingga kesan rakitan fasad depan berubah
- Codex menunjukkan penalaran spasial yang kuat dan upaya detail yang tinggi, tetapi juga memperlihatkan risiko ekspor bahwa akurasi pratinjau tidak sama dengan akurasi mesh final
- Jika yang dijadikan dasar adalah pratinjau PNG terbaik, bukan STL yang dipublikasikan, tingkat struktur dan detailnya cukup untuk ditempatkan tepat di bawah Antigravity 2.0
- Skor 3.0/5 lebih banyak dipengaruhi penalti atas ketidaksesuaian ekspor dan rendering final daripada niat desain modelnya
Claude Sonnet
- Explore 3D result
- Claude Sonnet menghasilkan model paling rapi di antara batch eksekusi otonom yang ada
- Memang tidak mencoba detail sehalus Codex, tetapi siluetnya lebih bersih dan komponen arsitektur utama menyatu lebih alami
- Kubah, drum, portico, dan penempatan kolom terbaca sebagai satu bangunan utuh, bukan sekadar kumpulan primitive yang berdampingan
- Proporsinya juga lebih terkendali, dan sebelum eksekusi Antigravity, inilah hasil otonom penuh terkuat
- Claude Code sekitar 2–3 kali lebih lambat daripada Codex dalam benchmark ini, dan Sonnet tetap mendapat skor waktu terendah meski kualitasnya baik
- Skor kualitasnya 3.4/5, tetapi masih berupa model perkiraan, bukan rekonstruksi arsitektur kualitas produksi
Cursor Composer
- Explore 3D result
- Kombinasi Cursor dan Composer 2.5 adalah eksekusi tercepat, tetapi hasilnya paling lemah
- Gestur besar seperti rotunda, kubah, portico, dan kolom sudah tepat
- Namun, ia melewatkan pengendalian material dan nuansa arsitektural yang membuat Pantheon mudah dikenali
- Output-nya lebih mendekati placeholder yang disederhanakan daripada model jadi, dan akan membutuhkan banyak pengerjaan ulang sebelum layak dipublikasikan
Claude Opus
- Explore 3D result
- Claude Opus berada di antara Cursor dan Sonnet
- Ia menghasilkan bangunan yang lebih selesai daripada Cursor, dan portico serta podium bertingkatnya lebih jelas
- Namun output-nya terlalu seragam dan kurang meyakinkan daripada Sonnet
- Strukturnya ada, tetapi kurang dalam penilaian hierarki visual
- Warna dan bobot hampir semua elemen sama, sehingga detail saling bersaing alih-alih membimbing perhatian
- Skor yang diperbarui menjadi 3.0/5, cukup untuk dinilai lebih tinggi daripada versi tabel awal, tetapi tetap di belakang Sonnet dan Antigravity

Pelajaran utama

OpenSCAD bertahan dengan baik sebagai bahasa target
- Sintaksnya kecil, output-nya deterministik, dan CLI-nya merender pratinjau yang bisa diperiksa dalam loop iteratif
- LLM tidak memerlukan pegangan khusus untuk menggunakan OpenSCAD
Penggunaan alat bukan hambatannya
- Semua agen dapat memanggil OpenSCAD dari PATH macOS dan merender pratinjau PNG
- Bagian sulitnya bukan pipeline, melainkan penilaian geometri
Kecepatan tidak memprediksi kualitas
- Cursor paling cepat tetapi menghasilkan hasil paling lemah
- Sonnet memakan waktu paling lama di antara eksekusi otonom yang ada, tetapi menghasilkan model paling bersih
- Antigravity juga lambat, tetapi Gemini 3.5 Flash High menghasilkan hasil otonom terbaik setelah diberi waktu untuk merencanakan dan beriterasi
- ModelRift/Gemini Flash 3.0 memakan waktu lebih lama, tetapi berkat umpan balik visual mampu mencapai kualitas lebih tinggi daripada batch otonom yang ada
Pratinjau dan ekspor tidaklah sama
- Codex terlihat kuat dalam loop render, tetapi mesh STL finalnya mengalami masalah geometri di sekitar atap portico
- Untuk model yang ditujukan untuk dicetak, bukan hanya pratinjau yang harus diperiksa, tetapi juga mesh hasil ekspor secara terpisah
Tidak ada output yang benar-benar lolos sebagai model arsitektur yang setia
- Inskripsi Codex adalah detail yang bagus
- Proporsi Sonnet konsisten
- Langit-langit coffer Antigravity adalah detail yang paling mengesankan
- Hasil ModelRift/Gemini Flash 3.0 menunjukkan bagaimana kualitas bisa meningkat ketika manusia melakukan penyesuaian visual
Hanya dengan dua gambar referensi dan prompt singkat, semua sistem berhasil mencapai OpenSCAD yang valid dan bisa dirender tanpa perlu menulis kode CAD secara manual
Perbedaan kualitas antaralat memang besar, tetapi garis start dasarnya sendiri lebih tinggi dari perkiraan
Generasi sepenuhnya otonom masih belum menjadi workflow yang tepat untuk pekerjaan seperti ini
- Di ModelRift, pekerjaan iteratif masih menggunakan Annotation Mode
- Caranya adalah menggambar panah dan catatan langsung di screenshot model 3D lalu mengirimkannya kembali ke AI
- Dalam geometri spasial, tahap human-in-the-loop tetap penting bahkan saat memakai model terbaik
- Model bisa benar dalam massa besar tetapi tetap salah pada posisi kolom atau proporsi kubah
- Menunjuk langsung masalah di atas render lebih cepat dan akurat daripada menjelaskannya lewat teks

2 komentar

xguru 2026-05-24

Salah satu proyek pribadi saya menggunakan Codex, dan karena di GPT 5.4 OpenSCAD cenderung agak kebingungan, saya menunggu sampai modelnya membaik, tetapi sepertinya saya harus mencobanya lagi.

GN⁺ 2026-05-23

Komentar Hacker News

Minggu lalu saya membeli sepeda istri saya di Marketplace, kondisinya bagus, tetapi ada satu sumbat karet untuk internal cable routing yang hilang
Saya memasukkan ke Claude foto lubang berbentuk kapsul itu saja, plus foto saat saya mengukur sisi panjang dan sisi pendeknya dengan digital caliper, lalu dengan prompt singkat Claude membuat model OpenSCAD dengan semua dimensi diparameterkan
Saya mencetaknya dengan TPU tanpa modifikasi, dan hasil percobaan pertama sudah hampir sempurna; ketika saya menurunkan pengurangan dimensi x/y yang dibuat Claude dari 0,3 mm menjadi 0,1 mm, hasilnya pas sekali. Bentuknya memang jauh lebih mudah daripada arsitektur Romawi kuno, tetapi tetap keren bahwa ini bisa dilakukan semudah itu
- CAD bagi saya pribadi adalah contoh teknologi dengan hambatan masuk tinggi sehingga saya tidak pernah menekuninya, dan sekarang rasanya saya setidaknya bisa menyelesaikan pekerjaan sederhana walau tidak terlalu mahir
  Saya punya pengalaman serupa membuat komponen fungsional sederhana untuk printer 3D dengan OpenSCAD dan LLM, dan saya juga tahu model-model ini belum sebagus saat menghasilkan kode React, serta saya jelas kebalikan dari operator yang terampil. Tetap saja, keren karena ini membuat saya mulai belajar keterampilan baru di level hobi
- Claude bekerja baik jika Anda memberi semua dimensi, tetapi kurang mampu menebak
  Keajaiban yang sesungguhnya adalah saat Anda hanya memberi satu dimensi atau satu foto dengan penggaris lalu AI bisa menyimpulkan sisanya, tetapi setidaknya saat ini Claude masih cukup lemah dalam menebak
- Baru-baru ini saya mencoba meminta model-model membuat fortune cookie 3D; Claude mencobanya dengan three.js, Gemini dengan OpenSCAD, tetapi keduanya tidak benar-benar menangkap konsepnya dan bahkan tidak mendekati. Ternyata bentuknya lebih rumit dari yang saya kira
- Cetakan fungsional kecil seperti inilah area tempat OpenSCAD dan generasi LLM benar-benar bersinar
- Apakah ia mengoptimalkannya agar tidak memerlukan support?
Sangat mengesankan bahwa “Antigravity adalah satu-satunya agen otonom yang berhasil merepresentasikan pola langit-langit interior khas Pantheon, yaitu langit-langit coffer persegi berulang yang terlihat melalui oculus”
Bahkan setelah melihat model 3D-nya, saya bahkan tidak terpikir untuk melihat bagian dalam sampai membaca kalimat itu
Model 3D dengan show_cutaway aktif ada di sini: https://modelrift.com/models/pantheon-benchmark-antigravity-...
- Saya tidak yakin apakah menggunakan informasi eksternal yang tidak dinyatakan jelas di prompt untuk membuat model itu adalah hal yang baik atau buruk
  Jika yang diminta adalah “Pantheon”, tentu itu tindakan yang tepat, tetapi jika saya seorang drafter atau engineer, saya rasa akan sulit menerima hasil kerja seperti itu
- Saya kebetulan melihat interiornya, dan justru di sana kecerdasan dan upaya terasa lebih jelas daripada bagian luarnya
Entah benchmark apa yang membuat Antigravity jadi nomor satu, tetapi Antigravity saya yang secara paksa menggantikan Gemini CLI meminta login browser setiap kali dipakai, dan Antigravity IDE bahkan tidak bisa diperbarui sama sekali
Kalau memungkinkan, saya ingin mereka memenuhi dulu kualitas rilis dasar yang layak diterima sebelum khawatir soal menjadi nomor satu dalam sesuatu
Judul aslinya adalah “OpenSCAD LLM Benchmark: Building the Pantheon”
- Setuju. Kekhawatiran terbesar saya terhadap produk AI Google adalah penderitaan pengalaman pengguna yang tak ada habisnya seputar login, pembayaran, upgrade, dan penghentian produk
  Meski begitu, model LLM-nya sendiri bagus dan Antigravity 2.0 juga tidak terlalu buruk. Namun ceritanya berbeda jika seperti banyak orang lain Anda kehilangan pengaturan dan proyek Antigravity 1.0 Anda
- Setelah menonton Google I/O, saya justru makin kurang yakin pada kemampuan eksekusi Google
  Gemini 3.5 Flash itu aneh. Cutoff-nya sudah lama, dalam beberapa hal lebih baik daripada 3.1 Pro tetapi dalam hal lain lebih buruk, dan kadang lebih murah tetapi kadang juga lebih mahal daripada 3.1 Pro
  Antigravity tampak seperti ditelantarkan dan orang-orang berspekulasi bahwa ia akan dihentikan, dan kenyataannya memang kurang lebih begitu karena semua orang dipindahkan ke Antigravity baru
  Rasanya Google mengekspor bagan organisasinya langsung menjadi produk, dan produk AI mereka terlalu banyak tetapi tak satu pun tampak terbaik di kelasnya. Misalnya, integrasi Gemini di Google Docs lebih buruk daripada Claude
  Yang saya harapkan adalah model dengan “kecerdasan setingkat Opus dengan biaya Haiku” atau “performa setingkat Sonnet dengan harga Gemini 3.0”. Kalau salah satu saja muncul, itu bisa jadi model utama sekaligus pesaing Claude/Codex, tetapi kami tidak mendapatkan keduanya
- Saya memakai Claude Code dan IntelliJ, jadi saya tidak terlalu paham mengapa begitu banyak orang mengeluh bahwa Antigravity meninggalkan VS Code
  Saya penasaran aspek apa yang tidak tercakup oleh kombinasi Antigravity CLI + VS Code atau kombinasi IDE lain
- Saya juga tidak suka upgrade paksa dari Gemini CLI, yang sebenarnya saya sukai dan dalam beberapa hal saya anggap lebih baik daripada Claude Code
  Lalu email yang mereka kirim hari Rabu bernada seperti, “terima kasih sudah berlangganan Google One AI Pro, mulai sekarang kami menambahkan pembatasan pada akun Anda. Mau bagaimana lagi,” dan itu benar-benar menjengkelkan. Sebelumnya saya justru memuji langganan AI Pro karena value for money-nya bagus
- Alur kerja yang rusak adalah alasan utama saya tidak mengadopsi Antigravity meskipun saya menyukainya
  Saya senang Google berinvestasi di sini, tetapi makin tua saya, makin saya menjaga alur kerja saya
Saya sudah banyak menjalankan benchmark untuk OpenSCAD dengan berbagai model dan pengaturan, dan inilah yang saya pelajari
Model-model itu inkonsisten, sehingga bisa sangat bagus untuk satu jenis model 3D tetapi tidak untuk jenis lainnya
Dalam pengalaman saya, model Gemini adalah yang paling tidak inkonsisten dan paling baik dalam memahami gambar
Model Gemini juga yang paling kreatif, tetapi jika Anda menginginkan komponen CAD yang presisi, itu justru mungkin tidak diinginkan
Secara keseluruhan, benchmark ini tidak membuktikan banyak hal. Satu model 3D dan satu percobaan saja tidak cukup. Biasanya saya menguji setidaknya 12 model, masing-masing dibuat 3 kali, tetapi sebenarnya seharusnya jauh lebih banyak. Hanya saja biayanya terlalu besar bagi pengembang independen
Tetap saja, terima kasih sudah memublikasikannya, dan saya berencana segera menjalankan Flash 3.5 untuk melihat performanya
- Saya menganggap OpenSCAD tidak berguna karena tidak bisa menangani kurva. Saya tidak tahu kenapa ia terus mendapat perhatian seperti ini
Menilai LLM berdasarkan kemampuannya menghasilkan model CAD 3D yang valid adalah benchmark yang menarik
OpenSCAD sangat cocok untuk penilaian seperti ini karena sepenuhnya bergantung pada kode
Saat dicoba langsung, pengalamannya cukup buruk. Pada percobaan pertama, kadang muncul draf awal yang lumayan, tetapi begitu Anda mulai “debug”, sesi itu menjadi sangat membuat frustrasi dan akhirnya Anda sadar model itu tidak bisa benar-benar “melihat” hasilnya dengan baik
Artinya, sama sekali tidak bisa melakukan perbaikan iteratif
Kebanyakan alat eksekusi atau harness tampaknya mengecilkan ukuran gambar sebelum memprosesnya, dan dalam proses itu detail hilang sampai-sampai, terutama untuk gambar wireframe, sulit untuk melakukan penalaran
Mungkin saya yang memakainya salah, tetapi tes ini tidak benar-benar memverifikasi bagian itu. Ini hanya percobaan sekali jalan, dan pendekatan seperti itu cepat runtuh. Terutama jika Anda tidak punya foto referensi untuk apa yang ingin dibuat
Membuat satu objek dunia nyata lalu menyebutnya benchmark bukanlah cara yang kokoh untuk mengevaluasi alat
Seharusnya seperti Iron Chef: beri tema arsitektur Yunani, lalu panel juri yang menentukan pemenangnya. Saat ini, yang terjadi hanyalah melihat alat mana yang secara subjektif membuat Pantheon yang paling meyakinkan
- Ini lebih mirip “saya suka yang ini!” daripada benchmark
  Penilaiannya dilakukan pada satu contoh tunggal yang tidak didefinisikan dengan baik, tanpa use case akhir, dan dengan kriteria penilaian yang sepenuhnya subjektif
Masih terlalu dini untuk short Autodesk
Sebagai referensi, Autodesk merilis asisten agentic untuk Fusion pada bulan Desember, dan setelah 6 bulan sekarang pun masih cukup buruk
- Buruknya hampir terasa lucu
  Dalam beberapa minggu terakhir saya perlu merancang beberapa komponen sederhana untuk 3D printing, jadi saya mencobanya, dan meskipun tiap komponen hanya butuh sekitar 4 langkah di timeline, bahkan saat saya menuliskannya secara detail langkah demi langkah sesuai istilah Fusion, ia tetap tidak bisa membuat sesuatu yang mendekati apa yang saya inginkan
  Sekarang saya bahkan tidak yakin ia bisa membuat bentuk dasar sederhana dengan benar
- Apakah Anda sudah mencoba Fusion MCP yang dirilis bulan lalu? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
- Jalannya memang masih panjang, tetapi saya rasa pada akhirnya akan sampai juga
Saya agak tidak bisa menerimanya. Pantheon adalah salah satu bangunan bersejarah paling ikonis, jadi ada banyak buku tentangnya, dan pasti juga banyak foto serta model publik yang sudah digunakan untuk pelatihan
Benchmark yang memodelkan struktur anonim hanya berdasarkan referensi yang diberikan akan jauh lebih menarik. Ini terasa seperti sulap dangkal saat melihat LLM membuat aplikasi to-do dalam sekali jadi
Saya sedang membuat perangkat teknologi untuk pengasuhan anak, dan casing luarnya sepenuhnya dihasilkan AI
Saya sama sekali tidak tahu harus mulai dari mana untuk 3D modeling, dan LLM memberi tahu saya bahwa ini juga, seperti hal lain, pada dasarnya adalah kode
Anehya, Opus 4.5 membuatnya sempurna dalam sekali jalan, dan itu terjadi tepat sebelum kontroversi penurunan performa; sejak saat itu, bahkan sedikit memodifikasi casing itu pun menjadi sangat sulit
Rasanya Opus berubah dari model yang secara profesional bisa memutar bentuk di kepalanya, menjadi model yang bahkan tidak tahu apa yang sedang ditanganinya
- Casing saya juga mirip: https://quill.lorehex.co/feather
  Hanya saja 4.7 lumayan untuk pekerjaan modifikasi