13 poin oleh spilist2 2025-05-26 | 2 komentar | Bagikan ke WhatsApp

Sekalian untuk mengetes layanan-layanan yang baru saya kenal, saya mencoba vibe coding dengan 4 agen berbeda yang masing-masing punya kekuatan tersendiri. (Sebelumnya saya pernah membandingkan layanan AI prototyping (v0, Lovable, Replit, Bolt, Tempo, Mocha) lewat deep research + mencoba masing-masing secara langsung, dan kali ini saya membandingkannya dengan implementasi dari prompt yang sama)

  1. Lovable: salah satu pemimpin di kategori layanan AI prototyping. Bisa mewujudkan UI yang halus dengan cepat. Bisa langsung dideploy ke publik
  2. Gemini App Build: digunakan di Google AI Studio. Bisa membuat aplikasi yang memanggil Gemini API secara gratis. Tidak ada batas jumlah chat
  3. Rork: layanan vibe coding pertama yang menyertakan simulator aplikasi mobile bawaan. Bisa dites sebagai aplikasi langsung di ponsel
  4. Flowith Neo: super agent yang berjalan 24 jam. Bisa melakukan berbagai pekerjaan termasuk coding dengan multi-agent

Untuk semuanya, saya memasukkan handout workshop pelatihan keterampilan meminta bantuan yang kami kembangkan sendiri bersama beberapa kenalan, lalu meminta mereka untuk “membuat aplikasi simulasi agar bisa dipakai latihan sendiri”

Masing-masing layanan saya nilai secara sangat subjektif berdasarkan 7 kriteria berikut (total 70 poin)

  • Proses implementasi
    • Efisiensi: seberapa sedikit intervensi saya sampai aplikasi yang berfungsi jadi
    • Kemudahan: apakah pengujian dan debugging mudah
    • Kecepatan: apakah implementasinya cepat
    • Biaya: apakah biaya implementasinya rendah
  • Hasil implementasi
    • Fungsionalitas: apakah fiturnya memenuhi harapan dan cukup kaya
    • Kegunaan: apakah UI/UX aplikasi yang dibuat intuitif dan bagus
    • Efektivitas: apakah benar-benar membantu untuk pelatihan keterampilan meminta bantuan

Ringkasan hasil evaluasi

(gambar ringkasan dalam bentuk tabel, serta tampilan detail cara kerja tiap layanan ada di blog)

Secara keseluruhan:

  • Proses implementasi: Lovable > Gemini >> Rork >>>> Flowith
  • Hasil implementasi: Lovable ~= Flowith > Gemini = Rork

Selesai dalam berapa turn:

  • Lovable dan Gemini sama-sama selesai di turn pertama (Gemini selesai setelah sekali bug fix sendiri)
  • Rork selesai di turn ketiga setelah 2 kali bug fix (dengan menempelkan pesan error)
  • Flowith tidak berhasil diselesaikan meski saya berkali-kali turun tangan langsung dan dia juga berusaha memperbaikinya sendiri. Namun, preview terus muncul di tengah proses, jadi hasil sementara tetap bisa dilihat

Kesan

  • Mungkin ada sedikit bias pribadi, tetapi secara keseluruhan Lovable unggul telak. Meski begitu, masing-masing tetap punya kelebihan yang jelas
    • Gemini: pengalaman bisa langsung mengetes pemanggilan LLM terasa istimewa
    • Rork: karena aplikasi mobile bisa langsung dites di ponsel, terasa ada cita rasa khas aplikasi mobile
    • Flowith: benar-benar melakukan riset tambahan. Andai saja bisa menyelesaikannya...
  • Flowith yang saya harapkan cukup tinggi memang mengesankan di hasil tengahannya, tetapi menurut saya masih sangat kurang untuk dipakai sebagai alat utama vibe coding. Yang paling utama, dia tidak berbasis pesan chat seperti yang lain melainkan berbasis kredit, jadi biayanya terlalu besar
  • Sebagai catatan, penilaian proses implementasi ini bukan hanya untuk percobaan kali ini, tetapi berdasarkan keseluruhan pengalaman saya. Rork ini pertama kali saya coba, Lovable sudah berkali-kali, sedangkan Gemini dan Flowith masing-masing sudah saya pakai untuk membuat 3 aplikasi

Evaluasi detail

🥇 Peringkat 1 Lovable - 63 poin (selesai di turn pertama)

Proses implementasi

  • Efisiensi: 9
  • Kemudahan: 9
  • Kecepatan: 10
  • Biaya: 7

Benar-benar bagus di semua aspek. Implementasi turn pertama paling cepat dan paling rapi. Bug fix otomatis berbasis pesan error sangat nyaman. Visual edit gratis dan bug fix gratis juga bagus. Untuk modifikasi kode, versi berbayar bisa langsung di tempat, versi gratis bisa lewat integrasi GitHub. Deploy publik instan juga sangat bagus.

Hasil implementasi

  • Fungsionalitas: 9
  • Kegunaan: 10
  • Efektivitas: 9

UI-nya memang cantik dan nyaris tanpa cela. Fiturnya tidak terlalu kaya, tetapi mampu menafsirkan handout secara kreatif sehingga hasilnya intuitif, dan semua fitur yang perlu ada sudah tersedia.

Kekurangannya adalah harus selalu mengikuti 3 tahap permintaan bantuan. Simulasinya juga sederhana dan berbasis aturan, tetapi tetap tepat. Rasanya tinggal menambahkan hal-hal terbaik dari layanan lain, termasuk LLM, ke sini.

🥈 Peringkat 2 Gemini App Build - 56 poin (selesai di turn pertama setelah bug fix sendiri)

Proses implementasi

  • Efisiensi: 7
  • Kemudahan: 8
  • Kecepatan: 8
  • Biaya: 10

Keunggulan khasnya adalah chat gratis dan bisa memanggil Gemini secara gratis. Di turn pertama hasilnya sudah cukup bagus, dan bug yang muncul langsung setelah dibuat juga diperbaiki sendiri.

Di percakapan multi-turn kemampuannya kurang bagus. Bug fix otomatis berbasis pesan error juga ada, tetapi justru tidak bisa menuntaskan bug itu sampai akhir, sehingga akhirnya saya harus turun tangan secara manual. Tidak ada visual edit, tetapi paling nyaman untuk modifikasi kode. Kekurangannya, untuk deploy perlu Cloud Run.

Hasil implementasi

  • Fungsionalitas: 8
  • Kegunaan: 6
  • Efektivitas: 9

UI-nya jelas terasa kaku. Mengingatkan pada tool-tool Google, dan isi handout ditampilkan hampir apa adanya tanpa tafsir kreatif. Ada sisi kurang nyaman karena harus selalu menjalankan ketiga tahap.

Namun, pengalaman saat chat dalam simulasi lalu AI menjawab tetap sangat unik dan efektif, jadi nilainya lebih tinggi. Hanya dia yang bisa memberi pengalaman seperti ini.

🥉 Peringkat 3 Rork - 46 poin (selesai di turn ketiga)

Proses implementasi

  • Efisiensi: 7
  • Kemudahan: 5
  • Kecepatan: 7
  • Biaya: 4

Keunggulan utamanya adalah bisa menjadi aplikasi mobile. Baik Android maupun iPhone bisa dipasang ke ponsel lewat aplikasi Expo Go dan berjalan dengan baik. Bisa memilih model implementasi, termasuk Claude Sonnet 4. Ada bug fix otomatis dan benar-benar cukup bagus dalam memperbaiki bug.

Tidak bisa mengubah kode, tidak ada visual edit, dan yang paling bermasalah, bug fix itu berbayar. Secara manusiawi, kalau aplikasinya sendiri membuat bug di turn pertama, bukankah setidaknya perbaikannya seharusnya gratis?

Hasil implementasi

  • Fungsionalitas: 8
  • Kegunaan: 7
  • Efektivitas: 8

Dia sendiri satu-satunya yang membuatnya dalam bahasa Inggris. UI-nya kaku dan tidak cantik. Isi handout juga banyak keluar apa adanya. Meski begitu, semua hal penting tetap ada, dan karena 3 fiturnya bisa dijalankan secara terpisah, itu terasa nyaman.

Simulasinya memakai pilihan ganda lalu memberi penilaian, jadi terasa bagus untuk pemula yang ingin berlatih. Hanya saja teksnya memang terlalu panjang.

Peringkat 4 Flowith Neo - 35 poin (belum selesai setelah n turn)

Proses implementasi

  • Efisiensi: 1
  • Kemudahan: 3
  • Kecepatan: 3
  • Biaya: 1

Tambahan perencanaan lewat web search cukup bagus. Namun meski bekerja sangat banyak, selama membuat 3 aplikasi dia tidak pernah sekali pun berhasil menyelesaikannya. Setelah menjalankan sendiri, dia kembali membuat perencanaan lalu mencoba bug fix, tetapi tetap tidak berhasil. Karena penagihannya bukan per pesan, melainkan berbasis kredit, dia terus mencoba-gagal sendiri dan menghabiskan kredit dalam jumlah besar, yang membuat saya tidak puas.

Di setiap tahap tengah proses, versi hasilnya dideploy ke URL publik. Tetapi kadang versi lama justru lebih baik. Jika implementasi gagal di tengah jalan, perlu dijalankan ulang secara manual. Kode hanya bisa dilihat jika diunduh, dan tentu modifikasinya juga hanya bisa lewat prompt. Visual edit tidak tersedia.

Hasil implementasi

  • Fungsionalitas: 9
  • Kegunaan: 10
  • Efektivitas: 7

Perencanaan awal dan preview di tengah proses sangat mengesankan. Pada akhirnya memang tidak selesai, dan tiap versi juga berbeda-beda, tetapi ada banyak elemen yang terasa layak diadopsi oleh aplikasi lain. Misalnya evaluasi awal yang lebih ketat, atau latihan dengan berbagai skenario dan tingkat kesulitan. UI-nya juga cantik selain beberapa bagian yang aneh, dan terasa paling teliti.

2 komentar

 
princox 2025-05-28

Saya sedang menggunakan bolt.new, jadi saya ingin membandingkan bagaimana yang ini.

 
spilist2 2025-05-29

Saya juga sepertinya akan banyak memakai Bolt pada bulan Juni karena hackathon Bolt (total hadiah $1 juta) https://www.stdy.blog/registered-at-vibe-coding-hackathon/. Setelah itu baru bisa dibandingkan, haha