5 poin oleh GN⁺ 2025-11-26 | 1 komentar | Bagikan ke WhatsApp
  • Gemini 3 milik Google telah berkembang melampaui chatbot percakapan sederhana menjadi AI pendamping digital yang dapat melakukan tugas nyata seperti menulis kode, menjelajah web, dan memanipulasi file
  • Antigravity yang diumumkan bersamaan adalah alat berbasis agen yang mengakses komputer pengguna untuk menulis program secara otonom, serta meminta persetujuan atau bantuan melalui sistem Inbox
  • Gemini 3 dapat, mengikuti instruksi pengguna, membangun situs web, menganalisis data, hingga menulis makalah, dan menunjukkan kemampuan riset setingkat PhD
  • Kesalahan masih ada, tetapi sudah lebih pada tingkat perbedaan penilaian dan pemahaman, sehingga lebih mendekati bentuk ‘rekan tim AI’ yang berkolaborasi dengan manusia
  • Tulisan ini menekankan bahwa kita sedang “beralih dari era chatbot ke era pendamping digital”, dan manusia kini berubah dari pihak yang memperbaiki kesalahan AI menjadi manajer yang mengarahkan pekerjaan AI

Kemunculan Gemini 3 dan perubahan selama 3 tahun

  • Google Gemini 3 yang muncul sekitar 3 tahun setelah peluncuran ChatGPT menjadi contoh yang menunjukkan cepatnya laju perkembangan AI
    • Pada era GPT-3.5 di tahun 2022, AI masih sebatas menghasilkan paragraf atau puisi sederhana
    • Pada 2025, Gemini 3 telah berkembang hingga mampu mengoding dan mendesain game interaktif secara langsung
  • Gemini 3 menghasilkan game yang benar-benar bisa dimainkan bernama “Candy-Powered FTL Starship Simulator” sesuai permintaan pengguna
    • Ini menunjukkan evolusi dari tahap ketika AI dulu hanya menjelaskan teks, menuju tahap mengimplementasikan kode dan antarmuka secara langsung

Antigravity dan AI berbasis agen

  • Google memperkenalkan alat untuk pengembang bernama Antigravity bersama Gemini 3
    • Mirip dengan Claude Code atau OpenAI Codex, ini adalah sistem yang mengakses komputer pengguna dan menulis kode secara otonom
  • Antigravity memperkenalkan konsep Inbox, di mana AI mengirim notifikasi kepada pengguna saat membutuhkan persetujuan atau bantuan selama bekerja
  • Pengguna memberikan instruksi dalam bahasa Inggris, dan AI mengeksekusinya menjadi kode
    • Sebagai contoh, AI menganalisis file tulisan newsletter penulis dan otomatis membuat situs web yang merangkum prediksi terkait AI
    • AI melakukan pencarian web, menjalankan kode, menguji di browser, lalu mengemas hasilnya dalam bentuk yang bisa di-deploy ke Netlify

Gemini 3 sebagai AI kolaboratif

  • Gemini 3 membagikan progres kerja secara transparan melalui permintaan persetujuan pengguna selama proses berlangsung
    • Pengguna meninjau dan memperbaiki usulan AI sambil berkolaborasi
    • Proses seperti ini terasa lebih dekat dengan pengalaman “mengelola AI”
  • AI memang belum sempurna, tetapi kesalahannya kini lebih pada perbedaan penilaian atau salah tafsir terhadap maksud, dan hampir tidak lagi menunjukkan masalah halusinasi (hallucination) seperti sebelumnya
  • Kolaborasi dengan Gemini 3 terasa mirip dengan “mengelola anggota tim”, dan menekankan interaksi yang melampaui sekadar memasukkan prompt

Kemampuan riset dan penilaian ‘setingkat PhD’

  • Gemini 3 menjalankan tugas analisis dataset riset dan penulisan makalah
    • AI memulihkan dan merapikan file data crowdfunding lama, lalu melakukan analisis baru
    • AI menulis makalah 14 halaman bertema “strategi startup dan bisnis”
  • AI menyusun hipotesis sendiri, melakukan analisis statistik, dan membuat metriknya sendiri (mengukur orisinalitas ide)
  • Hasilnya menunjukkan kualitas setara mahasiswa pascasarjana, meski beberapa teknik statistik dan pengembangan teori masih kurang matang
    • Dengan instruksi tambahan, kualitasnya meningkat secara signifikan
    • Penulis menilai bahwa “kecerdasan setingkat PhD sudah tidak jauh lagi

Peralihan menuju pendamping digital

  • Gemini 3 adalah AI mitra yang berpikir dan bertindak, dan dapat diakses oleh miliaran orang di seluruh dunia
  • Tidak ada tanda-tanda perlambatan perkembangan AI, sementara kebangkitan model berbasis agen dan pentingnya kemampuan mengelola AI semakin menonjol
  • Penulis menyebutnya sebagai “era chatbot yang sedang beralih ke era pendamping digital”
    • Manusia kini tidak lagi sekadar memperbaiki kesalahan AI, melainkan berubah menjadi manajer yang mengarahkan pekerjaan AI
  • Di bagian akhir, Gemini 3 juga mendemonstrasikan kemampuan kreatif melampaui teks, seperti membuat gambar sampul untuk blog hanya dengan kode
  • Namun, memberi AI hak akses ke komputer tetap membawa risiko keamanan, sehingga perlu kehati-hatian

1 komentar

 
GN⁺ 2025-11-26
Komentar Hacker News
  • Setiap kali melihat artikel seperti ini, selalu ada satu bagian yang terasa hilang — yaitu pertanyaan "apakah ini bagus, apakah ini akurat"

    • Yang ditunjukkan biasanya hanya bagian yang mengesankan, tetapi sering kali validasi kualitasnya belum dilakukan
    • Pada kode yang saya pahami, saya bisa melihat masalah keamanan atau bug, tetapi ketika melihat makalah 14 halaman di bidang yang saya tidak kuasai, saya jadi bertanya-tanya, "apa saya harus percaya begitu saja kalau ini bagus?"
    • Pada akhirnya, yang saya tahu justru berada di level tidak layak rilis, sedangkan yang tidak saya tahu malah tampak hebat, jadi rasanya seperti ilusi
    • Kontradiksi seperti ini sulit saya terima
    • Ada cara seperti mempercayai evaluasi pakar, atau memberinya tugas kompleks yang bisa diverifikasi langsung
      • Misalnya dulu kalau disuruh membuat kode Sobel filter seperti edgeDetect(image), hasilnya berbeda-beda tergantung modelnya berhasil atau tidak
      • Belakangan saya mencoba menyuruhnya membuat WebGL glow shader, dan ia benar-benar membuat demo yang berfungsi serta kompatibel dengan modul yang saya buat
      • Hal seperti ini bisa langsung diverifikasi lewat performa dan akurasi visual
      • Hanya saja, meskipun model mengatakan "bisa", itu tidak berarti selalu berhasil setiap kali; lebih tepat dipahami sebagai pernah berhasil setidaknya sekali
    • Model generasi terbaru (Codex 5.1, Sonnet 4.5, Opus 4.5) makin mendekati level siap dikirim
      • Ukuran saya adalah "wtfs per line", dan angkanya turun dengan cepat
      • Saya sudah menerapkan beberapa proyek dengan Codex 5.1 tanpa masalah (misalnya: pine.town)
    • Di bagian akhir artikel, sebenarnya ada pembahasan tentang kelebihan dan kelemahan makalah tersebut
    • Karena model cenderung ingin memuaskan pengguna, terkadang ia memberi jawaban yang salah dengan kepercayaan diri palsu
      • Kalau pengguna tidak memverifikasi, mereka bisa tertipu
  • Menarik bahwa sampai sekarang cara kita berinteraksi dengan AI sebagian besar masih berpusat pada kotak teks

    • Munculnya alat seperti Claude Code atau OpenAI Codex adalah perubahan besar
    • Rasanya akan tercipta nilai yang sangat besar tergantung siapa yang benar-benar berhasil membangun antarmuka AI masa depan
    • Teks tetap efisien karena kepadatan informasinya tinggi
      • Bisa dipindai dengan scroll dalam hitungan detik, dan keyboard masih merupakan alat input paling produktif
    • Alasan Unix CLI tetap berbasis teks selama lebih dari 50 tahun juga berada dalam konteks yang sama
      • Bahkan jika ada upaya data terstruktur seperti PowerShell, pada akhirnya generalitasnya berkurang
      • Pendekatan yang lebih kuat adalah membuat AI memahami antarmuka yang sudah digunakan manusia
    • Obsesi mencari UI AI yang benar-benar baru terasa agak berlebihan
      • Pada dasarnya, hal yang paling mudah ditangani manusia tetap teks, tabel, grafik
    • Dunia pada dasarnya multimodal
      • Saya rasa tahap berikutnya adalah antarmuka terpadu yang dapat menangani teks dan berbagai tipe data secara terintegrasi
      • Terutama saat robotika berkembang, elemen 3D tampaknya akan menjadi lebih penting
    • Antarmuka suara ChatGPT terasa sangat alami sampai-sampai justru lebih cocok untuk brainstorming
  • Masalah halusinasi (hallucination) masih tetap ada

    • Kesalahan yang halus dan terasa manusiawi memang bertambah, tetapi pada saat yang sama kesalahan fatal juga masih bercampur di dalamnya
    • Saya pernah menyuruh Claude menulis cerita pendek 20 halaman, dan ia bahkan gagal menjaga urutan waktu dasar maupun konsistensi karakter
    • Model terbaru cenderung bukan sekadar membuat kesalahan sederhana, melainkan membuat klaim yang salah dengan penuh percaya diri, bahkan sampai mengarang referensi yang tidak ada
  • Soal pertanyaan "apakah ini kecerdasan setingkat PhD?", sebagai mahasiswa pascasarjana saya punya kesan yang mirip

    • Saat berbicara dengan model terbaru, rasanya seperti berbincang dengan peneliti spesialis di bidang tertentu
    • Tetap saja saya merasa kecerdasan alami dan motivasi manusia masih penting
    • Dalam coding, rasanya seperti bekerja dengan dua orang developer — satu adalah mid-level yang kompeten, satunya lagi benar-benar nyeleneh
      • Masalahnya, keduanya terlihat persis sama sehingga tidak bisa dibedakan
    • Saya sering bereksperimen dengan membuat dua model SOTA saling berbicara
      • Baru-baru ini saya memasangkan Gemini-3 dan ChatGPT-5.1, dan mereka membahas masalah atrofi saraf (neural atrophy) yang bisa terjadi ketika manusia berhenti berpikir
      • Kesan yang paling kuat adalah saat AI memikirkan apakah ia perlu sengaja "membuat manusia tetap berpikir"
    • Sayang sekali di HN, pendapat seperti ini kadang di-downvote tanpa alasan
  • Kemajuan Google terjadi bukan hanya pada software tetapi juga hardware

    • Mereka menjalankan pelatihan dan inferensi dengan hardware buatan sendiri
    • Dulu kekuatan Google adalah pemanfaatan hardware umum, tetapi sekarang telah berevolusi ke arah yang benar-benar berbeda
  • Gemini 3 memang mengesankan, tetapi tetap terasa masih berada dalam batasan literatur yang sudah ada

    • Jika diminta ide baru untuk soal matematika, model hanya mengulang hasil yang sudah ada
    • Terrence Tao juga memakainya untuk pemecahan masalah matematika, tetapi tampaknya lebih sebagai alat bantu ide daripada sumber hasil yang benar-benar baru
    • Saya juga bereksperimen dengan Thinking with 3 Pro, tetapi model itu hanya bisa mendekati ide saya setelah diberi petunjuk sangat rinci seperti spoon-feeding
    • Pada akhirnya, kekaguman itu mungkin lebih disebabkan oleh batas ekspektasi pengguna daripada kemampuan modelnya sendiri
    • Model seperti ini pada dasarnya lebih dekat ke peran pustakawan pengetahuan (librarian), bukan sumber ide baru
    • Eksplorasi kreatif yang sesungguhnya membutuhkan proses menjelajahi ruang yang secara probabilistik lebih jarang dieksplorasi, lalu menetapkan dan mengevaluasi tujuannya sendiri
      • Arsitektur Transformer saat ini dirancang untuk memilih token yang paling mungkin, sehingga pada dasarnya mengejar konsistensi daripada kebaruan
      • Karena itu, bahkan jika temperature dinaikkan, hasilnya lebih sering berupa penurunan konsistensi teks daripada kreativitas
      • Untuk mengatasi masalah ini dibutuhkan pembangkitan tujuan adaptif dan evaluasi berbasis simulasi, tetapi biaya komputasinya sangat besar
      • Jadi menurut saya, dengan arsitektur LLM saat ini akan sulit mencapai kecerdasan sejati
    • Menambahkan instruksi kustom seperti "gunakan pencarian web real-time" membantu untuk mencari informasi terbaru
  • Waktu rilis GPT-3 adalah Juni 2020, dan ChatGPT menggunakan versi 3.5

    • Ini kesalahan kecil, tetapi saya tetap ingin meluruskannya dengan tepat
  • Saya sudah lama mendengar bahwa Human in the loop sedang berevolusi dari manusia yang memperbaiki kesalahan AI menjadi manusia yang mengarahkan AI

    • Saya penasaran kapan tepatnya ini akan menjadi kenyataan yang jelas
    • Mungkin tidak akan ada titik waktu yang benar-benar tegas
      • Sama seperti manajer tidak bisa menjadi "orang yang hanya memberi instruksi", akan selalu ada porsi revisi
    • Jika langsung menghubungkan alat CLI dan agen, rasanya kita sebenarnya sudah melewati titik balik itu
    • Secara pribadi saya merasa saya sudah berada di tahap mengarahkan AI
  • Ada pertanyaan apakah aman menjalankan alat seperti Claude Code atau Antigrav langsung di sistem lokal

    • Produk berbasis VS Code aman karena punya pembatasan akses workspace, sedangkan terminal seperti Warp dikendalikan dengan daftar izin/blokir perintah
    • Beberapa memang bisa menonaktifkan pembatasan dengan flag, tetapi itu hanya mungkin jika dilakukan dengan sengaja
    • Saya selalu menjalankan pekerjaan seperti ini hanya di dalam container pengembangan Podman
    • Alat yang dibuat untuk mengatasi masalah seperti ini adalah Leash — proyek open source untuk kontrol keamanan
    • Ada juga orang yang hanya berkata "Yolo" lalu menjalankannya dengan menerima risikonya
    • Kenyataannya, kebanyakan pengguna memang menjalankannya langsung secara lokal