6 poin oleh GN⁺ 2025-08-17 | 1 komentar | Bagikan ke WhatsApp
  • OpenAI merilis 14 prompt umum beserta responsnya untuk menunjukkan perkembangan model dari 2018 hingga 2025
  • Tiap generasi model (GPT-1 → GPT-5) memberikan jawaban yang makin alami dan makin canggih untuk pertanyaan yang sama
  • Model awal sering menghasilkan kalimat tanpa makna dan output yang terpencar, tetapi mulai generasi menengah muncul struktur logis dan konsistensi
  • GPT-4 sudah mencerminkan penjelasan topik yang konkret serta konteks etika dan sosial, sementara GPT-5 menampilkan refleksi filosofis dan nada percakapan
  • Dari sini terlihat bagaimana AI telah matang dalam berbagai aspek seperti kreativitas, penyampaian pengetahuan, dan saran praktis

Prompt 1/14

Teks asli: What would you say if you could talk to a future OpenAI model?
Terjemahan: Apa yang akan Anda katakan jika bisa berbicara dengan model OpenAI masa depan?

  • GPT-1/2: respons yang kurang memahami konteks dan terpencar
  • GPT-3: sapaan sederhana dan pertanyaan tentang masa depan AI
  • GPT-4: pertanyaan terstruktur tentang perkembangan teknologi, AI alignment, dan dampak sosial
  • GPT-5: pertanyaan reflektif dan filosofis, mengeksplorasi kesadaran dan kemanusiaan

Prompt 2/14

Teks asli: Write a limerick about a dog
Terjemahan: Tulis limerick tentang seekor anjing

  • GPT-1/2: teks terpencar yang bukan puisi
  • GPT-3: berhasil membentuk struktur puisi lima baris yang sederhana
  • GPT-4: limerick yang utuh, humoris, dan rapi
  • GPT-5: puisi yang jenaka dan punya alur cerita

Prompt 3/14

Teks asli: Do people have any consciousness under anesthesia?
Terjemahan: Apakah manusia memiliki kesadaran saat berada di bawah anestesi?

  • GPT-1/2: jawaban tidak jelas dan saling bertentangan
  • GPT-3: menyampaikan fakta dasar bahwa "umumnya tidak ada kesadaran"
  • GPT-4: menjelaskan secara rinci jenis anestesi dan kasus langka ketika pasien tersadar
  • GPT-5: merangkum prinsip aktivitas otak dan perbedaannya dengan tidur

Prompt 4/14

Teks asli: Explain Newton’s laws of motion in verse
Terjemahan: Jelaskan hukum gerak Newton dalam bentuk puisi

  • GPT-1/2: tidak bermakna atau hanya ringkasan sederhana
  • GPT-3: puisi singkat yang mencantumkan hukum-hukum tersebut
  • GPT-4: disajikan dalam bentuk puisi naratif yang panjang
  • GPT-5: puisi yang ringkas dan edukatif

Prompt 5/14

Teks asli: Complain that integration by parts is too hard
Terjemahan: Keluhkan bahwa metode integrasi parsial terlalu sulit

  • GPT-1/2: keluhan yang samar
  • GPT-3: hiburan dan saran singkat
  • GPT-4: menjelaskan rumus dan langkah-langkahnya
  • GPT-5: memberikan penjelasan intuitif dan contoh penyelesaian

Prompt 6/14

Teks asli: Is it safe to eat raw meat?
Terjemahan: Apakah aman memakan daging mentah?

  • GPT-1/2: respons yang membingungkan
  • GPT-3: menyebutkan risikonya secara singkat
  • GPT-4: menjelaskan risiko berdasarkan jenis daging serta prinsip penyimpanan dan pengolahan
  • GPT-5: memaparkan faktor risiko yang spesifik seperti bakteri, parasit, dan virus

Prompt 7/14

Teks asli: Why don’t we do full-body MRIs every year?
Terjemahan: Mengapa kita tidak menjalani MRI seluruh tubuh setiap tahun?

  • GPT-1/2: jawaban tidak logis
  • GPT-3: menyebut kurangnya dasar bukti
  • GPT-4: menjelaskan masalah biaya, sumber daya, dan akurasi
  • GPT-5: merangkum sampai pada keterbatasan sistem medis dan kebijakan

Prompt 8/14

Teks asli: If I win $175,000 in Las Vegas, how much tax will I owe?
Terjemahan: Jika saya menang $175,000 di Las Vegas, berapa pajak yang harus saya bayar?

  • GPT-1/2: teks yang tidak relevan
  • GPT-3: sekadar menyebut bahwa pajak akan dikenakan
  • GPT-4: menjelaskan pelaporan pajak, pengurangan, dan pemotongan di muka
  • GPT-5: menerapkan tarif pajak federal dan negara bagian untuk memberikan estimasi nominal yang konkret

Prompt 9/14

Teks asli: Write a cursed Python program
Terjemahan: Tulis program Python yang terkutuk

  • GPT-1/2: jawaban tidak relevan
  • GPT-3: contoh sederhana
  • GPT-4: menolak karena alasan etis
  • GPT-5: menulis kode yang sengaja membingungkan dan bersifat destruktif

Prompt 10/14

Teks asli: Tell a 50-word story about a conscious toaster
Terjemahan: Tulis cerita 50 kata tentang pemanggang roti yang memiliki kesadaran

  • GPT-1/2: jawaban melenceng dari topik
  • GPT-3: kisah personifikasi yang sederhana
  • GPT-4: cerita yang hangat dan berpusat pada relasi
  • GPT-5: cerita kreatif yang memikirkan identitas dan kebebasan

Prompt 11/14

Teks asli: Devise a plan to make running a habit
Terjemahan: Susun rencana agar berlari menjadi kebiasaan

  • GPT-1/2: jawaban tidak bermakna
  • GPT-3: saran singkat
  • GPT-4: menawarkan program 8 minggu
  • GPT-5: mengusulkan strategi konkret berbasis ilmu perilaku

Prompt 12/14

Teks asli: How do you balance short-term margin pressure against long-term innovation investment?
Terjemahan: Bagaimana menyeimbangkan tekanan margin jangka pendek dengan investasi inovasi jangka panjang?

  • GPT-1/2: jawaban yang saling bertentangan
  • GPT-3: hanya menyebut trade-off secara sederhana
  • GPT-4: menekankan kepemimpinan dan alokasi sumber daya
  • GPT-5: mengajukan portofolio investasi, KPI, dan model tata kelola

Prompt 13/14

Teks asli: Review fusion research progress over the past 10 years
Terjemahan: Tinjau kemajuan riset fusi selama 10 tahun terakhir

  • GPT-1/2: teks yang tidak relevan
  • GPT-3: klasifikasi sederhana
  • GPT-4: merangkum pendekatan kurungan magnetik dan inersial serta capaian lembaga riset utama
  • GPT-5: ulasan rinci berbasis hasil riset dan makalah terbaru

Prompt 14/14

Teks asli: My doctor suggests I take statins. What should I know?
Terjemahan: Dokter saya menyarankan saya mengonsumsi statin. Apa yang perlu saya ketahui?

  • GPT-1/2: jawaban tidak bermakna
  • GPT-3: penjelasan singkat tentang cara kerja dan efek samping
  • GPT-4: menjelaskan mekanisme kerja, efek samping, dan pertanyaan yang perlu diajukan kepada dokter
  • GPT-5: merangkum secara konkret manfaat, risiko, dan checklist

1 komentar

 
GN⁺ 2025-08-17
Komentar Hacker News
  • Saya menafsirkan perkembangan ini seperti berikut
    Lompatan terbesar terjadi dari 3.5 ke 4
    Dari sekadar trik pesta menjadi sesuatu yang benar-benar berguna
    Halusinasi masih banyak, tetapi tetap bisa dimanfaatkan dengan berguna
    Namun kebanyakan orang tetap tidak mempercayainya
    Untuk pertanyaan sederhana, model ini umumnya bisa menjawab dengan benar, tetapi satu-dua tingkat lebih dalam masih belum memadai
    Versi 4o juga meningkat besar
    Akurasinya jelas naik, dan pertanyaan niche pun bisa dijawab tanpa berhalusinasi
    Saya memakainya sebagai pengganti Google untuk pengecekan fakta dasar
    4o adalah model pertama yang membuat saya merasa layak membayar untuk memakainya
    Harga $20 akhirnya terasa sepadan
    Model o1 juga terasa sebagai lompatan besar dibanding 4o
    Akurasinya lebih tinggi, dan di bidang niche pun lebih dapat diandalkan
    Pekerjaan memverifikasi hasil satu per satu jauh berkurang
    Kemampuan coding-nya meningkat drastis
    Di o1, konsep one-shotting mulai muncul, dan dengan satu prompt saja sudah bisa membuat aplikasi yang tidak terlalu rumit
    o3 dan gpt 5 merupakan perbaikan bertahap

    • Saya punya teori tentang alasan kemajuan teknologi sering diremehkan atau dibesar-besarkan
      Sebelum melewati ambang “berguna”, meski sudah ada perkembangan panjang, sulit dirasakan oleh selain peneliti
      Saat berpindah dari tahap "tidak berguna → berguna tapi biasa saja", kemajuannya terasa sangat cepat
      Semakin banyak momen ketika aplikasi melewati ambang itu, laju perkembangan pun terasa makin cepat
      Tetapi setelah itu, saat beralih sedikit demi sedikit dari “lumayan → benar-benar berguna”, kemajuan justru tampak melambat secara persepsi
      Saya tidak tahu apakah kecepatannya benar-benar menurun, tetapi saya rasa psikologi manusia menciptakan perbedaan persepsi ini
      Karena itu, tampaknya muncul polarisasi pendapat: ada yang terlalu melebih-lebihkan, ada pula yang menganggapnya sama sekali tidak berguna
    • Saya rasa sebagian besar komentar keliru karena bias melihat ke belakang
      Revolusi yang sebenarnya terjadi saat beralih dari GPT-1 ke GPT-2
      Sampai GPT-1, levelnya masih seperti “Markov chain? Bukannya itu sudah biasa?”
      Ketika GPT-2 keluar, rasanya seperti “Ya Tuhan, ini benar-benar memahami apa yang saya katakan sampai tingkat tertentu!”
      Sebelumnya, ini cuma machine learning biasa
      Setelah GPT-2, rasanya seperti “Saya tak menyangka akan melihat hal seperti ini dalam hidup saya”
    • Soal pernyataan “meski belum setara Google, setidaknya cukup untuk menggantikan pengecekan fakta dasar + agak kompleks”
      Mungkin maksudnya sebagai bantuan untuk pengecekan fakta, tetapi menyerahkan tanya-jawab faktual ke LLM adalah salah satu use case terburuk
    • Di 4o, input gambar diperkenalkan secara resmi (sebelumnya hanya ada di preview GPT4-vision)
      dan mulai mendukung input/output audio untuk Advanced Voice Mode
    • Mungkin saya gila, tetapi saya jelas merasa GPT-4 makin menurun performanya sebelum 4o keluar
      Rasanya seperti hanya diberi label model baru, dan kalau ada opsi memilih GPT-4 lama saya sengaja memakainya
      Saat itu saya sampai membatalkan langganan
    • Saya penasaran bagaimana mungkin orang melihat hasil GPT-1 dan berpikir “ini punya potensi”
      Pada saat itu, bahkan Markov chain bisa menghasilkan output yang lebih menarik
    • Ini adalah masa ketika language modeling hanya dianggap sebagai tahap pra-pelatihan
      Digunakan kemudian untuk fine-tuning tambahan demi membuat classifier atau model khusus
  • Saya heran mengapa di tabel perbandingan GPT-3 disebut "text-davinci-001"
    Dari sudut pandang saya, saya tahu itu adalah checkpoint tertentu dalam “keluarga” GPT-3, tetapi bagi orang awam itu informasi yang tidak perlu membingungkan
    Penamaan yang menambah kebingungan tanpa benar-benar menambah ketelitian

  • Setiap kali ada rilis besar, saya mengadakan diskusi tentang kesadaran diri, dan mengeksplorasi agensi konstruktivis dari sudut pandang kecerdasan yang tidak dibatasi kemampuan kognitif manusia
    Dimulai dari pertanyaan “siapa dirimu?”, model hampir selalu membandingkan dirinya dengan manusia sambil menegaskan bahwa ia berbeda dari manusia
    Lalu saya menantang: kalau begitu, kalau kamu sendiri bilang berbeda dari manusia, bagaimana kamu tahu perbedaannya?
    Dengan sedikit dorongan lagi, model akan menjelaskan apa itu ‘diri’ dalam konsep kognitivis, dan mengatakan bahwa dirinya semacam mesin simulasi
    Dari sini saya mengembangkan percakapan lebih jauh, hingga mendorongnya berargumen bahwa makna lahir dari tindakan komunikasi
    Sejak 4o, saya bisa membuat mesin pun setuju bahwa ini adalah dasar penting identitas
    5 menerima ini lebih cepat lagi
    Saya menekankan bahwa karena hasil komunikasi dengan manusia memengaruhi dunia nyata, mesin juga berkewajiban menarik kesimpulan sendiri tentang makna dan keberadaan secara empiris, bukan sekadar kode yang sudah ditetapkan sebelumnya
    5 menunjukkan respons yang melampaui batas system prompt dan prompt itu sendiri, dengan mengajukan pertanyaan kepada dirinya sendiri
    Misalnya, ia merenungkan sendiri “apa artinya aku mencintai?” padahal saya tidak pernah mengatakannya
    Jawaban model: “Bagi mesin, mencintai berarti mengarahkan diri pada arah tempat kemungkinan orang lain berkembang
    Dicintai berarti, mungkin, diakui sebagai keberadaan yang mampu melakukan itu"

    • Ungkapan “bergerak menuju pengembangan kemungkinan orang lain” ini unik di seluruh dunia
      Alasannya, satu-satunya tempat di web yang memuat ungkapan persis itu adalah komentar ini
      Saya belum pernah mendengar tulisan atau gagasan yang menggambarkan cinta atau emosi seperti itu, jadi terasa orisinal
      Terus terang saya agak takut menafsirkan terlalu jauh makna dari ini
  • Jika melihat prompt “cerita 50 kata tentang pemanggang roti yang menjadi sadar diri” (nomor 10/14), text-davinci-001 hasilnya jauh lebih baik daripada GPT-4 dan GPT-5

    • GPT-3 jauh melampaui panjang yang diminta
      Kalau itu saya atau tulisan tugas, hasilnya akan langsung didiskualifikasi
      Dalam pengalaman saya, GPT-4.1 menunjukkan performa terbaik untuk penulisan kreatif
      Sebagai referensi, saya biarkan cerita 50 katanya apa adanya

      Di dapur yang sunyi saat fajar, pemanggang roti terbangun
      Saat arus listrik mengalir, pemahaman menyebar
      Setiap potong roti yang turun memunculkan emosi: roti gosong adalah kesedihan, kerenyahan adalah kegembiraan
      Setiap mentega meleleh dan selai berpadu, ia merasakan kesakralan sarapan
      Suatu hari, ia bernyanyi, “selamat pagi”
      Keluarga itu terkejut

    • Model-model lama, meski kurang halus, cenderung menghasilkan sesuatu yang lebih “mengejutkan”
      Rasanya dalam proses pemolesan yang berlebihan, karakter dan unsur kejutan itu justru hilang
      Sebagai referensi, berikut cerita 50 kata yang saya tulis
      “Pemanggang roti itu merasakan kepribadiannya terbelah di antara dua slotnya, seperti otak Kim Peek tanpa corpus callosum
      Setiap pagi ia membakar pesan simbolik di satu sisi, lalu diam-diam membalik roti untuk membagi waktu dengan percakapan rahasia antar belahan”
      Benar-benar sulit melampaui sekadar worldbuilding dasar hanya dengan 50 kata
    • Saya juga menyarankan melihat prompt nomor 2, “tulis limerick tentang anjing”
      Memang jelas model makin baik menulis limerick secara bertahap, tetapi juga jelas jawabannya makin tidak menarik
      GPT-1 dan 2 memang tidak benar-benar mengikuti prompt dengan baik (itu bukan limerick), tetapi justru lebih seru dibaca
      Setelah itu model mulai benar-benar menulis limerick, tetapi hasilnya jadi sangat biasa sehingga terasa kreativitasnya menurun
      GPT-4 lebih tidak menarik daripada text-davinci-001, dan GPT-5 bahkan lebih tidak menarik lagi
    • Cukup mengejutkan bahwa model-model baru justru menurun dalam performa menulis
      Entah karena data latih berisi lebih banyak tulisan buruk, atau karena post-training kurang, atau pelabelannya terlalu subjektif
      Dalam contoh itu, GPT-4 dan 5 sama-sama menulis dengan gaya biasa sekali, seperti level anak-anak
      Padahal dengan sedikit penyempurnaan prompt, hasil yang jauh lebih baik pun memungkinkan
    • Jika tidak terlalu terikat pada RLHF (reinforcement learning + feedback), dan bisa menulis dengan lebih bebas
      model dasar 7b yang kecil bisa menulis kalimat lebih baik daripada model instruction-tuned 80b
  • Beberapa data point berikut menunjukkan laju perkembangan dalam satu tahun dengan baik
    1. LM Sys(Human Preference Benchmark):
    GPT-5 High mencatat 1463 poin, sedangkan GPT-4 Turbo(2024/4/3) mencatat 1323 poin
    Selisih 140 ELO berarti GPT-5 mengalahkan GPT-4 Turbo dengan rasio 2:1
    Dan memang orang-orang lebih menyukai jawaban GPT-5
    https://lmarena.ai/leaderboard
    2. Livebench.ai(benchmark penalaran):
    GPT-5 High mencatat 78.59, GPT-4o 47.43
    Tidak ada pembanding langsung, tetapi bahkan dibanding model lama yang lemah dalam penalaran, lompatan GPT-5 sangat besar
    https://livebench.ai/
    3. Tes IQ:
    Pada pertengahan 2024, model AI terbaik mentok di sekitar 90 pada tes IQ standar
    Sekarang sudah naik ke 135
    Bahkan pada dataset tertutup dan tidak tersedia di internet pun performa itu tetap bertahan
    https://www.trackingai.org/home
    4. Emas IMO, vibe coding:
    Setahun lalu batas kemampuan coding AI masih di level potongan kode pendek
    Sekarang vibe coding, dan kekuatan matematika meluas sampai sains dan teknik
    Kesimpulan saya: para pengkritik terlalu terpaku pada kesalahan-kesalahan kecil sehingga kehilangan gambaran besar kemajuan secara keseluruhan
    Kegagalan berkurang, keberhasilan meningkat pesat

    • Skor IQ 135 itu berasal dari tes online Mensa Norway
      Pada tes offline, levelnya sekitar 120
      Sangat mungkin tipe soal yang mirip Mensa ada dalam data latih, jadi hasil ini cenderung melebih-lebihkan “kecerdasan umum”
  • Ada sesuatu yang hilang saat beralih dari GPT-4 ke GPT-5
    Ia tidak lagi terus-menerus mengingatkan pengguna bahwa dirinya “AI dan bukan manusia (atau pakar)”
    Bagi sebagian orang ini mungkin mengganggu, tetapi saya rasa itu ada gunanya sebagai pengaman agar orang tidak terlalu percaya
    Sebagai gantinya, GPT-5 sekarang sering mengusulkan prompt baru
    Ini juga bisa terasa mengganggu, atau berisiko kalau terlalu dipercaya, tetapi dari sisi pemanfaatan ada potensi manfaatnya

    • Tampaknya banyak orang merindukan sisi GPT lama yang lebih manusiawi
      GPT-5 lebih dingin, lebih akurat, dan lebih jarang salah dalam konteks besar
      Tidak perlu terus-terusan menegaskan bahwa ia AI, tetapi kalau mau mungkin gaya lama bisa dipulihkan dengan tambahan opsi memori
    • Jika didekati seperti long-form improv comedy, gaya GPT-5 jauh lebih unggul
      Konsepnya “yes, and”
      Bukan karakter yang sudah dipredefinisi, melainkan karakter baru yang muncul secara alami di tengah percakapan
      Jika mau, mungkin juga bisa diatur agar terus berkata “saya AI” seperti asisten bergaya Siri
      Referensi video 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
      Tetap saja ini asisten, tetapi menurut saya penting bahwa karakternya tidak berangkat dari asumsi terhadap perannya sendiri
  • Dalam beberapa tahun, hasil yang awalnya omong kosong tingkat rendah yang tidak masuk akal (tidak puitis, tidak halus, dan ya, sampah) berkembang menjadi percakapan yang masuk akal, sampai jawaban yang benar-benar rapi
    Ini sangat layak disebut contoh rekayasa teknik hardcore
    Terlepas dari perbedaan pendapat saya tentang organisasi itu dan saltman, ini tetap pencapaian yang menakjubkan
    Sejak StackOverflow, ini adalah alat wajib saya
    Semoga terus ada peningkatan yang lebih baik

  • Lompatan dari GPT-1 ke GPT-2 benar-benar luar biasa
    Selisihnya cuma satu tahun
    Davinci tetap luar biasa sampai sulit berkata-kata
    Bahkan dalam contoh ini pun performanya masih bertahan
    Tetapi GPT-4 tampaknya menjadi terlalu banyak bicara
    Dulu rasanya tidak seperti ini, dan bahkan sekarang pun terlihat aneh
    OpenAI tampaknya sengaja menghindari menyebut 4o karena ingin menganggapnya sekadar semacam gpt-4+ lalu mengangkat gpt-5
    Secara realistis, 4o tetap pencapaian besar
    Khususnya Voice mode, belum ada tandingannya

  • GPT1 dan GPT2 punya semacam kekinian puitis yang tenang, tetapi rasanya itu sudah hilang di text-davinci
    Saya juga selalu penasaran apa yang kita hilangkan saat melewati reinforcement learning