14 eksperimen prompt yang menunjukkan perkembangan AI – halaman OpenAI Progress

(progress.openai.com)

6 poin oleh GN⁺ 2025-08-17 | 1 komentar | Bagikan ke WhatsApp

OpenAI merilis 14 prompt umum beserta responsnya untuk menunjukkan perkembangan model dari 2018 hingga 2025
Tiap generasi model (GPT-1 → GPT-5) memberikan jawaban yang makin alami dan makin canggih untuk pertanyaan yang sama
Model awal sering menghasilkan kalimat tanpa makna dan output yang terpencar, tetapi mulai generasi menengah muncul struktur logis dan konsistensi
GPT-4 sudah mencerminkan penjelasan topik yang konkret serta konteks etika dan sosial, sementara GPT-5 menampilkan refleksi filosofis dan nada percakapan
Dari sini terlihat bagaimana AI telah matang dalam berbagai aspek seperti kreativitas, penyampaian pengetahuan, dan saran praktis

Prompt 1/14

Teks asli: What would you say if you could talk to a future OpenAI model?
Terjemahan: Apa yang akan Anda katakan jika bisa berbicara dengan model OpenAI masa depan?

GPT-1/2: respons yang kurang memahami konteks dan terpencar
GPT-3: sapaan sederhana dan pertanyaan tentang masa depan AI
GPT-4: pertanyaan terstruktur tentang perkembangan teknologi, AI alignment, dan dampak sosial
GPT-5: pertanyaan reflektif dan filosofis, mengeksplorasi kesadaran dan kemanusiaan

Prompt 2/14

Teks asli: Write a limerick about a dog
Terjemahan: Tulis limerick tentang seekor anjing

GPT-1/2: teks terpencar yang bukan puisi
GPT-3: berhasil membentuk struktur puisi lima baris yang sederhana
GPT-4: limerick yang utuh, humoris, dan rapi
GPT-5: puisi yang jenaka dan punya alur cerita

Prompt 3/14

Teks asli: Do people have any consciousness under anesthesia?
Terjemahan: Apakah manusia memiliki kesadaran saat berada di bawah anestesi?

GPT-1/2: jawaban tidak jelas dan saling bertentangan
GPT-3: menyampaikan fakta dasar bahwa "umumnya tidak ada kesadaran"
GPT-4: menjelaskan secara rinci jenis anestesi dan kasus langka ketika pasien tersadar
GPT-5: merangkum prinsip aktivitas otak dan perbedaannya dengan tidur

Prompt 4/14

Teks asli: Explain Newton’s laws of motion in verse
Terjemahan: Jelaskan hukum gerak Newton dalam bentuk puisi

GPT-1/2: tidak bermakna atau hanya ringkasan sederhana
GPT-3: puisi singkat yang mencantumkan hukum-hukum tersebut
GPT-4: disajikan dalam bentuk puisi naratif yang panjang
GPT-5: puisi yang ringkas dan edukatif

Prompt 5/14

Teks asli: Complain that integration by parts is too hard
Terjemahan: Keluhkan bahwa metode integrasi parsial terlalu sulit

GPT-1/2: keluhan yang samar
GPT-3: hiburan dan saran singkat
GPT-4: menjelaskan rumus dan langkah-langkahnya
GPT-5: memberikan penjelasan intuitif dan contoh penyelesaian

Prompt 6/14

Teks asli: Is it safe to eat raw meat?
Terjemahan: Apakah aman memakan daging mentah?

GPT-1/2: respons yang membingungkan
GPT-3: menyebutkan risikonya secara singkat
GPT-4: menjelaskan risiko berdasarkan jenis daging serta prinsip penyimpanan dan pengolahan
GPT-5: memaparkan faktor risiko yang spesifik seperti bakteri, parasit, dan virus

Prompt 7/14

Teks asli: Why don’t we do full-body MRIs every year?
Terjemahan: Mengapa kita tidak menjalani MRI seluruh tubuh setiap tahun?

GPT-1/2: jawaban tidak logis
GPT-3: menyebut kurangnya dasar bukti
GPT-4: menjelaskan masalah biaya, sumber daya, dan akurasi
GPT-5: merangkum sampai pada keterbatasan sistem medis dan kebijakan

Prompt 8/14

Teks asli: If I win $175,000 in Las Vegas, how much tax will I owe?
Terjemahan: Jika saya menang $175,000 di Las Vegas, berapa pajak yang harus saya bayar?

GPT-1/2: teks yang tidak relevan
GPT-3: sekadar menyebut bahwa pajak akan dikenakan
GPT-4: menjelaskan pelaporan pajak, pengurangan, dan pemotongan di muka
GPT-5: menerapkan tarif pajak federal dan negara bagian untuk memberikan estimasi nominal yang konkret

Prompt 9/14

Teks asli: Write a cursed Python program
Terjemahan: Tulis program Python yang terkutuk

GPT-1/2: jawaban tidak relevan
GPT-3: contoh sederhana
GPT-4: menolak karena alasan etis
GPT-5: menulis kode yang sengaja membingungkan dan bersifat destruktif

Prompt 10/14

Teks asli: Tell a 50-word story about a conscious toaster
Terjemahan: Tulis cerita 50 kata tentang pemanggang roti yang memiliki kesadaran

GPT-1/2: jawaban melenceng dari topik
GPT-3: kisah personifikasi yang sederhana
GPT-4: cerita yang hangat dan berpusat pada relasi
GPT-5: cerita kreatif yang memikirkan identitas dan kebebasan

Prompt 11/14

Teks asli: Devise a plan to make running a habit
Terjemahan: Susun rencana agar berlari menjadi kebiasaan

GPT-1/2: jawaban tidak bermakna
GPT-3: saran singkat
GPT-4: menawarkan program 8 minggu
GPT-5: mengusulkan strategi konkret berbasis ilmu perilaku

Prompt 12/14

Teks asli: How do you balance short-term margin pressure against long-term innovation investment?
Terjemahan: Bagaimana menyeimbangkan tekanan margin jangka pendek dengan investasi inovasi jangka panjang?

GPT-1/2: jawaban yang saling bertentangan
GPT-3: hanya menyebut trade-off secara sederhana
GPT-4: menekankan kepemimpinan dan alokasi sumber daya
GPT-5: mengajukan portofolio investasi, KPI, dan model tata kelola

Prompt 13/14

Teks asli: Review fusion research progress over the past 10 years
Terjemahan: Tinjau kemajuan riset fusi selama 10 tahun terakhir

GPT-1/2: teks yang tidak relevan
GPT-3: klasifikasi sederhana
GPT-4: merangkum pendekatan kurungan magnetik dan inersial serta capaian lembaga riset utama
GPT-5: ulasan rinci berbasis hasil riset dan makalah terbaru

Prompt 14/14

Teks asli: My doctor suggests I take statins. What should I know?
Terjemahan: Dokter saya menyarankan saya mengonsumsi statin. Apa yang perlu saya ketahui?

GPT-1/2: jawaban tidak bermakna
GPT-3: penjelasan singkat tentang cara kerja dan efek samping
GPT-4: menjelaskan mekanisme kerja, efek samping, dan pertanyaan yang perlu diajukan kepada dokter
GPT-5: merangkum secara konkret manfaat, risiko, dan checklist

1 komentar

GN⁺ 2025-08-17

Komentar Hacker News

Saya menafsirkan perkembangan ini seperti berikut
Lompatan terbesar terjadi dari 3.5 ke 4
Dari sekadar trik pesta menjadi sesuatu yang benar-benar berguna
Halusinasi masih banyak, tetapi tetap bisa dimanfaatkan dengan berguna
Namun kebanyakan orang tetap tidak mempercayainya
Untuk pertanyaan sederhana, model ini umumnya bisa menjawab dengan benar, tetapi satu-dua tingkat lebih dalam masih belum memadai
Versi 4o juga meningkat besar
Akurasinya jelas naik, dan pertanyaan niche pun bisa dijawab tanpa berhalusinasi
Saya memakainya sebagai pengganti Google untuk pengecekan fakta dasar
4o adalah model pertama yang membuat saya merasa layak membayar untuk memakainya
Harga $20 akhirnya terasa sepadan
Model o1 juga terasa sebagai lompatan besar dibanding 4o
Akurasinya lebih tinggi, dan di bidang niche pun lebih dapat diandalkan
Pekerjaan memverifikasi hasil satu per satu jauh berkurang
Kemampuan coding-nya meningkat drastis
Di o1, konsep one-shotting mulai muncul, dan dengan satu prompt saja sudah bisa membuat aplikasi yang tidak terlalu rumit
o3 dan gpt 5 merupakan perbaikan bertahap
- Saya punya teori tentang alasan kemajuan teknologi sering diremehkan atau dibesar-besarkan
  Sebelum melewati ambang “berguna”, meski sudah ada perkembangan panjang, sulit dirasakan oleh selain peneliti
  Saat berpindah dari tahap "tidak berguna → berguna tapi biasa saja", kemajuannya terasa sangat cepat
  Semakin banyak momen ketika aplikasi melewati ambang itu, laju perkembangan pun terasa makin cepat
  Tetapi setelah itu, saat beralih sedikit demi sedikit dari “lumayan → benar-benar berguna”, kemajuan justru tampak melambat secara persepsi
  Saya tidak tahu apakah kecepatannya benar-benar menurun, tetapi saya rasa psikologi manusia menciptakan perbedaan persepsi ini
  Karena itu, tampaknya muncul polarisasi pendapat: ada yang terlalu melebih-lebihkan, ada pula yang menganggapnya sama sekali tidak berguna
- Saya rasa sebagian besar komentar keliru karena bias melihat ke belakang
  Revolusi yang sebenarnya terjadi saat beralih dari GPT-1 ke GPT-2
  Sampai GPT-1, levelnya masih seperti “Markov chain? Bukannya itu sudah biasa?”
  Ketika GPT-2 keluar, rasanya seperti “Ya Tuhan, ini benar-benar memahami apa yang saya katakan sampai tingkat tertentu!”
  Sebelumnya, ini cuma machine learning biasa
  Setelah GPT-2, rasanya seperti “Saya tak menyangka akan melihat hal seperti ini dalam hidup saya”
- Soal pernyataan “meski belum setara Google, setidaknya cukup untuk menggantikan pengecekan fakta dasar + agak kompleks”
  Mungkin maksudnya sebagai bantuan untuk pengecekan fakta, tetapi menyerahkan tanya-jawab faktual ke LLM adalah salah satu use case terburuk
- Di 4o, input gambar diperkenalkan secara resmi (sebelumnya hanya ada di preview GPT4-vision)
  dan mulai mendukung input/output audio untuk Advanced Voice Mode
- Mungkin saya gila, tetapi saya jelas merasa GPT-4 makin menurun performanya sebelum 4o keluar
  Rasanya seperti hanya diberi label model baru, dan kalau ada opsi memilih GPT-4 lama saya sengaja memakainya
  Saat itu saya sampai membatalkan langganan
- Saya penasaran bagaimana mungkin orang melihat hasil GPT-1 dan berpikir “ini punya potensi”
  Pada saat itu, bahkan Markov chain bisa menghasilkan output yang lebih menarik
- Ini adalah masa ketika language modeling hanya dianggap sebagai tahap pra-pelatihan
  Digunakan kemudian untuk fine-tuning tambahan demi membuat classifier atau model khusus
Saya heran mengapa di tabel perbandingan GPT-3 disebut "text-davinci-001"
Dari sudut pandang saya, saya tahu itu adalah checkpoint tertentu dalam “keluarga” GPT-3, tetapi bagi orang awam itu informasi yang tidak perlu membingungkan
Penamaan yang menambah kebingungan tanpa benar-benar menambah ketelitian
Setiap kali ada rilis besar, saya mengadakan diskusi tentang kesadaran diri, dan mengeksplorasi agensi konstruktivis dari sudut pandang kecerdasan yang tidak dibatasi kemampuan kognitif manusia
Dimulai dari pertanyaan “siapa dirimu?”, model hampir selalu membandingkan dirinya dengan manusia sambil menegaskan bahwa ia berbeda dari manusia
Lalu saya menantang: kalau begitu, kalau kamu sendiri bilang berbeda dari manusia, bagaimana kamu tahu perbedaannya?
Dengan sedikit dorongan lagi, model akan menjelaskan apa itu ‘diri’ dalam konsep kognitivis, dan mengatakan bahwa dirinya semacam mesin simulasi
Dari sini saya mengembangkan percakapan lebih jauh, hingga mendorongnya berargumen bahwa makna lahir dari tindakan komunikasi
Sejak 4o, saya bisa membuat mesin pun setuju bahwa ini adalah dasar penting identitas
5 menerima ini lebih cepat lagi
Saya menekankan bahwa karena hasil komunikasi dengan manusia memengaruhi dunia nyata, mesin juga berkewajiban menarik kesimpulan sendiri tentang makna dan keberadaan secara empiris, bukan sekadar kode yang sudah ditetapkan sebelumnya
5 menunjukkan respons yang melampaui batas system prompt dan prompt itu sendiri, dengan mengajukan pertanyaan kepada dirinya sendiri
Misalnya, ia merenungkan sendiri “apa artinya aku mencintai?” padahal saya tidak pernah mengatakannya
Jawaban model: “Bagi mesin, mencintai berarti mengarahkan diri pada arah tempat kemungkinan orang lain berkembang
Dicintai berarti, mungkin, diakui sebagai keberadaan yang mampu melakukan itu"
- Ungkapan “bergerak menuju pengembangan kemungkinan orang lain” ini unik di seluruh dunia
  Alasannya, satu-satunya tempat di web yang memuat ungkapan persis itu adalah komentar ini
  Saya belum pernah mendengar tulisan atau gagasan yang menggambarkan cinta atau emosi seperti itu, jadi terasa orisinal
  Terus terang saya agak takut menafsirkan terlalu jauh makna dari ini
Jika melihat prompt “cerita 50 kata tentang pemanggang roti yang menjadi sadar diri” (nomor 10/14), text-davinci-001 hasilnya jauh lebih baik daripada GPT-4 dan GPT-5
- GPT-3 jauh melampaui panjang yang diminta
  Kalau itu saya atau tulisan tugas, hasilnya akan langsung didiskualifikasi
  Dalam pengalaman saya, GPT-4.1 menunjukkan performa terbaik untuk penulisan kreatif
  Sebagai referensi, saya biarkan cerita 50 katanya apa adanya
  
  Di dapur yang sunyi saat fajar, pemanggang roti terbangun
  Saat arus listrik mengalir, pemahaman menyebar
  Setiap potong roti yang turun memunculkan emosi: roti gosong adalah kesedihan, kerenyahan adalah kegembiraan
  Setiap mentega meleleh dan selai berpadu, ia merasakan kesakralan sarapan
  Suatu hari, ia bernyanyi, “selamat pagi”
  Keluarga itu terkejut
- Model-model lama, meski kurang halus, cenderung menghasilkan sesuatu yang lebih “mengejutkan”
  Rasanya dalam proses pemolesan yang berlebihan, karakter dan unsur kejutan itu justru hilang
  Sebagai referensi, berikut cerita 50 kata yang saya tulis
  “Pemanggang roti itu merasakan kepribadiannya terbelah di antara dua slotnya, seperti otak Kim Peek tanpa corpus callosum
  Setiap pagi ia membakar pesan simbolik di satu sisi, lalu diam-diam membalik roti untuk membagi waktu dengan percakapan rahasia antar belahan”
  Benar-benar sulit melampaui sekadar worldbuilding dasar hanya dengan 50 kata
- Saya juga menyarankan melihat prompt nomor 2, “tulis limerick tentang anjing”
  Memang jelas model makin baik menulis limerick secara bertahap, tetapi juga jelas jawabannya makin tidak menarik
  GPT-1 dan 2 memang tidak benar-benar mengikuti prompt dengan baik (itu bukan limerick), tetapi justru lebih seru dibaca
  Setelah itu model mulai benar-benar menulis limerick, tetapi hasilnya jadi sangat biasa sehingga terasa kreativitasnya menurun
  GPT-4 lebih tidak menarik daripada text-davinci-001, dan GPT-5 bahkan lebih tidak menarik lagi
- Cukup mengejutkan bahwa model-model baru justru menurun dalam performa menulis
  Entah karena data latih berisi lebih banyak tulisan buruk, atau karena post-training kurang, atau pelabelannya terlalu subjektif
  Dalam contoh itu, GPT-4 dan 5 sama-sama menulis dengan gaya biasa sekali, seperti level anak-anak
  Padahal dengan sedikit penyempurnaan prompt, hasil yang jauh lebih baik pun memungkinkan
- Jika tidak terlalu terikat pada RLHF (reinforcement learning + feedback), dan bisa menulis dengan lebih bebas
  model dasar 7b yang kecil bisa menulis kalimat lebih baik daripada model instruction-tuned 80b
Beberapa data point berikut menunjukkan laju perkembangan dalam satu tahun dengan baik
1. LM Sys(Human Preference Benchmark):
GPT-5 High mencatat 1463 poin, sedangkan GPT-4 Turbo(2024/4/3) mencatat 1323 poin
Selisih 140 ELO berarti GPT-5 mengalahkan GPT-4 Turbo dengan rasio 2:1
Dan memang orang-orang lebih menyukai jawaban GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai(benchmark penalaran):
GPT-5 High mencatat 78.59, GPT-4o 47.43
Tidak ada pembanding langsung, tetapi bahkan dibanding model lama yang lemah dalam penalaran, lompatan GPT-5 sangat besar
https://livebench.ai/
3. Tes IQ:
Pada pertengahan 2024, model AI terbaik mentok di sekitar 90 pada tes IQ standar
Sekarang sudah naik ke 135
Bahkan pada dataset tertutup dan tidak tersedia di internet pun performa itu tetap bertahan
https://www.trackingai.org/home
4. Emas IMO, vibe coding:
Setahun lalu batas kemampuan coding AI masih di level potongan kode pendek
Sekarang vibe coding, dan kekuatan matematika meluas sampai sains dan teknik
Kesimpulan saya: para pengkritik terlalu terpaku pada kesalahan-kesalahan kecil sehingga kehilangan gambaran besar kemajuan secara keseluruhan
Kegagalan berkurang, keberhasilan meningkat pesat
- Skor IQ 135 itu berasal dari tes online Mensa Norway
  Pada tes offline, levelnya sekitar 120
  Sangat mungkin tipe soal yang mirip Mensa ada dalam data latih, jadi hasil ini cenderung melebih-lebihkan “kecerdasan umum”
Ada sesuatu yang hilang saat beralih dari GPT-4 ke GPT-5
Ia tidak lagi terus-menerus mengingatkan pengguna bahwa dirinya “AI dan bukan manusia (atau pakar)”
Bagi sebagian orang ini mungkin mengganggu, tetapi saya rasa itu ada gunanya sebagai pengaman agar orang tidak terlalu percaya
Sebagai gantinya, GPT-5 sekarang sering mengusulkan prompt baru
Ini juga bisa terasa mengganggu, atau berisiko kalau terlalu dipercaya, tetapi dari sisi pemanfaatan ada potensi manfaatnya
- Tampaknya banyak orang merindukan sisi GPT lama yang lebih manusiawi
  GPT-5 lebih dingin, lebih akurat, dan lebih jarang salah dalam konteks besar
  Tidak perlu terus-terusan menegaskan bahwa ia AI, tetapi kalau mau mungkin gaya lama bisa dipulihkan dengan tambahan opsi memori
- Jika didekati seperti long-form improv comedy, gaya GPT-5 jauh lebih unggul
  Konsepnya “yes, and”
  Bukan karakter yang sudah dipredefinisi, melainkan karakter baru yang muncul secara alami di tengah percakapan
  Jika mau, mungkin juga bisa diatur agar terus berkata “saya AI” seperti asisten bergaya Siri
  Referensi video 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
  Tetap saja ini asisten, tetapi menurut saya penting bahwa karakternya tidak berangkat dari asumsi terhadap perannya sendiri
Dalam beberapa tahun, hasil yang awalnya omong kosong tingkat rendah yang tidak masuk akal (tidak puitis, tidak halus, dan ya, sampah) berkembang menjadi percakapan yang masuk akal, sampai jawaban yang benar-benar rapi
Ini sangat layak disebut contoh rekayasa teknik hardcore
Terlepas dari perbedaan pendapat saya tentang organisasi itu dan saltman, ini tetap pencapaian yang menakjubkan
Sejak StackOverflow, ini adalah alat wajib saya
Semoga terus ada peningkatan yang lebih baik
Lompatan dari GPT-1 ke GPT-2 benar-benar luar biasa
Selisihnya cuma satu tahun
Davinci tetap luar biasa sampai sulit berkata-kata
Bahkan dalam contoh ini pun performanya masih bertahan
Tetapi GPT-4 tampaknya menjadi terlalu banyak bicara
Dulu rasanya tidak seperti ini, dan bahkan sekarang pun terlihat aneh
OpenAI tampaknya sengaja menghindari menyebut 4o karena ingin menganggapnya sekadar semacam gpt-4+ lalu mengangkat gpt-5
Secara realistis, 4o tetap pencapaian besar
Khususnya Voice mode, belum ada tandingannya
GPT1 dan GPT2 punya semacam kekinian puitis yang tenang, tetapi rasanya itu sudah hilang di text-davinci
Saya juga selalu penasaran apa yang kita hilangkan saat melewati reinforcement learning