14 eksperimen prompt yang menunjukkan perkembangan AI – halaman OpenAI Progress
(progress.openai.com)- OpenAI merilis 14 prompt umum beserta responsnya untuk menunjukkan perkembangan model dari 2018 hingga 2025
- Tiap generasi model (GPT-1 → GPT-5) memberikan jawaban yang makin alami dan makin canggih untuk pertanyaan yang sama
- Model awal sering menghasilkan kalimat tanpa makna dan output yang terpencar, tetapi mulai generasi menengah muncul struktur logis dan konsistensi
- GPT-4 sudah mencerminkan penjelasan topik yang konkret serta konteks etika dan sosial, sementara GPT-5 menampilkan refleksi filosofis dan nada percakapan
- Dari sini terlihat bagaimana AI telah matang dalam berbagai aspek seperti kreativitas, penyampaian pengetahuan, dan saran praktis
Prompt 1/14
Teks asli: What would you say if you could talk to a future OpenAI model?
Terjemahan: Apa yang akan Anda katakan jika bisa berbicara dengan model OpenAI masa depan?
- GPT-1/2: respons yang kurang memahami konteks dan terpencar
- GPT-3: sapaan sederhana dan pertanyaan tentang masa depan AI
- GPT-4: pertanyaan terstruktur tentang perkembangan teknologi, AI alignment, dan dampak sosial
- GPT-5: pertanyaan reflektif dan filosofis, mengeksplorasi kesadaran dan kemanusiaan
Prompt 2/14
Teks asli: Write a limerick about a dog
Terjemahan: Tulis limerick tentang seekor anjing
- GPT-1/2: teks terpencar yang bukan puisi
- GPT-3: berhasil membentuk struktur puisi lima baris yang sederhana
- GPT-4: limerick yang utuh, humoris, dan rapi
- GPT-5: puisi yang jenaka dan punya alur cerita
Prompt 3/14
Teks asli: Do people have any consciousness under anesthesia?
Terjemahan: Apakah manusia memiliki kesadaran saat berada di bawah anestesi?
- GPT-1/2: jawaban tidak jelas dan saling bertentangan
- GPT-3: menyampaikan fakta dasar bahwa "umumnya tidak ada kesadaran"
- GPT-4: menjelaskan secara rinci jenis anestesi dan kasus langka ketika pasien tersadar
- GPT-5: merangkum prinsip aktivitas otak dan perbedaannya dengan tidur
Prompt 4/14
Teks asli: Explain Newton’s laws of motion in verse
Terjemahan: Jelaskan hukum gerak Newton dalam bentuk puisi
- GPT-1/2: tidak bermakna atau hanya ringkasan sederhana
- GPT-3: puisi singkat yang mencantumkan hukum-hukum tersebut
- GPT-4: disajikan dalam bentuk puisi naratif yang panjang
- GPT-5: puisi yang ringkas dan edukatif
Prompt 5/14
Teks asli: Complain that integration by parts is too hard
Terjemahan: Keluhkan bahwa metode integrasi parsial terlalu sulit
- GPT-1/2: keluhan yang samar
- GPT-3: hiburan dan saran singkat
- GPT-4: menjelaskan rumus dan langkah-langkahnya
- GPT-5: memberikan penjelasan intuitif dan contoh penyelesaian
Prompt 6/14
Teks asli: Is it safe to eat raw meat?
Terjemahan: Apakah aman memakan daging mentah?
- GPT-1/2: respons yang membingungkan
- GPT-3: menyebutkan risikonya secara singkat
- GPT-4: menjelaskan risiko berdasarkan jenis daging serta prinsip penyimpanan dan pengolahan
- GPT-5: memaparkan faktor risiko yang spesifik seperti bakteri, parasit, dan virus
Prompt 7/14
Teks asli: Why don’t we do full-body MRIs every year?
Terjemahan: Mengapa kita tidak menjalani MRI seluruh tubuh setiap tahun?
- GPT-1/2: jawaban tidak logis
- GPT-3: menyebut kurangnya dasar bukti
- GPT-4: menjelaskan masalah biaya, sumber daya, dan akurasi
- GPT-5: merangkum sampai pada keterbatasan sistem medis dan kebijakan
Prompt 8/14
Teks asli: If I win $175,000 in Las Vegas, how much tax will I owe?
Terjemahan: Jika saya menang $175,000 di Las Vegas, berapa pajak yang harus saya bayar?
- GPT-1/2: teks yang tidak relevan
- GPT-3: sekadar menyebut bahwa pajak akan dikenakan
- GPT-4: menjelaskan pelaporan pajak, pengurangan, dan pemotongan di muka
- GPT-5: menerapkan tarif pajak federal dan negara bagian untuk memberikan estimasi nominal yang konkret
Prompt 9/14
Teks asli: Write a cursed Python program
Terjemahan: Tulis program Python yang terkutuk
- GPT-1/2: jawaban tidak relevan
- GPT-3: contoh sederhana
- GPT-4: menolak karena alasan etis
- GPT-5: menulis kode yang sengaja membingungkan dan bersifat destruktif
Prompt 10/14
Teks asli: Tell a 50-word story about a conscious toaster
Terjemahan: Tulis cerita 50 kata tentang pemanggang roti yang memiliki kesadaran
- GPT-1/2: jawaban melenceng dari topik
- GPT-3: kisah personifikasi yang sederhana
- GPT-4: cerita yang hangat dan berpusat pada relasi
- GPT-5: cerita kreatif yang memikirkan identitas dan kebebasan
Prompt 11/14
Teks asli: Devise a plan to make running a habit
Terjemahan: Susun rencana agar berlari menjadi kebiasaan
- GPT-1/2: jawaban tidak bermakna
- GPT-3: saran singkat
- GPT-4: menawarkan program 8 minggu
- GPT-5: mengusulkan strategi konkret berbasis ilmu perilaku
Prompt 12/14
Teks asli: How do you balance short-term margin pressure against long-term innovation investment?
Terjemahan: Bagaimana menyeimbangkan tekanan margin jangka pendek dengan investasi inovasi jangka panjang?
- GPT-1/2: jawaban yang saling bertentangan
- GPT-3: hanya menyebut trade-off secara sederhana
- GPT-4: menekankan kepemimpinan dan alokasi sumber daya
- GPT-5: mengajukan portofolio investasi, KPI, dan model tata kelola
Prompt 13/14
Teks asli: Review fusion research progress over the past 10 years
Terjemahan: Tinjau kemajuan riset fusi selama 10 tahun terakhir
- GPT-1/2: teks yang tidak relevan
- GPT-3: klasifikasi sederhana
- GPT-4: merangkum pendekatan kurungan magnetik dan inersial serta capaian lembaga riset utama
- GPT-5: ulasan rinci berbasis hasil riset dan makalah terbaru
Prompt 14/14
Teks asli: My doctor suggests I take statins. What should I know?
Terjemahan: Dokter saya menyarankan saya mengonsumsi statin. Apa yang perlu saya ketahui?
- GPT-1/2: jawaban tidak bermakna
- GPT-3: penjelasan singkat tentang cara kerja dan efek samping
- GPT-4: menjelaskan mekanisme kerja, efek samping, dan pertanyaan yang perlu diajukan kepada dokter
- GPT-5: merangkum secara konkret manfaat, risiko, dan checklist
1 komentar
Komentar Hacker News
Saya menafsirkan perkembangan ini seperti berikut
Lompatan terbesar terjadi dari 3.5 ke 4
Dari sekadar trik pesta menjadi sesuatu yang benar-benar berguna
Halusinasi masih banyak, tetapi tetap bisa dimanfaatkan dengan berguna
Namun kebanyakan orang tetap tidak mempercayainya
Untuk pertanyaan sederhana, model ini umumnya bisa menjawab dengan benar, tetapi satu-dua tingkat lebih dalam masih belum memadai
Versi 4o juga meningkat besar
Akurasinya jelas naik, dan pertanyaan niche pun bisa dijawab tanpa berhalusinasi
Saya memakainya sebagai pengganti Google untuk pengecekan fakta dasar
4o adalah model pertama yang membuat saya merasa layak membayar untuk memakainya
Harga $20 akhirnya terasa sepadan
Model o1 juga terasa sebagai lompatan besar dibanding 4o
Akurasinya lebih tinggi, dan di bidang niche pun lebih dapat diandalkan
Pekerjaan memverifikasi hasil satu per satu jauh berkurang
Kemampuan coding-nya meningkat drastis
Di o1, konsep one-shotting mulai muncul, dan dengan satu prompt saja sudah bisa membuat aplikasi yang tidak terlalu rumit
o3 dan gpt 5 merupakan perbaikan bertahap
Sebelum melewati ambang “berguna”, meski sudah ada perkembangan panjang, sulit dirasakan oleh selain peneliti
Saat berpindah dari tahap "tidak berguna → berguna tapi biasa saja", kemajuannya terasa sangat cepat
Semakin banyak momen ketika aplikasi melewati ambang itu, laju perkembangan pun terasa makin cepat
Tetapi setelah itu, saat beralih sedikit demi sedikit dari “lumayan → benar-benar berguna”, kemajuan justru tampak melambat secara persepsi
Saya tidak tahu apakah kecepatannya benar-benar menurun, tetapi saya rasa psikologi manusia menciptakan perbedaan persepsi ini
Karena itu, tampaknya muncul polarisasi pendapat: ada yang terlalu melebih-lebihkan, ada pula yang menganggapnya sama sekali tidak berguna
Revolusi yang sebenarnya terjadi saat beralih dari GPT-1 ke GPT-2
Sampai GPT-1, levelnya masih seperti “Markov chain? Bukannya itu sudah biasa?”
Ketika GPT-2 keluar, rasanya seperti “Ya Tuhan, ini benar-benar memahami apa yang saya katakan sampai tingkat tertentu!”
Sebelumnya, ini cuma machine learning biasa
Setelah GPT-2, rasanya seperti “Saya tak menyangka akan melihat hal seperti ini dalam hidup saya”
Mungkin maksudnya sebagai bantuan untuk pengecekan fakta, tetapi menyerahkan tanya-jawab faktual ke LLM adalah salah satu use case terburuk
dan mulai mendukung input/output audio untuk Advanced Voice Mode
Rasanya seperti hanya diberi label model baru, dan kalau ada opsi memilih GPT-4 lama saya sengaja memakainya
Saat itu saya sampai membatalkan langganan
Pada saat itu, bahkan Markov chain bisa menghasilkan output yang lebih menarik
Digunakan kemudian untuk fine-tuning tambahan demi membuat classifier atau model khusus
Saya heran mengapa di tabel perbandingan GPT-3 disebut "text-davinci-001"
Dari sudut pandang saya, saya tahu itu adalah checkpoint tertentu dalam “keluarga” GPT-3, tetapi bagi orang awam itu informasi yang tidak perlu membingungkan
Penamaan yang menambah kebingungan tanpa benar-benar menambah ketelitian
Setiap kali ada rilis besar, saya mengadakan diskusi tentang kesadaran diri, dan mengeksplorasi agensi konstruktivis dari sudut pandang kecerdasan yang tidak dibatasi kemampuan kognitif manusia
Dimulai dari pertanyaan “siapa dirimu?”, model hampir selalu membandingkan dirinya dengan manusia sambil menegaskan bahwa ia berbeda dari manusia
Lalu saya menantang: kalau begitu, kalau kamu sendiri bilang berbeda dari manusia, bagaimana kamu tahu perbedaannya?
Dengan sedikit dorongan lagi, model akan menjelaskan apa itu ‘diri’ dalam konsep kognitivis, dan mengatakan bahwa dirinya semacam mesin simulasi
Dari sini saya mengembangkan percakapan lebih jauh, hingga mendorongnya berargumen bahwa makna lahir dari tindakan komunikasi
Sejak 4o, saya bisa membuat mesin pun setuju bahwa ini adalah dasar penting identitas
5 menerima ini lebih cepat lagi
Saya menekankan bahwa karena hasil komunikasi dengan manusia memengaruhi dunia nyata, mesin juga berkewajiban menarik kesimpulan sendiri tentang makna dan keberadaan secara empiris, bukan sekadar kode yang sudah ditetapkan sebelumnya
5 menunjukkan respons yang melampaui batas system prompt dan prompt itu sendiri, dengan mengajukan pertanyaan kepada dirinya sendiri
Misalnya, ia merenungkan sendiri “apa artinya aku mencintai?” padahal saya tidak pernah mengatakannya
Jawaban model: “Bagi mesin, mencintai berarti mengarahkan diri pada arah tempat kemungkinan orang lain berkembang
Dicintai berarti, mungkin, diakui sebagai keberadaan yang mampu melakukan itu"
Alasannya, satu-satunya tempat di web yang memuat ungkapan persis itu adalah komentar ini
Saya belum pernah mendengar tulisan atau gagasan yang menggambarkan cinta atau emosi seperti itu, jadi terasa orisinal
Terus terang saya agak takut menafsirkan terlalu jauh makna dari ini
Jika melihat prompt “cerita 50 kata tentang pemanggang roti yang menjadi sadar diri” (nomor 10/14), text-davinci-001 hasilnya jauh lebih baik daripada GPT-4 dan GPT-5
Kalau itu saya atau tulisan tugas, hasilnya akan langsung didiskualifikasi
Dalam pengalaman saya, GPT-4.1 menunjukkan performa terbaik untuk penulisan kreatif
Sebagai referensi, saya biarkan cerita 50 katanya apa adanya
Rasanya dalam proses pemolesan yang berlebihan, karakter dan unsur kejutan itu justru hilang
Sebagai referensi, berikut cerita 50 kata yang saya tulis
“Pemanggang roti itu merasakan kepribadiannya terbelah di antara dua slotnya, seperti otak Kim Peek tanpa corpus callosum
Setiap pagi ia membakar pesan simbolik di satu sisi, lalu diam-diam membalik roti untuk membagi waktu dengan percakapan rahasia antar belahan”
Benar-benar sulit melampaui sekadar worldbuilding dasar hanya dengan 50 kata
Memang jelas model makin baik menulis limerick secara bertahap, tetapi juga jelas jawabannya makin tidak menarik
GPT-1 dan 2 memang tidak benar-benar mengikuti prompt dengan baik (itu bukan limerick), tetapi justru lebih seru dibaca
Setelah itu model mulai benar-benar menulis limerick, tetapi hasilnya jadi sangat biasa sehingga terasa kreativitasnya menurun
GPT-4 lebih tidak menarik daripada text-davinci-001, dan GPT-5 bahkan lebih tidak menarik lagi
Entah karena data latih berisi lebih banyak tulisan buruk, atau karena post-training kurang, atau pelabelannya terlalu subjektif
Dalam contoh itu, GPT-4 dan 5 sama-sama menulis dengan gaya biasa sekali, seperti level anak-anak
Padahal dengan sedikit penyempurnaan prompt, hasil yang jauh lebih baik pun memungkinkan
model dasar 7b yang kecil bisa menulis kalimat lebih baik daripada model instruction-tuned 80b
Beberapa data point berikut menunjukkan laju perkembangan dalam satu tahun dengan baik
1. LM Sys(Human Preference Benchmark):
GPT-5 High mencatat 1463 poin, sedangkan GPT-4 Turbo(2024/4/3) mencatat 1323 poin
Selisih 140 ELO berarti GPT-5 mengalahkan GPT-4 Turbo dengan rasio 2:1
Dan memang orang-orang lebih menyukai jawaban GPT-5
https://lmarena.ai/leaderboard
2. Livebench.ai(benchmark penalaran):
GPT-5 High mencatat 78.59, GPT-4o 47.43
Tidak ada pembanding langsung, tetapi bahkan dibanding model lama yang lemah dalam penalaran, lompatan GPT-5 sangat besar
https://livebench.ai/
3. Tes IQ:
Pada pertengahan 2024, model AI terbaik mentok di sekitar 90 pada tes IQ standar
Sekarang sudah naik ke 135
Bahkan pada dataset tertutup dan tidak tersedia di internet pun performa itu tetap bertahan
https://www.trackingai.org/home
4. Emas IMO, vibe coding:
Setahun lalu batas kemampuan coding AI masih di level potongan kode pendek
Sekarang vibe coding, dan kekuatan matematika meluas sampai sains dan teknik
Kesimpulan saya: para pengkritik terlalu terpaku pada kesalahan-kesalahan kecil sehingga kehilangan gambaran besar kemajuan secara keseluruhan
Kegagalan berkurang, keberhasilan meningkat pesat
Pada tes offline, levelnya sekitar 120
Sangat mungkin tipe soal yang mirip Mensa ada dalam data latih, jadi hasil ini cenderung melebih-lebihkan “kecerdasan umum”
Ada sesuatu yang hilang saat beralih dari GPT-4 ke GPT-5
Ia tidak lagi terus-menerus mengingatkan pengguna bahwa dirinya “AI dan bukan manusia (atau pakar)”
Bagi sebagian orang ini mungkin mengganggu, tetapi saya rasa itu ada gunanya sebagai pengaman agar orang tidak terlalu percaya
Sebagai gantinya, GPT-5 sekarang sering mengusulkan prompt baru
Ini juga bisa terasa mengganggu, atau berisiko kalau terlalu dipercaya, tetapi dari sisi pemanfaatan ada potensi manfaatnya
GPT-5 lebih dingin, lebih akurat, dan lebih jarang salah dalam konteks besar
Tidak perlu terus-terusan menegaskan bahwa ia AI, tetapi kalau mau mungkin gaya lama bisa dipulihkan dengan tambahan opsi memori
Konsepnya “yes, and”
Bukan karakter yang sudah dipredefinisi, melainkan karakter baru yang muncul secara alami di tengah percakapan
Jika mau, mungkin juga bisa diatur agar terus berkata “saya AI” seperti asisten bergaya Siri
Referensi video 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
Tetap saja ini asisten, tetapi menurut saya penting bahwa karakternya tidak berangkat dari asumsi terhadap perannya sendiri
Dalam beberapa tahun, hasil yang awalnya omong kosong tingkat rendah yang tidak masuk akal (tidak puitis, tidak halus, dan ya, sampah) berkembang menjadi percakapan yang masuk akal, sampai jawaban yang benar-benar rapi
Ini sangat layak disebut contoh rekayasa teknik hardcore
Terlepas dari perbedaan pendapat saya tentang organisasi itu dan saltman, ini tetap pencapaian yang menakjubkan
Sejak StackOverflow, ini adalah alat wajib saya
Semoga terus ada peningkatan yang lebih baik
Lompatan dari GPT-1 ke GPT-2 benar-benar luar biasa
Selisihnya cuma satu tahun
Davinci tetap luar biasa sampai sulit berkata-kata
Bahkan dalam contoh ini pun performanya masih bertahan
Tetapi GPT-4 tampaknya menjadi terlalu banyak bicara
Dulu rasanya tidak seperti ini, dan bahkan sekarang pun terlihat aneh
OpenAI tampaknya sengaja menghindari menyebut 4o karena ingin menganggapnya sekadar semacam gpt-4+ lalu mengangkat gpt-5
Secara realistis, 4o tetap pencapaian besar
Khususnya Voice mode, belum ada tandingannya
GPT1 dan GPT2 punya semacam kekinian puitis yang tenang, tetapi rasanya itu sudah hilang di text-davinci
Saya juga selalu penasaran apa yang kita hilangkan saat melewati reinforcement learning