- Bersamaan dengan peluncuran GPT-4.5, OpenAI terlebih dahulu merilis system card model tersebut
- Dalam system card awal terdapat frasa "GPT-4.5 is not a frontier model" (GPT-4.5 bukan model paling mutakhir)
- Setelah itu, frasa ini dihapus dari postingan blog resmi dan system card yang diperbarui
- Sepertinya ada seseorang di OpenAI yang merasa frasa itu perlu dimasukkan. Namun, "mengapa OpenAI merilis ini?"
- Kontradiksi utama dari klaim bahwa ini bukan model frontier adalah bahwa GPT-4.5 merupakan model terbesar yang bisa diuji oleh publik saat ini
- Memperbesar model hingga skala ini tidak lagi menghasilkan lompatan yang jelas pada kemampuan yang biasa kita ukur
- Transisi GPT-3.5 → GPT-4 adalah dari cukup (Okay) menjadi bagus (Good)
- Perubahan GPT-4o → GPT-4.5 adalah dari hebat (Great) menjadi sangat hebat (Really Great)
- Karena sangat sulit membedakan model-model terbaru, orang yang berinvestasi pada AI dan mengharapkan kemajuan bisa saja mengira peningkatannya lebih besar daripada kenyataannya
- Ini adalah momen ketika batas ekonomi scaling mulai terlihat jelas, tanpa peningkatan performa besar seperti yang diharapkan
- Anthropic juga mengalami masalah serupa, dan setelah Claude 3.7 dikonfirmasi akan melatih model yang jauh lebih besar
- GPT-4.5 adalah model yang menunjukkan kemajuan bertahap, berbeda dari lompatan inovatif sebelumnya
- Ini menunjukkan bahwa dalam riset AI, sekadar memperluas pretraining tidak lagi menghasilkan inovasi sebesar sebelumnya
- Secara internal, OpenAI tampaknya sudah lama memanfaatkan GPT-4.5, dan kemungkinan besar menggunakannya sebagai dasar untuk melatih model lain (melihat cutdate-nya yang tampak berada di 2023)
Apa yang bagus dari GPT-4.5
- (Ini adalah beberapa perkiraan tentang jumlah parameter GPT-4.5 dan GPT-4o, bukan berdasarkan informasi bocor, jadi margin galatnya besar dan perlu disikapi dengan hati-hati)
- GPT-4.5 adalah model yang sangat besar, dan kemungkinan lebih besar daripada Grok 3
- GPT-4 adalah model mixture-of-experts (MoE) dengan lebih dari 1 triliun (1T) total parameter, dengan parameter aktif diperkirakan sekitar 200B
- Rumor menyebutkan bahwa parameter aktif model seperti GPT-4o atau Gemini Pro mengecil hingga sekitar 60B
- Artinya, model-model terbaru berkembang dengan mengurangi parameter aktif dan mengoptimalkan infrastruktur untuk meningkatkan kecepatan serta biaya
- GPT-4.5 diperkirakan membutuhkan sekitar 10 kali lebih banyak komputasi (10X compute) dibanding GPT-4
- 5 kali lebih banyak parameter + dataset 2 kali lebih besar = peningkatan komputasi 10 kali lipat
- Total parameter bisa mencapai 5-7 triliun (5T-7T), dengan parameter aktif diperkirakan sekitar 600B
- Namun, meski diskalakan sejauh ini, peningkatan performanya tetap sulit terasa secara nyata.
- Mulai dari sini, situasinya menjadi sangat aneh. Ada 2 hal yang ditekankan OpenAI dalam pengumuman kali ini
- Pengurangan halusinasi (Hallucination): mengurangi frekuensi model menghasilkan informasi yang tidak benar
- Peningkatan kecerdasan emosional (Emotional Intelligence): lebih mampu memahami dan mengekspresikan konteks serta emosi
- Namun, keduanya adalah karakteristik yang sulit dievaluasi secara objektif
- Performa benchmark (berdasarkan data dari OpenAI)
- SimpleQA: GPT-4.5 menunjukkan peningkatan performa besar dalam evaluasi pengetahuan dunia model AI
- PersonQA: performa terbaik juga pada evaluasi pertanyaan terkait individu tertentu
- GPQA (Google-proof QA): juga menunjukkan hasil unggul pada metrik evaluasi penalaran logis tanpa pencarian informasi
- Segera setelah rilis, di kalangan pakar AI muncul pendapat bahwa GPT-4.5 lebih nyaman digunakan dan menulis dengan lebih baik
- Namun, dalam evaluasi performa kode dan teknis, model ini dinilai berada di tingkat menengah dibanding model pesaing seperti Claude 3.7, R1, dan lainnya
- Perbandingan gaya menulis (hasil jajak pendapat Karpathy di X/Twitter)
- GPT-4.5 vs. GPT-4o-latest: banyak pengguna justru lebih menyukai gaya menulis GPT-4o-latest
- Alasannya? GPT-4o-latest kemungkinan besar adalah model hasil distilasi (distilled) dari model baru ini yang sebelumnya disebut Orion1, dan karena ukurannya jauh lebih kecil, perbedaan kecepatan iterasinya sangat besar sehingga post-training bisa dilakukan dengan lebih baik
- Semua ini adalah harga yang harus dibayar OpenAI untuk merebut kembali posisi nomor 1 di ranking ChatBotArena
- GPT 4.5 diperkirakan akan mencapainya, tetapi hasilnya masih belum pasti
- Berdasarkan pengalaman penulis yang sudah mencoba langsung lebih dulu, awalnya terasa tidak nyaman karena lambat, tetapi keandalannya tinggi sehingga tetap layak digunakan
- Namun, tidak perlu memilih GPT-4.5 sambil membayar biaya tambahan, karena o1 Pro OpenAI dan layanan berbayar lain menawarkan value for money yang lebih baik
Mengapa harga GPT-4.5 mahal
- Saat GPT-4 dirilis, harganya juga cukup tinggi, dan sebenarnya mirip dengan GPT-4.5
- Harga awal GPT-4.5 adalah sebagai berikut:
- Input: $75.00 / 1M token
- Cached Input: $37.50 / 1M token
- Output: $150.00 / 1M token
- Artinya, model ini dimulai dengan harga yang jauh lebih tinggi dibanding model-model sebelumnya
- Model-model OpenAI sebelumnya juga mahal pada awalnya, tetapi ada contoh penurunan harga yang besar secara bertahap
- GPT-4 (rilis Maret 2023)
- Awalnya dimulai dengan $30 per 1 juta input token, $60 per 1 juta output token
- Versi konteks 32K lebih mahal lagi, yaitu input $60, output $120
- GPT-4 Turbo (rilis November 2023)
- Jauh lebih murah, turun menjadi input $10, output $30
- GPT-4o (rilis Mei 2024)
- Harganya turun lagi menjadi input $2.5, output $10, sehingga lebih dari 10 kali lebih murah dibanding GPT-4
- Dengan demikian, OpenAI menunjukkan pola menurunkan harga secara signifikan setiap kali model baru keluar
- Alasan harga GPT-4.5 saat ini dipatok mahal tampaknya karena masih fase awal peluncuran sehingga margin tinggi dipasang lebih dulu
- OpenAI menyebut tidak menjamin model ini akan tetap tersedia di API, dan akan memutuskannya berdasarkan respons pengguna
- Banyak pakar memperkirakan bahwa ketika GPU generasi berikutnya dari Nvidia, Blackwell, dirilis, biaya akan turun karena model yang lebih besar bisa dijalankan dengan lebih efisien
- Seperti harga yang terus turun dari GPT-4 ke GPT-4 Turbo lalu GPT-4o, besar kemungkinan GPT-4.5 juga akan mengalami penurunan harga di masa depan lewat versi seperti GPT-4.5 Turbo
Masa depan scaling
- Scaling model bahasa masih belum mati
- Namun, meninjau kembali mengapa pengumuman ini terasa begitu aneh sangat penting agar kita tetap tenang dalam melihat laju perkembangan AI
- Kita telah memasuki era ketika ada trade-off antara berbagai jenis scaling
- Singkatnya, "GPT-4.5 itu aneh, tetapi sedang mendahului zamannya"
- GPT-4.5 bukan sekadar perluasan model, melainkan sinyal bahwa pendekatan scaling yang baru dibutuhkan
- Ini berarti perkembangan AI tidak lagi cukup hanya dengan memperbesar ukuran model (Scaling Up), dan harus menempuh pendekatan lain, tetapi sebenarnya kita sudah mengetahui hal ini dari pesatnya kemajuan model penalaran
- Dampak nyata GPT-4.5 akan muncul ketika ia terintegrasi dengan kemajuan cepat di berbagai lini
- Dari makalah R1 DeepSeek dan riset RL lanjutan, muncul kesimpulan bahwa semakin besar model, semakin efektif pelatihan RL
- Ada kemungkinan model o4 OpenAI juga akan dilatih dengan memanfaatkan model penalaran berbasis GPT-4.5
- Model-model OpenAI saat ini mungkin tidak akan sebagus sekarang tanpa GPT-4.5
- Mungkin dalam waktu kurang dari 1 tahun, sebagian besar model akan berkembang hingga skala GPT-4.5, dan kecepatannya pun akan jauh lebih tinggi
- Peningkatan yang lebih seimbang akan membantu membuat lebih banyak aplikasi menjadi lebih kokoh
- OpenAI dan peneliti lain di berbagai AI lab sedang berusaha memperbesar model hingga melampaui batas infrastruktur yang ada
- Jika frontier lab tidak mendorong hingga melewati batas di semua arah scaling, berarti mereka belum mengambil risiko yang cukup
- Modelnya tidak harus dirilis, tetapi tetap perlu berspekulasi mengapa OpenAI benar-benar ingin melakukan ini
- Karena saat ini GPT-4.5 kemungkinan besar dipakai di sistem internal lain dan segera juga di produk eksternal lain, merilis model ini bukan jalan memutar melainkan proses alami menuju tahap berikutnya
- GPT-4.5 adalah model frontier, tetapi perilisannya sendiri tidak terasa mendebarkan
- Perkembangan AI tidak datang secara gratis dan membutuhkan banyak upaya
- Yang penting bukan GPT-4.5 itu sendiri, melainkan nilai sesungguhnya akan terlihat saat model ini digabungkan dengan teknologi lain
2 komentar
Karena banyak benchmark sudah berada pada kondisi jenuh, menurut saya wajar jika arahnya berfokus pada kegunaan atau halusinasi.
Opini Hacker News
GPT 4.5 juga memiliki knowledge cutoff hingga Oktober 2023
Model penalaran OpenAI mungkin tidak sekuat yang diharapkan
Harganya agak misterius
Lompatan dari GPT-4o ke 4.5 bukanlah lompatan besar
GPT-4.5 dapat memproses pemikiran yang kompleks dan bernuansa dengan sangat cepat
GPT-4.5 tetap berpijak pada kenyataan dan tidak melenceng ke arah aneh
Dalam jangka panjang, monetisasi infrastruktur bisa jadi sulit
GPT-4.5 sedikit lebih baik untuk "penulisan kreatif"
Tampaknya kita sedang mencapai batas teknologi
Ada pendapat bahwa dua kalimat ini bukankah saling bertentangan
Diragukan apakah benar ada orang yang melihat persentase terakhir pada benchmark
Semua model GPT4o di Azure dijadwalkan dihentikan pada bulan Mei