GPT-4.5: "Bukan model frontier"?

(interconnects.ai)

2 poin oleh GN⁺ 2025-03-03 | 2 komentar | Bagikan ke WhatsApp

Bersamaan dengan peluncuran GPT-4.5, OpenAI terlebih dahulu merilis system card model tersebut
Dalam system card awal terdapat frasa "GPT-4.5 is not a frontier model" (GPT-4.5 bukan model paling mutakhir)
- Setelah itu, frasa ini dihapus dari postingan blog resmi dan system card yang diperbarui
Sepertinya ada seseorang di OpenAI yang merasa frasa itu perlu dimasukkan. Namun, "mengapa OpenAI merilis ini?"
Kontradiksi utama dari klaim bahwa ini bukan model frontier adalah bahwa GPT-4.5 merupakan model terbesar yang bisa diuji oleh publik saat ini
- Memperbesar model hingga skala ini tidak lagi menghasilkan lompatan yang jelas pada kemampuan yang biasa kita ukur
- Transisi GPT-3.5 → GPT-4 adalah dari cukup (Okay) menjadi bagus (Good)
- Perubahan GPT-4o → GPT-4.5 adalah dari hebat (Great) menjadi sangat hebat (Really Great)
Karena sangat sulit membedakan model-model terbaru, orang yang berinvestasi pada AI dan mengharapkan kemajuan bisa saja mengira peningkatannya lebih besar daripada kenyataannya
Ini adalah momen ketika batas ekonomi scaling mulai terlihat jelas, tanpa peningkatan performa besar seperti yang diharapkan
- Anthropic juga mengalami masalah serupa, dan setelah Claude 3.7 dikonfirmasi akan melatih model yang jauh lebih besar
GPT-4.5 adalah model yang menunjukkan kemajuan bertahap, berbeda dari lompatan inovatif sebelumnya
- Ini menunjukkan bahwa dalam riset AI, sekadar memperluas pretraining tidak lagi menghasilkan inovasi sebesar sebelumnya
- Secara internal, OpenAI tampaknya sudah lama memanfaatkan GPT-4.5, dan kemungkinan besar menggunakannya sebagai dasar untuk melatih model lain (melihat cutdate-nya yang tampak berada di 2023)

Apa yang bagus dari GPT-4.5

(Ini adalah beberapa perkiraan tentang jumlah parameter GPT-4.5 dan GPT-4o, bukan berdasarkan informasi bocor, jadi margin galatnya besar dan perlu disikapi dengan hati-hati)
GPT-4.5 adalah model yang sangat besar, dan kemungkinan lebih besar daripada Grok 3
- GPT-4 adalah model mixture-of-experts (MoE) dengan lebih dari 1 triliun (1T) total parameter, dengan parameter aktif diperkirakan sekitar 200B
- Rumor menyebutkan bahwa parameter aktif model seperti GPT-4o atau Gemini Pro mengecil hingga sekitar 60B
- Artinya, model-model terbaru berkembang dengan mengurangi parameter aktif dan mengoptimalkan infrastruktur untuk meningkatkan kecepatan serta biaya
GPT-4.5 diperkirakan membutuhkan sekitar 10 kali lebih banyak komputasi (10X compute) dibanding GPT-4
- 5 kali lebih banyak parameter + dataset 2 kali lebih besar = peningkatan komputasi 10 kali lipat
- Total parameter bisa mencapai 5-7 triliun (5T-7T), dengan parameter aktif diperkirakan sekitar 600B
Namun, meski diskalakan sejauh ini, peningkatan performanya tetap sulit terasa secara nyata.
Mulai dari sini, situasinya menjadi sangat aneh. Ada 2 hal yang ditekankan OpenAI dalam pengumuman kali ini
- Pengurangan halusinasi (Hallucination): mengurangi frekuensi model menghasilkan informasi yang tidak benar
- Peningkatan kecerdasan emosional (Emotional Intelligence): lebih mampu memahami dan mengekspresikan konteks serta emosi
- Namun, keduanya adalah karakteristik yang sulit dievaluasi secara objektif
Performa benchmark (berdasarkan data dari OpenAI)
- SimpleQA: GPT-4.5 menunjukkan peningkatan performa besar dalam evaluasi pengetahuan dunia model AI
- PersonQA: performa terbaik juga pada evaluasi pertanyaan terkait individu tertentu
- GPQA (Google-proof QA): juga menunjukkan hasil unggul pada metrik evaluasi penalaran logis tanpa pencarian informasi
Segera setelah rilis, di kalangan pakar AI muncul pendapat bahwa GPT-4.5 lebih nyaman digunakan dan menulis dengan lebih baik
- Namun, dalam evaluasi performa kode dan teknis, model ini dinilai berada di tingkat menengah dibanding model pesaing seperti Claude 3.7, R1, dan lainnya
Perbandingan gaya menulis (hasil jajak pendapat Karpathy di X/Twitter)
- GPT-4.5 vs. GPT-4o-latest: banyak pengguna justru lebih menyukai gaya menulis GPT-4o-latest
- Alasannya? GPT-4o-latest kemungkinan besar adalah model hasil distilasi (distilled) dari model baru ini yang sebelumnya disebut Orion1, dan karena ukurannya jauh lebih kecil, perbedaan kecepatan iterasinya sangat besar sehingga post-training bisa dilakukan dengan lebih baik
Semua ini adalah harga yang harus dibayar OpenAI untuk merebut kembali posisi nomor 1 di ranking ChatBotArena
- GPT 4.5 diperkirakan akan mencapainya, tetapi hasilnya masih belum pasti
Berdasarkan pengalaman penulis yang sudah mencoba langsung lebih dulu, awalnya terasa tidak nyaman karena lambat, tetapi keandalannya tinggi sehingga tetap layak digunakan
- Namun, tidak perlu memilih GPT-4.5 sambil membayar biaya tambahan, karena o1 Pro OpenAI dan layanan berbayar lain menawarkan value for money yang lebih baik

Mengapa harga GPT-4.5 mahal

Saat GPT-4 dirilis, harganya juga cukup tinggi, dan sebenarnya mirip dengan GPT-4.5
Harga awal GPT-4.5 adalah sebagai berikut:
- Input: $75.00 / 1M token
- Cached Input: $37.50 / 1M token
- Output: $150.00 / 1M token
- Artinya, model ini dimulai dengan harga yang jauh lebih tinggi dibanding model-model sebelumnya
Model-model OpenAI sebelumnya juga mahal pada awalnya, tetapi ada contoh penurunan harga yang besar secara bertahap
- GPT-4 (rilis Maret 2023)
  - Awalnya dimulai dengan $30 per 1 juta input token, $60 per 1 juta output token
  - Versi konteks 32K lebih mahal lagi, yaitu input $60, output $120
- GPT-4 Turbo (rilis November 2023)
  - Jauh lebih murah, turun menjadi input $10, output $30
- GPT-4o (rilis Mei 2024)
  - Harganya turun lagi menjadi input $2.5, output $10, sehingga lebih dari 10 kali lebih murah dibanding GPT-4
- Dengan demikian, OpenAI menunjukkan pola menurunkan harga secara signifikan setiap kali model baru keluar
Alasan harga GPT-4.5 saat ini dipatok mahal tampaknya karena masih fase awal peluncuran sehingga margin tinggi dipasang lebih dulu
- OpenAI menyebut tidak menjamin model ini akan tetap tersedia di API, dan akan memutuskannya berdasarkan respons pengguna
Banyak pakar memperkirakan bahwa ketika GPU generasi berikutnya dari Nvidia, Blackwell, dirilis, biaya akan turun karena model yang lebih besar bisa dijalankan dengan lebih efisien
Seperti harga yang terus turun dari GPT-4 ke GPT-4 Turbo lalu GPT-4o, besar kemungkinan GPT-4.5 juga akan mengalami penurunan harga di masa depan lewat versi seperti GPT-4.5 Turbo

Masa depan scaling

Scaling model bahasa masih belum mati
- Namun, meninjau kembali mengapa pengumuman ini terasa begitu aneh sangat penting agar kita tetap tenang dalam melihat laju perkembangan AI
- Kita telah memasuki era ketika ada trade-off antara berbagai jenis scaling
Singkatnya, "GPT-4.5 itu aneh, tetapi sedang mendahului zamannya"
- GPT-4.5 bukan sekadar perluasan model, melainkan sinyal bahwa pendekatan scaling yang baru dibutuhkan
- Ini berarti perkembangan AI tidak lagi cukup hanya dengan memperbesar ukuran model (Scaling Up), dan harus menempuh pendekatan lain, tetapi sebenarnya kita sudah mengetahui hal ini dari pesatnya kemajuan model penalaran
- Dampak nyata GPT-4.5 akan muncul ketika ia terintegrasi dengan kemajuan cepat di berbagai lini
Dari makalah R1 DeepSeek dan riset RL lanjutan, muncul kesimpulan bahwa semakin besar model, semakin efektif pelatihan RL
- Ada kemungkinan model o4 OpenAI juga akan dilatih dengan memanfaatkan model penalaran berbasis GPT-4.5
- Model-model OpenAI saat ini mungkin tidak akan sebagus sekarang tanpa GPT-4.5
Mungkin dalam waktu kurang dari 1 tahun, sebagian besar model akan berkembang hingga skala GPT-4.5, dan kecepatannya pun akan jauh lebih tinggi
- Peningkatan yang lebih seimbang akan membantu membuat lebih banyak aplikasi menjadi lebih kokoh
- OpenAI dan peneliti lain di berbagai AI lab sedang berusaha memperbesar model hingga melampaui batas infrastruktur yang ada
Jika frontier lab tidak mendorong hingga melewati batas di semua arah scaling, berarti mereka belum mengambil risiko yang cukup
- Modelnya tidak harus dirilis, tetapi tetap perlu berspekulasi mengapa OpenAI benar-benar ingin melakukan ini
- Karena saat ini GPT-4.5 kemungkinan besar dipakai di sistem internal lain dan segera juga di produk eksternal lain, merilis model ini bukan jalan memutar melainkan proses alami menuju tahap berikutnya
GPT-4.5 adalah model frontier, tetapi perilisannya sendiri tidak terasa mendebarkan
- Perkembangan AI tidak datang secara gratis dan membutuhkan banyak upaya
- Yang penting bukan GPT-4.5 itu sendiri, melainkan nilai sesungguhnya akan terlihat saat model ini digabungkan dengan teknologi lain

2 komentar

doolayer 2025-03-03

Karena banyak benchmark sudah berada pada kondisi jenuh, menurut saya wajar jika arahnya berfokus pada kegunaan atau halusinasi.

GN⁺ 2025-03-03

Opini Hacker News

GPT 4.5 juga memiliki knowledge cutoff hingga Oktober 2023
- Model ini kemungkinan telah menyelesaikan pra-pelatihan setidaknya 1 tahun lalu
- OpenAI mungkin berfokus pada proyek lain seperti Q-star/strawberry
Model penalaran OpenAI mungkin tidak sekuat yang diharapkan
- Model non-penalaran yang kuat seperti Gemini 2.0 Flash, Grok 3, dan Sonnet 3.7 telah muncul
- OpenAI mungkin merasa perlu merilis sesuatu secara tampak luar
Harganya agak misterius
- Ini bisa mencerminkan model lama tanpa trik efisiensi terbaru
- GPT-4.5 bisa jadi merupakan cara OpenAI mengetahui seberapa besar biaya yang bersedia dibayar orang
Lompatan dari GPT-4o ke 4.5 bukanlah lompatan besar
- Dihargai seperti barang mewah, tetapi tanpa imbalan yang mewah
GPT-4.5 dapat memproses pemikiran yang kompleks dan bernuansa dengan sangat cepat
- Jauh lebih unggul dibanding AI lain
GPT-4.5 tetap berpijak pada kenyataan dan tidak melenceng ke arah aneh
- Merespons preferensi nada dengan baik dan memahami perbedaan halus dengan baik
Dalam jangka panjang, monetisasi infrastruktur bisa jadi sulit
- API coding kemungkinan akan lebih banyak menggunakan Claude 3.5/3.7
- API non-coding, Gemini 2.0 Flash lebih murah dan berkinerja lebih baik
- Aplikasi berlangganan, ChatGPT masih yang terbaik, tetapi Grok sedang bersaing
GPT-4.5 sedikit lebih baik untuk "penulisan kreatif"
- Anthropic merilis model baru yang memecahkan masalah yang lebih praktis
Tampaknya kita sedang mencapai batas teknologi
Ada pendapat bahwa dua kalimat ini bukankah saling bertentangan
- Meski ukuran model diperbesar, tidak ada peningkatan kemampuan yang jelas
- Lompatan dari GPT-4o ke GPT-4.5 membuat model ini hebat
Diragukan apakah benar ada orang yang melihat persentase terakhir pada benchmark
- Bisa jadi keliru jika menganggap benchmark 100% akurat
Semua model GPT4o di Azure dijadwalkan dihentikan pada bulan Mei
- Sedang mempertimbangkan apakah perlu pindah ke Anthropic
- Perlu informasi tentang waktu peluncuran model "o" yang baru