Semua yang Diumumkan OpenAI di DevDay

xguru · 2024-10-03T10:20:02+09:00

Pengumuman utama Realtime API yang memungkinkan pengembang mengimplementasikan fitur serupa mode suara lanjutan ChatGPT Batas rate model o1 dinaikkan agar setara dengan GPT-4o (10.000 kali per menit) Harga API GPT-4o diturunkan lewat prompt caching otomatis. Untuk panggilan berulang, 50% lebih murah tanpa pengembangan tambahan API fine-tuning multimodal Jumlah aplikasi yang aktif di platform OpenAI meningkat 3 kali lipat dari tahun lalu hingga tahun ini, dan jumlah pengembang aktif mencapai 3 juta orang Gambaran umum model o1 OpenAI telah meluncurkan o1, model penalaran baru o1 diklasifikasikan sebagai keluarga model baru yang berbeda dari GPT-4o yang ada sebelumnya OpenAI memandang bahwa mengembangkan beberapa model untuk berbagai use case akan menjadi arah masa depan o1 unggul dalam kemampuan berpikir berbentuk chain-of-thought sehingga cocok untuk tugas pemrograman, tetapi lebih lambat dan lebih mahal Karena sebagian besar prompt tidak memerlukan kemampuan penalaran tingkat lanjut dari o1, o1 tidak akan menjadi model default Romain Huet, kepala developer relations OpenAI, memperagakan penggunaan o1 untuk membuat aplikasi iPhone dari awal sampai akhir hanya dengan satu prompt dalam 30 detik Ia juga membawa drone ke panggung, membuat aplikasi web, lalu memperagakan pengendalian drone di depan penonton Demonstrasi seperti ini mungkin juga bisa dilakukan dengan model GPT sebelumnya, tetapi dengan o1 proses pembuatannya jauh lebih cepat o1 menunjukkan masa depan di mana aplikasi bisa dibuat dari ide menjadi aplikasi dalam 1–2 menit API real-time percakapan suara Fitur paling mengesankan yang diluncurkan OpenAI adalah Realtime API, yang memungkinkan pengembang mengimplementasikan fitur serupa mode suara lanjutan ChatGPT di aplikasi mereka sendiri Pengembang dapat mengirim audio rekaman ke server OpenAI dan menerima respons audio yang direkam, transkrip, serta function calling secara real-time Realtime API dirilis mulai hari ini dalam beta publik, dan ke depannya akan mendukung lebih banyak format seperti video Realtime API dikenai biaya 0,06 dolar per menit untuk input audio dan 0,24 dolar per menit untuk output audio, total 0,15 dolar (dengan asumsi input dan output audio sama) Ini lebih mahal daripada layanan speech-to-speech ElevenLabs yang sekitar 0,11 dolar per menit, tetapi biayanya tidak dibayar berdasarkan pemakaian; pengguna harus membeli sejumlah waktu tetap per bulan Suara real-time membuka banyak use case baru seperti asisten membaca yang lebih baik dan pembelajaran bahasa yang lebih imersif Alat fine-tuning OpenAI secara serius menerima gagasan bahwa menggunakan beberapa model lebih baik daripada menggunakan satu model besar OpenAI mendukung perusahaan untuk membuat versi kustom GPT-4o yang sesuai dengan use case mereka OpenAI membayangkan masa depan di mana setiap perusahaan memiliki model hasil fine-tuning yang dapat mengakses data mereka sendiri API fine-tuning gambar Siapa pun dapat melakukan fine-tuning GPT-4o menggunakan data gambar miliknya sendiri Misalnya, jika Anda bekerja di bidang medis dan ingin melakukan fine-tuning kemampuan GPT-4o untuk membaca serta memberi label pada MRI, Anda dapat menggunakan API ini Alat distilasi model OpenAI merilis dua alat agar proses distilasi model—yakni membuat versi model fondasi yang lebih kecil, lebih cepat, dan lebih murah untuk use case tertentu—bisa dilakukan dengan lebih baik OpenAI mempermudah distilasi dengan menambahkan fitur di Developer Playground untuk merekam interaksi API sebelumnya dan menggunakannya sebagai data untuk fine-tuning OpenAI juga menambahkan alat Evals ke Playground agar pengembang dapat mengevaluasi kinerja model hasil fine-tuning Prompt caching memangkas biaya panggilan API berulang hingga 50% OpenAI meluncurkan fitur prompt caching baru yang mendeteksi panggilan API berulang dan mengembalikan respons yang telah dibuat sebelumnya Fitur ini mulai bekerja otomatis hari ini, dan dapat memangkas biaya banyak panggilan API hingga 50% tanpa pekerjaan tambahan dari pengembang Fitur ini merupakan kelanjutan dari tren persaingan OpenAI untuk membuat biaya penggunaan API semakin murah Ini kabar baik bagi pengembang, tetapi juga menciptakan dinamika yang menarik dengan Microsoft, mitra terbesar OpenAI Microsoft telah menekan perusahaan besar agar melakukan pembelian prabayar panggilan API GPT-4 dalam jumlah tertentu untuk menjamin kapasitas Menjadi menarik untuk melihat bagaimana Microsoft dan para pelanggan yang sudah membuat komitmen pembelian akan memandang penurunan harga ini Strategi OpenAI 1. Fokus pada pengembangan beberapa model untuk berbagai use case OpenAI percaya bahwa aplikasi yang paling efektif adalah yang menggunakan beberapa model bersama-sama, bukan satu model untuk menangani semuanya Pengembang dapat menggunakan model yang kuat dalam penalaran seperti o1 bersama model yang unggul dalam konteks panjang atau pemrosesan prompt gambar seperti GPT-4o untuk memberikan pengalaman yang konsisten kepada pengguna 2. o1 adalah langkah penting menuju agen yang dapat bekerja secara mandiri Agen telah lama menjadi salah satu aplikasi AI yang paling menarik, tetapi model GPT sebelumnya cenderung tidak bekerja dengan baik ketika mencoba menyelesaikan tugas sendiri o1 diharapkan memainkan peran kunci dalam menciptakan agen yang benar-benar otonom berkat kemampuannya merefleksikan proses berpikirnya sendiri dan merencanakan langkah berikutnya 3. Teknologi untuk membantu pengembang menciptakan pengalaman luar biasa bagi pengguna kini sangat melimpah Mudah untuk lupa bahwa hanya beberapa tahun lalu, tidak satu pun dari hal-hal yang didemonstrasikan hari ini mungkin dilakukan atau bahkan dianggap relevan Saat ini, bahkan satu pengembang yang membuat aplikasi di waktu luangnya pun dapat melakukan hal-hal yang sebelumnya bahkan tidak bisa dilakukan oleh seluruh tim pengembang

(every.to)

12 poin oleh xguru 2024-10-03 | Belum ada komentar. | Bagikan ke WhatsApp

Pengumuman utama

Realtime API yang memungkinkan pengembang mengimplementasikan fitur serupa mode suara lanjutan ChatGPT
Batas rate model o1 dinaikkan agar setara dengan GPT-4o (10.000 kali per menit)
Harga API GPT-4o diturunkan lewat prompt caching otomatis. Untuk panggilan berulang, 50% lebih murah tanpa pengembangan tambahan
API fine-tuning multimodal
Jumlah aplikasi yang aktif di platform OpenAI meningkat 3 kali lipat dari tahun lalu hingga tahun ini, dan jumlah pengembang aktif mencapai 3 juta orang

Gambaran umum model o1

OpenAI telah meluncurkan o1, model penalaran baru
o1 diklasifikasikan sebagai keluarga model baru yang berbeda dari GPT-4o yang ada sebelumnya
OpenAI memandang bahwa mengembangkan beberapa model untuk berbagai use case akan menjadi arah masa depan
o1 unggul dalam kemampuan berpikir berbentuk chain-of-thought sehingga cocok untuk tugas pemrograman, tetapi lebih lambat dan lebih mahal
Karena sebagian besar prompt tidak memerlukan kemampuan penalaran tingkat lanjut dari o1, o1 tidak akan menjadi model default
Romain Huet, kepala developer relations OpenAI, memperagakan penggunaan o1 untuk membuat aplikasi iPhone dari awal sampai akhir hanya dengan satu prompt dalam 30 detik
Ia juga membawa drone ke panggung, membuat aplikasi web, lalu memperagakan pengendalian drone di depan penonton
Demonstrasi seperti ini mungkin juga bisa dilakukan dengan model GPT sebelumnya, tetapi dengan o1 proses pembuatannya jauh lebih cepat
o1 menunjukkan masa depan di mana aplikasi bisa dibuat dari ide menjadi aplikasi dalam 1–2 menit

API real-time percakapan suara

Fitur paling mengesankan yang diluncurkan OpenAI adalah Realtime API, yang memungkinkan pengembang mengimplementasikan fitur serupa mode suara lanjutan ChatGPT di aplikasi mereka sendiri
Pengembang dapat mengirim audio rekaman ke server OpenAI dan menerima respons audio yang direkam, transkrip, serta function calling secara real-time
Realtime API dirilis mulai hari ini dalam beta publik, dan ke depannya akan mendukung lebih banyak format seperti video
Realtime API dikenai biaya 0,06 dolar per menit untuk input audio dan 0,24 dolar per menit untuk output audio, total 0,15 dolar (dengan asumsi input dan output audio sama)
Ini lebih mahal daripada layanan speech-to-speech ElevenLabs yang sekitar 0,11 dolar per menit, tetapi biayanya tidak dibayar berdasarkan pemakaian; pengguna harus membeli sejumlah waktu tetap per bulan
Suara real-time membuka banyak use case baru seperti asisten membaca yang lebih baik dan pembelajaran bahasa yang lebih imersif

Alat fine-tuning

OpenAI secara serius menerima gagasan bahwa menggunakan beberapa model lebih baik daripada menggunakan satu model besar
OpenAI mendukung perusahaan untuk membuat versi kustom GPT-4o yang sesuai dengan use case mereka
OpenAI membayangkan masa depan di mana setiap perusahaan memiliki model hasil fine-tuning yang dapat mengakses data mereka sendiri

API fine-tuning gambar

Siapa pun dapat melakukan fine-tuning GPT-4o menggunakan data gambar miliknya sendiri
Misalnya, jika Anda bekerja di bidang medis dan ingin melakukan fine-tuning kemampuan GPT-4o untuk membaca serta memberi label pada MRI, Anda dapat menggunakan API ini

Alat distilasi model

OpenAI merilis dua alat agar proses distilasi model—yakni membuat versi model fondasi yang lebih kecil, lebih cepat, dan lebih murah untuk use case tertentu—bisa dilakukan dengan lebih baik
OpenAI mempermudah distilasi dengan menambahkan fitur di Developer Playground untuk merekam interaksi API sebelumnya dan menggunakannya sebagai data untuk fine-tuning
OpenAI juga menambahkan alat Evals ke Playground agar pengembang dapat mengevaluasi kinerja model hasil fine-tuning

Prompt caching memangkas biaya panggilan API berulang hingga 50%

OpenAI meluncurkan fitur prompt caching baru yang mendeteksi panggilan API berulang dan mengembalikan respons yang telah dibuat sebelumnya
Fitur ini mulai bekerja otomatis hari ini, dan dapat memangkas biaya banyak panggilan API hingga 50% tanpa pekerjaan tambahan dari pengembang
Fitur ini merupakan kelanjutan dari tren persaingan OpenAI untuk membuat biaya penggunaan API semakin murah
Ini kabar baik bagi pengembang, tetapi juga menciptakan dinamika yang menarik dengan Microsoft, mitra terbesar OpenAI
Microsoft telah menekan perusahaan besar agar melakukan pembelian prabayar panggilan API GPT-4 dalam jumlah tertentu untuk menjamin kapasitas
Menjadi menarik untuk melihat bagaimana Microsoft dan para pelanggan yang sudah membuat komitmen pembelian akan memandang penurunan harga ini

Strategi OpenAI

1. Fokus pada pengembangan beberapa model untuk berbagai use case

OpenAI percaya bahwa aplikasi yang paling efektif adalah yang menggunakan beberapa model bersama-sama, bukan satu model untuk menangani semuanya
Pengembang dapat menggunakan model yang kuat dalam penalaran seperti o1 bersama model yang unggul dalam konteks panjang atau pemrosesan prompt gambar seperti GPT-4o untuk memberikan pengalaman yang konsisten kepada pengguna

2. o1 adalah langkah penting menuju agen yang dapat bekerja secara mandiri

Agen telah lama menjadi salah satu aplikasi AI yang paling menarik, tetapi model GPT sebelumnya cenderung tidak bekerja dengan baik ketika mencoba menyelesaikan tugas sendiri
o1 diharapkan memainkan peran kunci dalam menciptakan agen yang benar-benar otonom berkat kemampuannya merefleksikan proses berpikirnya sendiri dan merencanakan langkah berikutnya

3. Teknologi untuk membantu pengembang menciptakan pengalaman luar biasa bagi pengguna kini sangat melimpah

Mudah untuk lupa bahwa hanya beberapa tahun lalu, tidak satu pun dari hal-hal yang didemonstrasikan hari ini mungkin dilakukan atau bahkan dianggap relevan
Saat ini, bahkan satu pengembang yang membuat aplikasi di waktu luangnya pun dapat melakukan hal-hal yang sebelumnya bahkan tidak bisa dilakukan oleh seluruh tim pengembang