OpenAI memperkenalkan GPT-4o, model AI multimodal dengan kemampuan teks, audio, dan gambar
(openai.com)• Model AI terobosan yang dapat memproses dan menghasilkan teks, audio, dan gambar secara bersamaan
• Dengan waktu respons real-time yang sebanding dengan percakapan manusia, GPT-4o menetapkan standar baru untuk interaksi manusia-komputer yang alami
• Di API, lebih cepat dan lebih efisien biaya, sekaligus melampaui performa GPT-4 Turbo pada teks dan kode, terutama dalam bahasa non-Inggris
• Melalui kemampuan multimodal GPT-4o, model ini dapat memahami masukan audio dan meresponsnya, menghasilkan keluaran audio, serta berpartisipasi dalam percakapan real-time
• Model ini menunjukkan penalaran yang lebih baik, kemahiran multibahasa, pemahaman audio dan visual, serta persepsi visual
• OpenAI menekankan langkah-langkah keamanan yang diterapkan dalam desain dan pelatihan pasca-peluncuran GPT-4o untuk mengurangi potensi risiko
• Rilis awal mencakup masukan teks dan gambar serta keluaran teks, sementara kemampuan audio dan video akan tersedia bagi mitra tepercaya API di masa mendatang
5 komentar
Kecepatannya benar-benar terasa jauh lebih cepat.
Jika bertanya dalam bahasa Korea,
performa model itu sendiri 2x * 1,7 (peningkatan token bahasa Korea) = menjadi 3,4x lebih cepat
Huruf O pada 4O berarti Omni.
Pembaruan terbaru ChatGPT: model GPT-4o dan akses pengguna yang ditingkatkan
ChatGPT berfokus untuk memungkinkan siapa pun menggunakan alat AI canggih secara gratis. Peluncuran versi desktop dan model flagship baru, GPT-4o, bertujuan meningkatkan kealamian dan kemudahan penggunaan bagi pengguna. GPT-4o akan menghadirkan kemampuan yang lebih cepat dan lebih baik di teks, visual, dan audio, sehingga menjadi kemajuan penting dalam kolaborasi antara manusia dan mesin.
Perluasan ChatGPT melalui GPT-4o
Kini kami menghadirkan GPT-4o untuk semua pengguna, dengan kemampuan penalaran suara, teks, dan visual. Fitur baru mencakup suara percakapan real-time, memori, pencarian informasi real-time, dan analisis data lanjutan. GPT-4o tersedia dalam 50 bahasa, dengan peningkatan kualitas dan kecepatan, serta batas kapasitas yang lebih tinggi bagi pengguna berbayar.
Fitur real-time dan responsif baru di ChatGPT
Fitur baru ChatGPT menghadirkan responsivitas real-time dan kemampuan untuk memahami emosi pengguna. Model ini dapat menghasilkan suara dalam berbagai gaya seperti suara dramatis, suara robot, dan suara bernyanyi. Selain itu, ChatGPT kini mendukung tugas visual dan dapat berinteraksi dengan pengguna dalam lingkungan demo langsung.
Menyelesaikan persamaan linear: langkah demi langkah
Barrett Zoph dan ChatGPT menyelesaikan persamaan 3X + 1 = 4 dengan terlebih dahulu memisahkan suku X lalu mencari nilai X, kemudian membahas penerapan nyata persamaan linear dalam kehidupan sehari-hari seperti biaya, rencana perjalanan, dan perhitungan bisnis. Hal ini memberi kepercayaan diri baru dalam memahami matematika dan menggunakannya untuk masalah nyata.
Menganalisis data cuaca dengan ChatGPT
ChatGPT membantu menganalisis data cuaca dengan menjelaskan fungsi kode dan menafsirkan output plot. Fungsi 'Fu' sangat penting untuk menghaluskan data suhu dan mengurangi noise pada plot. Plot tersebut menampilkan rata-rata, suhu terendah, dan suhu tertinggi yang dihaluskan sepanjang 2018, beserta anotasi penting tentang peristiwa hujan besar yang terjadi pada akhir September.
Interaksi multibahasa dan teknologi AI
Teknologi AI menampilkan kemampuan interaksi multibahasa dan interpretasi emosi melalui demo langsung. Demo ini menekankan tujuan agar pengguna dapat mengakses teknologi ini dengan lebih mudah dalam waktu dekat. Presentasi ini juga mengapresiasi tim yang berkontribusi pada kemajuan teknologi dan mengakui pencapaian mereka.
Corely, ringkasan inti video YouTube dalam 10 detik! - https://corely.ai/content/openai-spring-update-2022
Introducing GPT-4o
Bagian demo percakapan real-time di video pengenalan itu benar-benar mengejutkan. Mulai sekitar menit 9:45 (tautan di atas juga sudah diarahkan ke bagian itu)
Sekarang jadi mudah untuk menyela di tengah jawaban, responsnya juga nyaris real-time, dan intonasinya pun jadi jauh lebih kaya.