ChatGPT kini dapat melihat, mendengar, dan berbicara

kuroneko · 2023-09-26T10:09:40+09:00

Fitur suara dan gambar baru telah diluncurkan untuk ChatGPT. Kini dimungkinkan untuk bercakap-cakap secara alami melalui suara dan mengajukan pertanyaan dengan melampirkan gambar. Suara diubah menjadi teks melalui Whisper, dan jawaban diubah menjadi suara pengisi profesional berdasarkan model TTS baru. Model TTS baru ini dapat mereproduksi suara seseorang secara persis hanya dengan sampel suara berdurasi beberapa detik. Model ini juga digunakan untuk fitur terjemahan podcast Spotify, yang menerjemahkan ke berbagai bahasa sambil tetap menggunakan suara podcaster tersebut. Beberapa gambar dapat dilampirkan sekaligus, dan sistem dapat mengenali secara rinci tidak hanya teks dalam gambar, tetapi juga objek. Pengguna dapat menanyakan cara menggunakan alat atau perangkat, atau berdiskusi tentang resep berdasarkan bahan makanan di dalam kulkas. Selain itu, kini juga dimungkinkan untuk menganalisis grafik atau menyelesaikan soal matematika. Di aplikasi seluler, pengguna dapat menggunakan alat gambar agar sistem berfokus pada bagian tertentu dari gambar. Demi keamanan dan perlindungan privasi, kemampuan untuk menganalisis atau membicarakan orang sangat dibatasi. Fitur ini akan lebih dulu tersedia bagi pengguna Plus dan Enterprise dalam dua minggu ke depan. Fitur suara hanya berfungsi di iOS dan Android, sedangkan fitur lampiran gambar dapat digunakan di semua platform.

(openai.com)

22 poin oleh kuroneko 2023-09-26 | 4 komentar | Bagikan ke WhatsApp

Fitur suara dan gambar baru telah diluncurkan untuk ChatGPT.
Kini dimungkinkan untuk bercakap-cakap secara alami melalui suara dan mengajukan pertanyaan dengan melampirkan gambar.
Suara diubah menjadi teks melalui Whisper, dan jawaban diubah menjadi suara pengisi profesional berdasarkan model TTS baru.
- Model TTS baru ini dapat mereproduksi suara seseorang secara persis hanya dengan sampel suara berdurasi beberapa detik.
- Model ini juga digunakan untuk fitur terjemahan podcast Spotify, yang menerjemahkan ke berbagai bahasa sambil tetap menggunakan suara podcaster tersebut.
Beberapa gambar dapat dilampirkan sekaligus, dan sistem dapat mengenali secara rinci tidak hanya teks dalam gambar, tetapi juga objek.
- Pengguna dapat menanyakan cara menggunakan alat atau perangkat, atau berdiskusi tentang resep berdasarkan bahan makanan di dalam kulkas.
- Selain itu, kini juga dimungkinkan untuk menganalisis grafik atau menyelesaikan soal matematika.
- Di aplikasi seluler, pengguna dapat menggunakan alat gambar agar sistem berfokus pada bagian tertentu dari gambar.
- Demi keamanan dan perlindungan privasi, kemampuan untuk menganalisis atau membicarakan orang sangat dibatasi.
Fitur ini akan lebih dulu tersedia bagi pengguna Plus dan Enterprise dalam dua minggu ke depan.
Fitur suara hanya berfungsi di iOS dan Android, sedangkan fitur lampiran gambar dapat digunakan di semua platform.

4 komentar

alstjr7375 2023-09-26

Skynet is coming...

ciber27 2023-09-26

Sepertinya OS seperti di film her akan menjadi mungkin.

kuroneko 2023-09-26

Saat GPT-4 pertama kali dirilis sempat muncul sebentar, tapi tetap saja sangat menakjubkan bahwa ini bukan sekadar mengenali gambar, melainkan memahaminya.

Di contohnya ada bagian yang menanyakan cara menyesuaikan sadel sepeda,
dan ini terlihat bukan sekadar pengenalan gambar, melainkan seperti melihat buku petunjuk lalu mencarikan alat yang sesuai...

Awalnya saya pikir perlu langganan Plus, tapi kalau begini ceritanya jadi agak berbeda ya... jadi makin penasaran.

kuroneko 2023-09-26

Ringkasan AI dari thread HN

modeless: percaya bahwa latensi saat ini adalah masalah terbesar bagi asisten suara, dan bahwa membangun model turn-taking percakapan suara akan memungkinkan percakapan yang lebih alami.
TheEzEzz: telah membangun sistem perintah suara berlatensi rendah menggunakan Llama dan alat lainnya yang mendekati percakapan alami. Ia berpikir bahwa riset berkelanjutan di bidang ini dapat menghasilkan aplikasi baru.
cyrux004: mempertanyakan apakah model yang berjalan secara lokal dapat mencapai performa yang sama dengan model berbasis cloud, terutama untuk sistem yang kompleks.
TheEzEzz: setuju bahwa itu bergantung pada aplikasinya, dan memperkirakan pendekatan hibrida akan menjadi umum, di mana model lokal menangani pemrosesan awal dan hanya meminta model cloud besar saat diperlukan.
simian1983: bertanya apa yang akan terjadi jika sistem menerima permintaan yang tidak bermakna atau berbahaya.
TheEzEzz: menjawab bahwa sistem dilatih untuk mengabaikan kalimat yang tidak relevan agar kebisingan latar belakang tidak mengganggu permintaan.
furyofantares: menekankan pentingnya kemampuan untuk menyela respons asisten suara, seperti saat berbicara dengan manusia.
dotancohen: menyarankan bahwa interupsi mungkin merupakan sinyal sisi kemanusiaan yang belum dikuasai sistem AI.
jonplackett: percaya bahwa asisten suara sejati setingkat manusia harus mampu memahami intonasi yang menyampaikan informasi penting yang tidak ada dalam teks.

ChatGPT kini dapat melihat, mendengar, dan berbicara

Bacaan terkait

4 komentar