- Cara menggunakan komputer sudah lama bertahan pada interaksi mekanis yang berpusat pada klik dan input, tetapi dengan hadirnya perangkat mobile dan asisten suara, interaksi berkembang menjadi lebih alami
- Kini muncul avatar/replika AI yang menggabungkan multimodalitas, kecerdasan emosional, dan personalisasi, sehingga diarahkan untuk berperan bukan sekadar alat, melainkan lebih dekat sebagai rekan atau kolaborator
- Kemajuan dalam infrastruktur video real-time, rekonstruksi wajah 3D, sistem kognitif, teknologi suara, dan LLM memungkinkan perwujudan avatar yang hidup dan cerdas
- Mereka memperkuat relasi dengan manusia melalui memori berkelanjutan, empati emosional, pemahaman intelektual, dan personalisasi mendalam, serta telah diterapkan di berbagai industri
- Ke depan, antarmuka akan berkembang melampaui layar sederhana menjadi sistem dengan pemahaman konteks, adaptasi perilaku, dan kecerdasan emosional, yang diperkirakan akan mengubah hakikat hubungan manusia-komputer
Mengapa sekarang: era baru interaksi manusia-mesin
- Interaksi manusia-mesin berkembang dari cara lama berupa klik, mengetik, dan menavigasi layar menuju pendekatan yang berpusat pada multimodalitas dan kecerdasan emosional
- Penyebaran perangkat mobile memperkenalkan interaksi berbasis suara, dan asisten seperti Siri menunjukkan kemungkinan percakapan yang alami
- Saat ini, avatar AI dan replika AI berevolusi melampaui alat menjadi avatar yang berperan sebagai rekan, kolaborator, dan pendamping
- Avatar AI mampu melakukan kontak mata secara real-time, tersenyum, mengingat preferensi pengguna, dan merespons emosi
- Berkembang bukan sebagai avatar statis, melainkan sebagai sosok yang dinamis, ekspresif, dan terasa hidup
- Digunakan di berbagai industri seperti coaching, layanan kesehatan, perawatan lansia, dan dukungan pelanggan
Perpaduan sempurna antara teknologi dan perubahan perilaku
- Perkembangan chatbot berbasis teks dan asisten suara memungkinkan dukungan real-time yang dipersonalisasi serta interaksi hands-free
- Avatar AI bekerja melampaui dukungan sederhana, sebagai kolaborator yang memiliki empati, konteks, dan kepribadian
- Karena manusia pada dasarnya mengejar koneksi dan relasi, ada harapan agar alat digital berevolusi dari interaksi yang bersifat transaksional menjadi interaksi yang berorientasi pada hubungan
- Perubahan teknologi dan perilaku berpadu sehingga avatar dan replika AI menjadi mungkin sekaligus diinginkan
- Inovasi teknologi dan penerimaan sosial saling bertemu pada saat yang sama, sehingga permintaan terhadap avatar AI meningkat eksplosif
Inovasi dalam tech stack
- Infrastruktur video real-time: teknologi seperti WebRTC mendukung konferensi video berlatensi rendah, memungkinkan interaksi visual yang mulus dalam lingkungan terdistribusi
- Rekonstruksi wajah 3D: Tavus, HeyGen dan lainnya mampu mewujudkan kloning wajah berkualitas tinggi dan lip-sync yang akurat dari video singkat
- Sistem kognitif: melacak gestur, mikro-ekspresi, kontak mata, dan gerakan secara real-time untuk merespons isyarat visual. Dapat memahami lingkungan sekitar dan memberikan respons yang sesuai konteks
- Teknologi suara: TTS/STT dari Deepgram, ElevenLabs dan lainnya mendukung percakapan yang alami dan instan
- Teknologi suara real-time tanpa jeda memungkinkan percakapan yang luwes dan ekspresif
- Model bahasa: melalui LLM, dimungkinkan pemahaman konteks yang kaya dan respons cerdas, termasuk percakapan yang terspesialisasi untuk bidang tertentu
- Tidak lagi terbatas pada pengetahuan yang diprogram secara sempit, sehingga dapat memberi respons yang penuh pertimbangan
Memori berkelanjutan
- Memiliki kemampuan untuk melacak percakapan panjang dalam satu sesi dan mempertahankan konteks
- Bahkan antar sesi, dapat mengingat tujuan dan preferensi masa lalu untuk menghadirkan percakapan yang dipersonalisasi
- Berevolusi melampaui respons sekali jalan menjadi AI pendamping jangka panjang
Kepribadian dan kecerdasan emosional
- Untuk menghadirkan pengalaman yang berpusat pada relasi, mengekspresikan emosi positif seperti kehangatan, empati, dan dorongan
- Menampilkan keadaan emosi yang halus melalui nada, timing, dan ekspresi wajah, sehingga membangun kepercayaan yang terasa manusiawi
Pemahaman intelektual
- Seperti manusia, mampu menangkap konteks dan melakukan penalaran langsung
- Dapat merespons informasi terbaru dan mencerminkan pengetahuan domain khusus seperti layanan kesehatan, keuangan, dan pendidikan
Personalisasi mendalam
- Melampaui penyesuaian UI sederhana menuju optimasi per individu hingga suara, penampilan, dan cara merespons
- Dengan mengaitkan percakapan masa lalu dengan alat eksternal dan sistem pengetahuan, menghadirkan interaksi yang cerdas dan dipersonalisasi
- Sudah dialami oleh puluhan juta pengguna di Character.AI, Delphi dan lainnya
Lapisan infrastruktur: presence stack baru
- Tavus:
- Berfokus pada developer, berbasis API, dan mendukung komunikasi video real-time yang dipersonalisasi
- Mengintegrasikan video interaktif ke dalam workflow seperti onboarding, telemedis, dan penjualan asinkron
- Synthesia:
- Mengubah teks menjadi video berkualitas studio dalam lebih dari 140 bahasa untuk membuat video avatar AI
- Digunakan oleh perusahaan besar seperti Zoom, Reuters, dan Heineken untuk penjualan, pemasaran, lokalisasi, pembelajaran, dan pengembangan
- Lainnya: berbagai alat infrastruktur video AI juga bermunculan, seperti Sieve, Descript, TwelveLabs, dan Sora dari OpenAI
- Dalam 2 tahun terakhir telah terjadi pertumbuhan eksplosif, membentuk ekosistem yang dapat dimanfaatkan oleh kreator, developer, dan perusahaan
Prospek ke depan: dunia digital yang lebih manusiawi
- Antarmuka bergerak keluar dari layar berbasis piksel menuju sistem adaptif berbasis pemahaman konteks, kecerdasan emosional, dan memori
- AI yang hebat tidak sekadar memberi jawaban, tetapi juga melakukan respons intuitif dan tanggapan yang tepat sesuai situasi
- Melalui wearable seperti Meta Glasses, interaksi yang selalu aktif dan dipersonalisasi juga akan menjadi mungkin di dunia nyata
- Generasi berikutnya dari HCI diperkirakan akan mendefinisikan ulang hubungan manusia-mesin itu sendiri dengan berpusat pada pengalaman yang imersif, terwujud, dan personal
1 komentar
Sampai tingkat tertentu, itu sebenarnya sudah terjadi.
Namun, semakin berkembang teknologi seperti ini, jarak antarmanusia tampaknya akan makin menjauh.