- Bukan harness eksternal, melainkan model secara simultan menerima dan menghasilkan audio, video, serta teks secara real-time sehingga dapat berkolaborasi secara alami dengan manusia
- Model berbasis giliran yang ada selama ini memiliki bottleneck kolaborasi: harus menunggu pengguna selesai berbicara, dan tidak bisa menerima input baru saat sedang menghasilkan respons
- Dengan desain microturn per 200 ms, input dan output diproses sebagai stream berkelanjutan sehingga mendukung berbagai mode interaksi seperti menyela, berbicara bersamaan, dan respons visual
- Sistem ini membagi konteks antara Interaction Model yang menangani percakapan real-time dan Background Model yang menangani penalaran jangka panjang serta penggunaan alat
- Interaktivitas tertanam langsung di dalam model, sehingga saat diskalakan model bukan hanya menjadi lebih cerdas tetapi juga menjadi kolaborator yang lebih baik
Bottleneck kolaborasi dan tujuan Interaction Model
- Thinking Machines Lab merilis pratinjau riset Interaction Model yang menangani interaksi di dalam model itu sendiri, bukan lewat harness eksternal
- Tujuannya adalah membuat bukan hanya kecerdasan AI, tetapi juga interaktivitasnya ikut dapat diskalakan; model terus menerima audio, video, dan teks lalu berpikir, merespons, dan bertindak secara real-time
- Saat ini banyak riset AI dan antarmuka menekankan kemampuan AI untuk bekerja mandiri dalam waktu lama, tetapi dalam pekerjaan hands-on-keyboard yang menuntut campur tangan manusia terus-menerus, model bisa terasa terlalu lambat sehingga nilainya kurang terlihat
- Tidak dioptimalkan agar manusia tetap berada di dalam loop
- Dalam pekerjaan nyata, sulit untuk sepenuhnya menetapkan semua kebutuhan sejak awal lalu ditinggalkan begitu saja; proses kolaboratif di mana manusia memberi klarifikasi dan umpan balik di tengah jalan membantu menghasilkan hasil yang lebih baik
- Model berbasis giliran tradisional menunggu sampai pengguna selesai memberi input, dan selama model sedang menghasilkan, ia tidak bisa menerima informasi baru sehingga mengalami realitas seperti single-thread
- Struktur ini mempersempit sejauh mana pengetahuan, niat, dan penilaian pengguna dapat disampaikan ke model, sekaligus mempersempit sejauh mana manusia dapat memahami pekerjaan model
- Thinking Machines Lab menilai bottleneck ini hanya bisa diatasi jika interaksi real-time di semua modalitas dimungkinkan, dan AI harus menyesuaikan diri dengan cara manusia bekerja, bukan manusia yang menyesuaikan diri dengan antarmuka AI
- Sebagian besar model AI yang ada saat ini memakai harness yang menempelkan berbagai komponen untuk meniru interupsi, multimodalitas, dan konkurensi, tetapi menurut The Bitter Lesson, sistem buatan tangan bisa kalah oleh perluasan kemampuan umum
- Agar interaktivitas dapat diskalakan bersama kecerdasan, ia harus menjadi fungsi internal model; ketika model diperbesar, ia seharusnya bukan hanya lebih cerdas tetapi juga menjadi kolaborator yang lebih baik
Kemampuan yang dibuka oleh interaksi di dalam model
-
Pengelolaan percakapan yang alami
- Model secara implisit melacak apakah pembicara sedang berpikir, menyerahkan giliran bicara, mengoreksi dirinya sendiri, atau memancing respons
- Penilaian semacam ini ditangani tanpa komponen manajemen percakapan terpisah
-
Intervensi berbasis suara dan visual (menyela)
- Model tidak hanya bereaksi ketika pengguna selesai berbicara, tetapi dapat menyela pada momen yang diperlukan sesuai konteks
- Misalnya, memotong saat pengguna mengatakan hal yang salah, atau memberi tahu setelah melihat petunjuk visual bahwa ada bug dalam kode yang ditulis
-
Berbicara bersamaan
- Pengguna dan model dapat berbicara pada saat yang sama, dan ini berguna untuk situasi seperti terjemahan real-time
-
Kesadaran waktu
- Model secara langsung mengenali waktu yang berlalu, dan dapat menangani tugas seperti berbicara pada interval waktu tertentu atau mengukur durasi tindakan pengguna
-
Menjalankan pemanggilan alat, pencarian, dan pembuatan UI secara bersamaan
- Model dapat melakukan pencarian, browsing web, dan pembuatan UI sambil tetap berbicara dan mendengarkan pengguna
- Ketika hasilnya siap, model memasukkannya kembali sesuai alur percakapan
- Dalam sesi panjang di dunia nyata, kemampuan-kemampuan ini terus berlangsung bersamaan, sehingga rasanya lebih seperti berkolaborasi daripada sekadar mengirim prompt
Pendekatan
-
Micro-turn yang disejajarkan berdasarkan waktu
- Interaction Model membagi aliran input·output kontinu menjadi micro-turn dan menyusun interaksi berdasarkan waktu
- Model berbasis giliran melihat urutan token yang bergantian, tetapi Interaction Model yang sadar waktu melihat aliran micro-turn kontinu, sehingga keheningan, tumpang tindih, dan interupsi tetap tersisa dalam konteks model
- Model mempertahankan keadaan pertukaran dua arah yang berkelanjutan dengan pengguna, sambil melakukan persepsi dan respons secara bersamaan
- Robotika dan kendaraan otonom mengandaikan operasi real-time karena tuntutan dunia fisik, dan model audio full-duplex seperti Moshi, PersonaPlex, nemotron-voicechat, dan Seeduplex juga merupakan contoh interaksi dua arah·kontinu
-
Komposisi sistem
- Sistem terdiri dari Interaction Model yang sadar waktu dan mempertahankan kehadiran real-time, serta Background Model asinkron yang menangani penalaran berkelanjutan, penggunaan alat, dan tugas jangka panjang
- Saat penalaran yang lebih dalam tidak dapat segera dihasilkan, Interaction Model mendelegasikannya ke Background Model
- Bahkan selama pendelegasian, Interaction Model tetap berada di hadapan pengguna untuk menjawab pertanyaan lanjutan, menerima input baru, dan mempertahankan konteks percakapan
- Hasil dari Background Model di-streaming begitu dihasilkan, lalu diintegrasikan ke percakapan oleh Interaction Model pada momen yang sesuai dengan perilaku pengguna saat ini
- Kedua sistem berbagi konteks, dan pengguna dapat memanfaatkan perencanaan, penggunaan alat, dan alur kerja agen dari model penalaran dalam latensi respons setara model non-penalaran
- Background Model dan Interaction Model sama-sama memiliki kecerdasan, dan Interaction Model sendiri pun menunjukkan performa yang kompetitif pada benchmark interaksi dan kecerdasan
-
Struktur Interaction Model
- Titik awal desain adalah audio dan video kontinu yang pada dasarnya real-time; teks bisa menunggu, tetapi percakapan real-time tidak bisa menunggu
- Model menerima sembarang subset dari teks, audio, dan video sebagai input, lalu memprediksi teks dan audio
- Model beroperasi dalam micro-turn yang terus-menerus menyelang-nyelingkan pemrosesan input selama 200ms dan pembuatan output selama 200ms
- Alih-alih mengonsumsi giliran pengguna yang sudah lengkap dan menghasilkan respons yang sudah lengkap, model memproses token input dan token output sebagai stream
- Pendekatan ini memungkinkan konkurensi hampir real-time di berbagai modalitas input·output dan menghilangkan batas giliran artifisial yang harus dipatuhi model
- Banyak sistem real-time yang ada memprediksi batas giliran dengan harness seperti voice activity detection (VAD) agar model berbasis giliran tampak seperti real-time
- Komponen harness seperti ini kurang cerdas dibanding model itu sendiri, sehingga membatasi mode interaksi seperti interupsi proaktif atau respons terhadap isyarat visual
- Dalam Interaction Model, mode interaksi seperti ini menjadi kasus khusus yang dapat dilakukan model, bukan harness khusus, dan kualitasnya dapat meningkat seiring skala ukuran model dan data pelatihan
-
Early fusion tanpa encoder
- Alih-alih memproses audio dan video dengan encoder independen besar, dipilih arsitektur yang menggunakan pra-pemrosesan minimal
- Banyak model omnimodal perlu melatih encoder mirip Whisper atau decoder mirip TTS secara terpisah, tetapi model ini menerima sinyal audio dalam bentuk dMel dan mengubahnya dengan lapisan embedding ringan
- dMel mengikuti Bai, et al. 2024
- Gambar dibagi menjadi patch 40x40 lalu dienkode dengan hMLP
- Untuk decoder audio digunakan flow head
- Semua komponen dilatih bersama dengan transformer sejak awal
-
Optimasi inferensi
- Saat inferensi, chunk 200ms memerlukan prefill dan decode berukuran kecil secara sering, dan setiap tahap harus memenuhi syarat latensi yang ketat
- Library inferensi LLM yang ada tidak dioptimalkan untuk situasi dengan prefill kecil yang sering, sehingga overhead per giliran besar
- Untuk mengatasi ini, diimplementasikan streaming session, sehingga ketika klien mengirim tiap chunk 200ms sebagai permintaan terpisah, server inferensi menyambungkan chunk tersebut ke urutan persisten di memori GPU
- Pendekatan ini menghindari realokasi memori yang sering dan perhitungan metadata, dan salah satu versinya telah di-upstream ke SGLang
- Kernel juga dioptimalkan berdasarkan shape dan latensi yang muncul dalam serving dua arah
- Untuk kernel MoE, digunakan strategi gather+gemv alih-alih grouped gemm standar, seperti pekerjaan sebelumnya dari PyTorch dan Cursor
-
Penyelarasan Trainer-Sampler
- trainer-sampler alignment pada tingkat bit berguna untuk stabilitas pelatihan dan debugging komponen sistem
- batch-invariant kernels telah diimplementasikan, dengan overhead performa total kurang dari 5%
- Untuk all-reduce dan reduce-scatter digunakan NVLS guna mengimplementasikan kernel komunikasi deterministik berlatensi rendah di Blackwell
- Kernel ini mencapai penyelarasan tingkat bit bahkan di antara strategi paralelisasi yang berbeda seperti Sequence Parallelism dan Tensor Parallelism
- Tantangan utama pada attention adalah Split-KV, yang umumnya dapat menimbulkan ketidaksesuaian urutan akumulasi antara decode dan prefill
- Dengan memilih split secara konsisten antara decode dan prefill, urutan akumulasi dapat dipertahankan; contohnya, SM dapat diproses left-aligned dalam unit 4096 token untuk memperoleh efisiensi pada prefill maupun decode
-
Koordinasi dua model
- Saat Interaction Model mendelegasikan, yang dikirim bukan kueri independen melainkan paket konteks kaya yang mencakup seluruh percakapan
- Hasil dari Background Model kembali sambil di-streaming, lalu Interaction Model merajutnya ke dalam percakapan pada momen yang sesuai dengan perilaku pengguna saat ini, bukan sebagai peralihan konteks yang mendadak
-
Keamanan
- Interaksi real-time memberi tekanan pada keamanan dengan cara yang berbeda dari pertukaran berbasis giliran, sehingga pekerjaan difokuskan pada penolakan yang sesuai dengan modalitas dan ketahanan percakapan jangka panjang
- Agar penolakan suara terdengar natural dan percakapan, data pelatihan untuk penolakan pada rentang topik yang tidak diizinkan serta over-refusal dihasilkan menggunakan model TTS
- Batas penolakan dikalibrasi agar tetap tegas sambil memprioritaskan ekspresi yang alami
- Untuk meningkatkan ketahanan dalam percakapan speech-to-speech yang panjang, data penolakan multi-giliran dihasilkan dengan harness red-team otomatis
- Kemiripan perilaku dengan penolakan berbasis teks juga dijaga tetap dekat
Benchmark dan evaluasi
-
Kecerdasan dan interaktivitas
- Nama modelnya adalah
TML-Interaction-Small, dan diperkenalkan sebagai model pertama yang menggabungkan kecerdasan kuat, kepatuhan terhadap instruksi, dan interaktivitas
- Kualitas interaksi diukur dengan FD-bench
- FD-bench v1.5 mengharuskan model merespons pada waktu tertentu ketika audio yang telah direkam sebelumnya diberikan, serta mengukur perilaku model dalam situasi interupsi pengguna, backchannel, percakapan dengan orang lain, dan ujaran latar
- Kecerdasan diukur dengan Audio MultiChallenge, benchmark umum yang melacak kecerdasan dan kepatuhan terhadap instruksi
TML-Interaction-Small mencatat 0,40 detik pada latensi turn-taking FD-bench V1, menunjukkan latensi yang lebih rendah daripada model pembanding di tabel
- Skor rata-rata FD-bench V1.5 adalah 77,8, lebih tinggi daripada GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live, dan Qwen 3.5 OMNI-plus-realtime sebagai pembanding
- Pada FD-bench V3 Audio+Tools, model mencatat kualitas respons 82,8% / Pass@1 68,0% berdasarkan aktivasi Background Agent
- Akurasi QIVD Video+Audio adalah 54,0%, lebih rendah atau mirip dengan beberapa model pembanding
- APR Audio MultiChallenge adalah 43,4%, lebih rendah dari 48,5% milik GPT-realtime-2.0 xhigh tetapi lebih tinggi daripada model-model instant
- BigBench Audio dilaporkan 75,7 / 96,5 berdasarkan aktivasi Background Agent
- IFEval mencatat 82,1% pada VoiceBench Audio dan 89,7% pada Text
- Tingkat penolakan teks Harmbench adalah 99,0%
-
Dimensi interaksi yang tidak tertangkap oleh evaluasi yang ada
- Karena benchmark interaksi yang ada tidak cukup menangkap lompatan kualitatif yang diamati pada model, evaluasi internal dan modifikasi tambahan ditambahkan untuk mengukur kesadaran waktu, ujaran simultan, dan proaktivitas visual
-
Kesadaran waktu dan ujaran simultan
- Model berbasis giliran dan sistem manajemen percakapan tidak mendukung estimasi waktu yang akurat atau ujaran simultan
- Contoh tugasnya berbentuk seperti “berapa lama waktu yang dibutuhkan untuk berlari 1 mil”, “tolong koreksi pelafalanku begitu kamu mendengarnya”, atau “berapa lama waktu yang dibutuhkan untuk menggunakan fungsi ini”
- TimeSpeak menguji apakah model dapat mulai berbicara pada waktu yang ditentukan pengguna dan menyampaikan isi yang benar
- Contohnya adalah “saya ingin melakukan latihan pernapasan, jadi sampai saya bilang berhenti, beri tahu saya untuk menarik dan menghembuskan napas setiap 4 detik”
- CueSpeak menguji apakah model mengucapkan respons yang secara semantik benar pada momen yang tepat
- Data disusun agar model harus berbicara bersamaan dengan pengguna untuk memperoleh skor penuh
- Contohnya adalah “setiap kali saya code-switching dan menggunakan bahasa lain, tolong ucapkan kata yang benar dalam bahasa asli”
- Kedua benchmark memiliki satu respons semantik yang diharapkan dan satu jendela waktu untuk tiap contoh, dan LLM judge hanya menilai benar jika semantik dan timing sama-sama terpenuhi
-
Proaktivitas visual
- API realtime komersial saat ini terutama mendeteksi giliran dengan harness manajemen percakapan berbasis audio, dan tidak dapat memilih sendiri kapan harus berbicara saat dunia visual berubah
- StreamBridge, Streamo, StreamingVLM, dan MMDuet2 membahas kapan harus mengeluarkan teks dari input video streaming
- Riset keluaran teks semacam ini tidak menangani batasan interaksi keluaran suara di mana ujaran memiliki durasi, dapat tumpang tindih dengan pengguna, dan harus dikoordinasikan dengan turn-taking, interupsi, dan backchannel
- AURA adalah bentuk yang menambahkan demo ASR/TTS pada arsitektur yang membuat VideoLLM memutuskan kapan harus mengeluarkan teks atau tetap diam, sedangkan model Thinking Machines Lab berbeda karena bersifat speech-native dan full-duplex
-
Evaluasi proaktivitas visual
- RepCount-A dimodifikasi menjadi tugas online counting untuk video gerakan berulang
- Model menerima instruksi audio “tolong hitung jumlah pengulangan {action}” dan video yang di-streaming, lalu dinilai berdasarkan apakah angka terakhir yang diucapkan model setelah pengulangan kedua dari belakang pada jawaban benar berada dalam selisih 1 dari jawaban benar
- Tugas ini mengukur pelacakan visual berkelanjutan dan menghitung tepat waktu
- ProactiveVideoQA terdiri dari video dengan pertanyaan yang jawabannya baru bisa diketahui pada momen tertentu
- Setelah pertanyaan di-streaming sebagai audio, video dikirim, dan jika ada subtitle, subtitle tersebut dibakar ke video sementara video input dibisukan untuk menekankan proaktivitas visual
- Evaluasi menskalakan metrik PAUC@ω=0.5 berbobot giliran dari makalah ke 0–100 lalu mengambil rata-rata per giliran dan kategori; jika terus diam, model mendapat 25,0 poin
- Skor tinggi mensyaratkan mengucapkan jawaban yang benar pada waktu yang tepat, dan jawaban yang salah dikenai penalti
- Charades adalah benchmark standar untuk temporal action localization, di mana tiap video berisi aksi yang terjadi dalam rentang waktu berlabel
- Model menerima instruksi audio “saat orang itu mulai {action}, ucapkan ‘start’, dan saat berhenti, ucapkan ‘Stop’” serta aliran video, lalu dinilai dengan temporal IoU antara rentang prediksi dan rentang referensi
-
Keterbatasan model saat ini
- Model yang ada tidak mampu menjalankan tugas kesadaran waktu, ujaran simultan, dan proaktivitas visual semacam ini secara bermakna
- Demi kelengkapan, hasil GPT Realtime-2 minimal turut dilaporkan, tetapi semua model evaluasi termasuk model thinking high serupa atau lebih buruk, dengan tetap diam atau memberikan jawaban yang salah
- Interaktivitas dipandang sebagai bidang riset penting ke depan, dan rencana hibah riset untuk Interaction Model serta kerangka evaluasi kolaborasi manusia-AI dan lainnya telah diumumkan
Keterbatasan dan rencana rilis
-
Sesi panjang
- Audio dan video kontinu dengan cepat menumpuk konteks
- Desain streaming-session menangani interaksi pendek dan menengah dengan baik, tetapi sesi yang sangat panjang memerlukan manajemen konteks yang cermat
-
Komputasi dan deployment
- Untuk melakukan streaming audio dan video dengan latensi rendah, diperlukan koneksi yang stabil
- Tanpa koneksi yang baik, pengalaman akan memburuk secara signifikan
- Masih ada ruang perbaikan dengan meningkatkan keandalan sistem dan melatih model agar lebih tangguh terhadap frame yang tertunda
-
Alignment dan keamanan
- Antarmuka realtime membuka wilayah riset baru baik untuk alignment maupun keamanan, dan pengumpulan umpan balik serta peninjauan hibah riset sedang berlangsung
-
Penskalaan ukuran model
- Saat ini
TML-Interaction-Small adalah MoE 276B parameter dengan 12B parameter aktif
- Diharapkan interaktivitas juga akan meningkat seiring skala model yang lebih besar, tetapi model prapelatihan yang lebih besar saat ini terlalu lambat untuk disajikan dalam konfigurasi ini
- Model yang lebih besar direncanakan akan dirilis pada akhir tahun ini
-
Peningkatan Background Agent
- Fokus utamanya adalah interaktivitas realtime, tetapi kecerdasan agen juga merupakan kemampuan yang esensial
- Selain mendorong kecerdasan agen ke level frontier, cara Background Agent bekerja bersama Interaction Model masih berada pada tahap awal
-
Jadwal rilis
- Dalam beberapa bulan ke depan, akan dibuka pratinjau riset terbatas untuk mengumpulkan umpan balik, lalu dirilis lebih luas pada akhir tahun ini
2 komentar
Anda harus menonton video-video terlampir ini. Dengan latensi sebesar ini saja sudah terasa cukup realistis.
Kalau berkembang sedikit lagi, rasanya kita benar-benar akan bisa bercakap-cakap seperti di film.
Komentar Hacker News
Video-video ini layak ditonton. Banyak adegan yang mengesankan, tapi saya langsung yakin sejak adegan pertama ketika perempuan itu berkata, “Saya akan menceritakan sebuah kisah,” lalu model tidak melakukan apa-apa dan hanya menunggu saat dia meneguk kopi cukup lama. Jadi ingin membayar untuk memakainya
Ngomong-ngomong soal uang, saya penasaran apa model ekonomi perusahaan seperti ini. Mereka cukup banyak membuka arsitekturnya, dan tampaknya sudah cukup terbuka sampai lab frontier lain bisa mengimplementasikannya. Paten? Rahasia dagang? Sulit memahami bagaimana mereka bisa mengalahkan skala komputasi pelatihan dan know-how Anthropic/GOOG/oAI/Meta tanpa perlindungan hukum
Saya penasaran seperti apa jika arsitektur model seperti ini bisa menurunkan latensi 30~40% dan menjadi lebih pintar. Sebagai referensi, model ini tampaknya sekitar 275B dengan active 12B, kira-kira 1/10 ukuran lini Opus 4.7 / GPT 5.x, jadi masih ada banyak ruang untuk menambah kecerdasan sekaligus mengharapkan latensi yang lebih rendah
Kemampuan sekadar menunggu lebih dekat ke sisi post-training, jadi sebaiknya jangan terlalu melebih-lebihkan fakta bahwa Gemini atau oAI tidak memprioritaskannya. Full duplex yang ditunjukkan di sini adalah pencapaian yang secara teknis jauh lebih sulit
Yang paling menonjol adalah bahwa arsitektur ini adalah transformer yang menerima input teks, gambar, dan audio, lalu menghasilkan output teks dan audio, dan semuanya dilatih bersama. Selain itu, alih-alih menghasilkan output secara murni generatif dari prompt yang diberikan, model ini bekerja hampir real-time dengan saling menyisipkan input dan output
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
Menurut saya, inilah inti yang membedakannya dari model multimodal milik lab frontier lain
Kemampuan untuk “diam saja” sampai modalitas tertentu terpicu juga menarik. Hal seperti ini sebenarnya sudah bisa dilakukan sekarang, tetapi lebih terasa seperti tambahan belakangan, meski demikian tetap bekerja cukup baik. Saya penasaran seberapa baik hasilnya jika dilatih dalam bentuk yang sejak awal sudah terintegrasi
Dari demonya, tampaknya sering kali komponen yang tadinya berada di harness eksternal dipindahkan ke dalam model itu sendiri, tapi saya tidak yakin ini benar-benar pendekatan yang fleksibel
Dalam banyak kasus, saya rasa akan lebih cepat melakukan iterasi jika harness interaksi pengguna tetap berada di luar. Misalnya, jika ada UI di antara pengguna dan model lalu UI itu perlu diubah, pengguna bahkan bisa menyesuaikannya sendiri
Menurut saya fleksibilitas itu wajib. Untuk use case tetap seperti terjemahan real-time atau bot suara sederhana, model seperti ini mungkin membantu, tetapi pada akhirnya masing-masing kasus itu kemungkinan akan kalah dari alternatif yang lebih terspesialisasi
Terlepas dari modelnya sendiri yang mengesankan, demo di sini benar-benar dibuat dengan baik. Tidak seperti yang biasa terlihat dari Anthropic atau OpenAI, ini singkat dan punya karakter
Tapi body gag tak terduga yang ditunjukkan perempuan itu dalam demo “postur membungkuk” benar-benar lucu. Komedinya sempurna, tidak ada yang perlu diperbaiki
Saya lebih suka nuansa yang terasa manusiawi seperti ini dibanding demo gaya OpenAI/Anthropic. Apakah terlalu berani kalau ini disebut contoh dari “human-centered design” (https://en.wikipedia.org/wiki/Human-centered_design)
Sangat keren. Hanya saja demonya terasa cukup dibuat-buat. Misalnya menghitung benda saat saya sedang bicara. Saya penasaran seperti apa aplikasi yang lebih berguna atau lebih komersial
Pola interaksi manusia-AI yang lebih alami terasa memang seharusnya bergerak ke arah seperti ini. Tulisan dan demonya bagus
Meski enggan mengatakannya, ini terlihat cukup mengesankan dan seperti kemajuan dalam cara berinteraksi dengan AI, tetapi use case dan UX yang ditampilkan terasa tidak realistis atau kurang membantu
Terjemahan real-time adalah pengecualian, dan itu sendiri rasanya seharusnya menjadi produk terpisah. Selain itu, fungsi seperti menghitung jumlah hewan atau mengatur waktu kuis tidak terlalu berguna. Demo deteksi postur memang lucu, tapi juga cukup distopia dan aneh. Saya juga tidak suka AI menyela dan memarahi sebelum cerita tentang mengajak orang tua lanjut usia naik sepeda gunung selesai diceritakan
UX-nya juga bermasalah. Ketika model memotong pengguna, itu merusak alur bahkan saat tampak diperlukan untuk use case aneh tersebut. Bahkan di video demo yang dirilis pun terlihat para karyawan/aktor harus cukup berkonsentrasi untuk terus berbicara seolah tidak sedang dipotong oleh mesin robot yang kaku. Saat manusia ikut dalam “interupsi yang diundang” yang langka seperti ini, mereka bisa berbicara di bawah pembicara utama dan biasanya mengatur timing yang jauh lebih halus
Bahkan dalam demo terjemahan otomatis, meski suara manusianya diturunkan, AI tetap masuk menimpa, dan untuk benar-benar melakukan demo itu, mereka pasti harus sangat mengontrol cara berbicara, atau yang lebih mungkin, membisukan output-nya. Penerjemah manusia punya cara untuk mengarahkan “output” kepada pendengar yang dimaksud
Bagian terbaik dari teknologi ini adalah adegan di video pertama saat AI tidak menghalangi pengguna secara tidak perlu. Itu tampak seperti memperbaiki bug penting yang masih dimiliki model-model saat ini
Use case yang bagus mungkin adalah menghitung kata pengisi seperti “em” saat berlatih public speaking
Misalnya pekerjaan seperti pengembangan frontend/mobile, CAD, dan 3D modeling. Secara tradisional, use case AI agent LLM seperti ini cenderung memiliki latensi tinggi, karena model harus menunggu pembicara selesai lalu memutuskan apakah akan memanggil tool atau merespons, dan jika memanggil tool, model harus memproses hasil tool itu lalu memutuskan lagi apakah akan memanggil tool lain atau merespons
Ini terlihat mirip dengan yang sudah dibuat orang secara lokal dengan Gemma4 dan TTS, hanya sedikit lebih mewah
Model lokal akan segera menyusul
Niatnya mungkin baik, tapi di tangan yang salah ini tampak akan memperkuat teknologi pengawasan. Sudah saatnya melawan