4 poin oleh xguru 2024-03-14 | 2 komentar | Bagikan ke WhatsApp
  • Robot Figure 01 kini dapat sepenuhnya bercakap-cakap dengan manusia
  • Model OpenAI menyediakan kecerdasan visual dan bahasa tingkat tinggi
  • Jaringan saraf Figure memungkinkan gerakan robot yang cepat, lincah, dan tingkat rendah
  • Robot ini dapat menjelaskan apa yang dilihat, mengambil apel dan memberikannya saat diminta makanan, serta menilai situasi untuk merapikan cangkir dan meja

2 komentar

 
erados 2024-03-14

Sepertinya ada satu mode output lagi yang ditambahkan.

 
xguru 2024-03-14

Opini Hacker News

  • Saya terkesan dengan kelincahan robotnya, tetapi bagi siapa pun yang pernah mencoba GPT-4, kemampuan suara dan penalaran robot ini mungkin tidak terlalu mengejutkan. Fitur function calling memang mengesankan, tetapi 'dunia' tempat ia berinteraksi sangat sederhana. Tetap menarik melihat robot berinteraksi dengan dunia nyata. Saat ini, yang menghambat kemajuan AI adalah biaya dan kecepatan penalaran. Jika ditemukan cara untuk memproses ribuan token per detik dengan murah, banyak masalah sulit bisa diselesaikan dan kita benar-benar akan melihat aplikasi yang menakjubkan.
  • Memilih salah satu gerakan yang telah dipra-latih lewat suara itu keren, tetapi tidak revolusioner. Menggunakan GPT-4V untuk mendeskripsikan adegan juga relatif sederhana. Hal yang paling mengesankan adalah kecepatan saat mengambil sampah dan keluwesan memindahkan benda dari satu tangan ke tangan lain. Seberapa umum kebijakan gerak ini masih belum jelas. Melihat orang itu berdiri benar-benar diam, rasanya semua ini akan gagal jika tidak diatur dengan sangat presisi. Saya ingin melihat demo dengan lebih banyak variasi. Meski begitu, saya pikir demo ini hebat dan ingin melihat lebih banyak lagi.
  • Inferensi latensi rendah dari Groq menunjukkan kegunaan nyata. Meskipun ada jeda pada respons yang bisa membuatnya kurang mengesankan, ini tetap sangat mengesankan.
  • Agak aneh robot memasukkan piring kotor berisi sampah dan apel ke rak pengering. Piring itu seharusnya dicuci dulu.
  • Kemampuan mengubah teks menjadi gerakan motor servo itu menakjubkan, dan tampaknya GPT-4 vision serta Whisper banyak digunakan. Istilah 'penalaran' juga digunakan dengan cara yang baru. Ini bisa dibilang perusahaan AI wrapper. Tentu saja, medium berbeda dengan aplikasi. Bahkan jika pengembangan AI berhenti hari ini, sudah ada banyak aplikasi AI yang menakjubkan.
  • Bentuk humanoid dan suara memberi kesan yang berbeda dibanding versi chat murni. Jika ditambah kontak mata, kesannya akan lebih kuat. Saya membayangkan mendemonstrasikan ini kepada masyarakat umum.
  • Mengubah suara menjadi gerakan motor servo itu mengesankan. Kecepatan dalam melakukan tugas yang membutuhkan kelincahan sangat luar biasa, dan ini adalah demo robot manipulasi objek pertama yang terlihat 'alami' tanpa perlu mempercepat videonya.
  • Saya ingin menjadi anak berusia 5 tahun yang tidak tahu betapa tidak realistis dan tidak bergunanya semua ini, agar setidaknya sekali saja bisa berpikir positif tentang masa depan. Tetapi manusia tampaknya tidak memahami bahwa mereka tidak bisa menjalankan 'angka imajiner yang terus naik' sambil menekan kebutuhan dasar perumahan, dan tidak ada cara untuk membuat teknologi ini berguna, murah, andal, dan baik.
  • Bagian paling mengesankan dari demo ini adalah robot itu bisa 'melihat' dan mengambil benda dengan anggota tubuh seperti manusia. Mungkin saya melewatkan sesuatu, tetapi saya kira ini sangat sulit. Setahu saya inverse kinematics itu sulit; apakah mereka menyelesaikannya dengan jaringan saraf?
  • Tautan ke video yang sama di YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning