Show HN: Merekreasi ulang demo Google Gemini palsu menggunakan GPT-4, kali ini benar-benar diimplementasikan

(sagittarius.greg.technology)

2 poin oleh GN⁺ 2023-12-12 | 1 komentar | Bagikan ke WhatsApp

Remake demo Google Gemini palsu dengan GPT-4, kali ini benar-benar nyata

Proyek yang me-remake demo Google Gemini palsu menggunakan GPT-4.
Demo yang benar-benar berfungsi disediakan, dan kode terkait dapat dilihat di repositori GitHub.
Proyek ini dibuat oleh Greg Technology.

Pendapat GN⁺

Poin terpenting dari artikel ini adalah adanya proyek yang benar-benar mengimplementasikan demo palsu dari masa lalu dengan memanfaatkan GPT-4.
Menarik sebagai contoh yang menunjukkan proses bagaimana kemajuan teknologi kecerdasan buatan menghasilkan produk inovatif yang benar-benar bisa digunakan.

1 komentar

GN⁺ 2023-12-12

Komentar Hacker News

Bagian dari demo Gemini palsu yang terlihat seperti sihir adalah karena LLM tampak terus menerima input audio dan video lalu tahu kapan harus menyela untuk menjawab
Terlihat seolah model menunggu sampai pengguna selesai menggambar, atau menyela tepat sebelum selesai, dan di tengah jawaban bahkan mengatakan bahwa gambar itu tampak seperti bebek biru ketika pengguna mewarnai bebeknya dengan warna biru
Model juga tampak tahu bahwa tidak perlu merespons ketika pengguna hanya sekadar mengiyakan
Setelah memeriksa source code, ternyata demo itu mengambil screenshot setiap 800ms dari feed video, lalu menunggu sampai pengguna selesai berbicara sebelum mengirim 3 screenshot terakhir
Demo itu sendiri memang mengesankan, tetapi juga menunjukkan betapa tidak alaminya cara berinteraksi dengan LLM seperti ini ketika tidak ada input audio·video yang kontinu
Secara teknis ini sudah mungkin dilakukan sejak lama, tetapi ada alasan mengapa tidak ada yang memamerkannya sebagai produk
- Demo ini dibuat hanya dalam 2~3 jam, dan menggunakan teknik “menunggu sampai hasil dikte final”
  Cara ini lebih aman tetapi lebih lambat karena transkripsi dikte lebih stabil
  Dalam demo lain https://www.youtube.com/watch?v=fxS7OKh_4vc, hasil transkripsi yang “sedang berlangsung” terus dimasukkan ke GPT, dan hasilnya benar-benar cepat serta bagus
  Hanya saja, masih perlu lebih banyak pekerjaan untuk menangani berbagai timing seperti ucapan manusia yang sebenarnya, waktu transkripsi, pengiriman request ke GPT, dan sinkronisasi dengan posisi ucapan serta alur pikir pengguna saat GPT memutuskan kapan harus menjawab
  Meski begitu, percakapan real-time dan kontinu jelas merupakan kuncinya, dan rasanya akan bagus jika GPT tersedia lewat websocket
- Sebagai penyandang tunarungu, saya sudah melihat demo pengenalan suara real-time selama 20~30 tahun, dan semuanya terlihat bagus dalam demo
  Tetapi dalam penggunaan sehari-hari, bahkan jika hanya salah 1 kali setiap 10 kata, seiring waktu itu akan menumpuk menjadi sesuatu yang sangat menjengkelkan
- Saya juga pernah membicarakan dengan teman tentang LLM multimodal yang menerima input stream kontinu
  Misalnya, model mendengarkan latihan gitar lalu pada titik tertentu berkata, “bagus, mari kembali ke bagian itu dan latih lagi”
  Ketika ada aliran token kontinu masuk dan output hanya sesekali diperlukan, pendekatan prediksi token berikutnya yang umum tampaknya kurang cocok
  Saya penasaran dalam literatur, input seperti ini disebut apa, dan penelitian apa saja yang sudah ada
- Dalam kasus seperti ini, tampaknya kuncinya adalah melatih dengan sesuatu seperti token jeda
  Mungkin juga itu tidak benar-benar diperlukan
  Jika GPT-4 diberi instruksi untuk mengeluarkan sesuatu seperti .... setiap kali ia menilai harus menunggu sebelum merespons, mungkin tidak perlu menunggu pengguna selesai dulu dan interaksinya bisa jadi jauh lebih mulus
- Saya ingin menempelkan chatbot GPT-4 ke group chat agar bisa bereaksi pada apa yang dikatakan orang-orang, tetapi terlalu sulit menentukan kapan ia harus bicara dan kapan harus membiarkan orang-orang saling berbicara, jadi akhirnya saya menyerah
Saya tidak mengerti mengapa perusahaan-perusahaan berbohong seperti ini
Saya tidak tahu seberapa besar keuntungan yang mereka dapatkan, dan justru tampaknya ada lebih banyak yang bisa hilang
Yang lebih aneh, alat-alat ini sebenarnya sudah sangat mengesankan bahkan tanpa dibesar-besarkan
Sebagai peneliti machine learning, saya melihat banyak pencapaian keren, tetapi hampir semua hal dari makalah sampai produk dibesar-besarkan secara berlebihan
Dalam jangka pendek mungkin ini membantu sebagian orang, tetapi rasanya ini menciptakan perlombaan ke bawah yang tidak baik bagi semua orang
Terutama bagi perusahaan seperti Google, memainkan permainan jangka pendek bukanlah pilihan yang cerdas, walaupun mungkin saya benar-benar salah memahami lingkungan tempat kita hidup
Melihat diskusi di thread ini[0], tampaknya juga ada banyak orang yang secara etis sudah begitu rusak sampai bahkan tidak sadar bahwa apa yang mereka lakukan itu menipu, dan itu adalah masalah lain yang sama sekali berbeda dan lebih buruk
[0] https://news.ycombinator.com/item?id=38559582
- Pada hari yang sama ketika videonya keluar, CEO mengirim pesan bahwa teknologi baru Google jauh lebih baik daripada GPT-4 dan kita juga harus segera memakainya
  Saya menjawab bahwa saya skeptis terhadap demonya, tetapi seperti semua kemajuan di bidang ini, saya akan mencobanya sendiri ketika dirilis
- “Perusahaan seperti Google tidak cerdas jika bermain untuk jangka pendek” mungkin adalah masalah principal-agent
  Agen, yaitu karyawan dan manajemen, mengoptimalkan keuntungan karier jangka pendek mereka dan tidak benar-benar loyal pada pemegang saham Google
  Mereka bisa keluar dalam 3 tahun, jadi kerusakan reputasi Google mungkin tidak terlalu penting bagi mereka
  Sebaliknya, pemegang saham ingin faktor jangka panjang seperti reputasi dioptimalkan
  Hal itu dicoba diselaraskan lewat tata kelola yang baik dan kompensasi vesting yang terkait harga saham, tetapi sampai tingkat tertentu ketidakselarasan akan tetap ada
  Pada titik ini, budaya penyelarasan yang nyaris seperti kultus terhadap misi bisa memiliki nilai
  Jika karyawan benar-benar diyakinkan untuk percaya pada misi, atau jika orang seperti itu direkrut, penyelarasan akan mengikuti
- Jika ingin tahu mengapa perusahaan melakukan itu, cukup lihat judul yang dibuat Business Today
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  Ini semua marketing
  Alasannya sama seperti ketika Satya secara terbuka menulis bahwa jika urusan OpenAI tidak berjalan baik, sama dan orang-orang lainnya akan bergabung dengan tim baru MSFT dan melanjutkannya
- Setelah demo itu, saham Google memang tidak langsung bergerak, tetapi kemudian naik sekitar 5%, dan setelah kabar manipulasi muncul, sekitar 1% kenaikan itu terkoreksi
- Kejadian ini memberi kesan lebih kuat dari sebelumnya bahwa Google sekarang dijalankan oleh orang bisnis nonteknis, bukan oleh orang yang memahami teknologi
  Orang-orang yang punya sedikit saja pemahaman tentang cara kerja teknologi ini, yaitu orang-orang yang kemungkinan besar terlibat dalam proses memutuskan apakah akan memakai teknologi ini dan produk Google lainnya, bisa langsung melihat manipulasinya
  Orang-orang seperti itu juga sering kali termasuk tipe yang bereaksi sangat negatif terhadap perilaku menipu seperti ini
Demo ini persis seperti yang ingin disampaikan saat peluncuran Gemini
Semua kehebohan itu sebenarnya tidak perlu
GPT-4V benar-benar sangat kuat, dan kalau tertarik pada vision atau multimodal, saya juga sangat menyarankan untuk serius mencoba LLaVA(https://github.com/haotian-liu/LLaVA)
Beberapa hari terakhir saya mencoba varian 7B q5_k dan cukup terkesan, sampai cukup bagus untuk membuat aplikasi demo internal perusahaan maupun proof of concept
Tapi lisensinya tetap harus dicek dulu, atau dipakai hanya untuk demo internal agar poin utamanya tersampaikan
- Saya memakai llava lewat https://github.com/Mozilla-Ocho/llamafile, dan di sistem modern bisa dijalankan hampir di mana saja
- Update untuk yang penasaran apakah LLaVA boleh dipakai secara komersial: lisensinya Apache 2.0, jadi bisa dipakai secara komersial asalkan atribusi dicantumkan: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
Ini memang sesuatu yang sejak awal sudah bisa dilakukan dengan GPT-4V
Secara harfiah cukup ambil screenshot lalu masukkan gambar dan teks dalam format chat, yaitu secara interleaved
Saya membuat sesuatu yang mirip di hackathon baru-baru ini(https://x.com/swyx/status/1722662234680340823)
Yang aneh adalah Google juga bisa melakukan itu, dan semua orang mungkin akan tetap kagum dengan wajar, tetapi mereka malah membuat video pemasaran yang menyesatkan untuk publik umum
Akibatnya, para nerd frustrasi lainnya harus kebagian tugas kotor menjelaskan bahwa “teknologinya belum seperti yang ditunjukkan di TV”, dan jadinya seolah itu salah kami
Saya juga penasaran berapa biaya untuk menjalankan hal seperti ini
- Selama mengembangkan dan mendemokan ini, saya mengirim 77 request ke GPT-vision API, dan total tagihannya $0.47
  Cukup masuk akal
Sekarang saya jadi yakin bahwa Google DeepMind sebenarnya tidak punya apa-apa yang nyata di sisi LLM mutakhir, dan cuma menggertak
Saya ingat saat ChatGPT dirilis, Google bilang mereka punya model yang jauh lebih bagus tetapi tidak dirilis karena alasan keamanan AI
Lalu mereka merilis PaLM dan PaLM 2 sambil berkata sekarang saatnya dipublikasikan untuk mengalahkan ChatGPT, tetapi modelnya ternyata tidak bagus
Setelah itu mereka sangat membesar-besarkan Gemini, dan kalau yang dimiliki Gemini Ultra adalah yang terbaik dari mereka, sulit percaya bahwa ada model yang lebih baik
Setahun lalu saya pikir Google punya model terbaik tetapi hanya memilih untuk tidak merilisnya, lalu kemudian saya berharap mereka setidaknya bisa membuat model terbaik karena punya infrastruktur, data, dan talenta
Tapi ternyata mereka memang tidak punya apa-apa
Baru-baru ini saya mencoba benar-benar memakai aplikasi terjemahan percakapan AI dari Google yang pernah mereka umumkan dulu dan sejak itu sudah melewati banyak update dan iterasi
Untuk percakapan nyata, levelnya benar-benar tidak bisa dipakai sama sekali
Saya sempat berharap karena sedang berada dalam situasi di mana itu bisa sangat membantu, dan saya ingat demo lamanya terlihat sangat natural, meski saya sendiri belum pernah mencobanya
Setelah mencobanya sekarang lalu menonton ulang demo aslinya, saya jadi 100% yakin bahwa semuanya, atau setidaknya sebagian, direkayasa
Rasanya mustahil itu pernah benar-benar berfungsi
Kalau terjemahan percakapan real-time yang jauh lebih berguna daripada sekadar menggambar bebek saja pun tidak bisa mereka buat dengan benar, saya jadi sangat meragukan AI baru ini juga
Ini terlihat persis seperti situasi yang sama, dan saya tidak mengerti bagaimana mereka bisa sebegitu tak tahu malunya sampai merekayasa sesuatu seperti ini secara utuh
- Nama aplikasinya apa?
Sedikit terpisah dari demo keren ini, antarmuka yang hanya bisa memasukkan gambar JPEG ke GPT-4 terasa seperti pemborosan
Mata manusia memproses perbedaan antar frame, bukan sekadar gambar itu sendiri
Rasanya langkah besar berikutnya agar pemrosesan video real-time resolusi tinggi jadi mungkin adalah model yang menangani state internal seperti codec video semacam MPEG, yaitu dengan keyframe dan delta
- Saat Google membicarakan multimodalitas Gemini, mereka memasukkan “video” dalam daftar mode
  Sangat mungkin yang mereka maksud bukan video sungguhan, melainkan frame seperti pada demo ini
  Setidaknya sejauh yang saya lihat, mereka tidak pernah menjelaskannya secara rinci di mana pun
Lucu juga mereka memilih nama Sagittarius
Itu tepat berada di sisi berlawanan dari Gemini dalam zodiak
- Dulu ada spekulasi bahwa Facebook menamai mata uang kripto mereka yang ternyata kosong, Libra lalu kemudian “Diem”, sebagai sindiran terhadap pesaing lama mereka, si kembar Winklevoss, yang membuat bursa kripto bernama Gemini
  Saya tidak tahu seberapa cerdik itu kalau dilihat dari sisi astrologi
Dari kodenya, speech-to-text dan text-to-speech tampaknya memakai fitur bawaan browser
Saya selalu lupa bahwa fitur seperti itu memang ada
Karena ini lewat API, latensinya masih bisa dimaklumi
Inferensi di infrastruktur lokal nyaris seketika, jadi kalau orang ini punya akses ke sana, demo ini pasti akan mengungguli yang lain

Show HN: Merekreasi ulang demo Google Gemini palsu menggunakan GPT-4, kali ini benar-benar diimplementasikan

Remake demo Google Gemini palsu dengan GPT-4, kali ini benar-benar nyata

Pendapat GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News