2 poin oleh GN⁺ 2023-12-12 | 1 komentar | Bagikan ke WhatsApp

Remake demo Google Gemini palsu dengan GPT-4, kali ini benar-benar nyata

  • Proyek yang me-remake demo Google Gemini palsu menggunakan GPT-4.
  • Demo yang benar-benar berfungsi disediakan, dan kode terkait dapat dilihat di repositori GitHub.
  • Proyek ini dibuat oleh Greg Technology.

Pendapat GN⁺

  • Poin terpenting dari artikel ini adalah adanya proyek yang benar-benar mengimplementasikan demo palsu dari masa lalu dengan memanfaatkan GPT-4.
  • Menarik sebagai contoh yang menunjukkan proses bagaimana kemajuan teknologi kecerdasan buatan menghasilkan produk inovatif yang benar-benar bisa digunakan.

1 komentar

 
GN⁺ 2023-12-12
Komentar Hacker News
  • "Keajaiban" dari demo Gemini palsu adalah demo itu dibuat seolah-olah LLM terus-menerus menerima input audio dan video, mengetahui kapan pengguna selesai berbicara atau menggambar, lalu merespons pada waktu yang tepat.
  • Hasil peninjauan kode sumber menunjukkan bahwa demo tersebut mengambil tangkapan layar dari feed video setiap 800 ms, menunggu sampai pengguna selesai menggambar, lalu mengirim tiga tangkapan layar terakhir. Ini membuktikan bahwa berinteraksi dengan LLM dengan cara seperti ini terasa tidak alami tanpa input audio-video yang kontinu.
  • Sulit memahami mengapa perusahaan berbohong dengan cara seperti ini. Padahal mereka bisa kehilangan banyak hal; promosi yang dibesar-besarkan seperti ini mungkin membantu dalam jangka pendek, tetapi tidak membantu dalam jangka panjang.
  • Saya yakin Google DeepMind sebenarnya tidak memiliki LLM yang benar-benar mutakhir. Saat ChatGPT dirilis, Google mengatakan mereka tidak merilis model yang lebih baik karena alasan keamanan AI, tetapi kenyataannya tidak demikian.
  • GPT-4V sangat mengesankan, dan saya menyarankan siapa pun yang tertarik pada visi atau multimodalitas untuk mencoba LLaVA. Secara pribadi saya sudah mencoba varian 7B q5_k dan menurut saya itu sangat mengesankan.
  • Saya bisa membuat demo serupa menggunakan GPT-4V. Jika Google melakukan pemasaran yang jujur, semua orang akan terkesan dengan cara yang semestinya, tetapi sebaliknya mereka membuat video pemasaran yang menyesatkan untuk publik umum dan mengecewakan para ahli teknis.
  • Saya sempat ingin benar-benar mencoba aplikasi terjemahan percakapan AI dari Google, tetapi ternyata sama sekali tidak bisa dipakai untuk percakapan nyata. Di demo terlihat alami, tetapi saya memastikan bahwa dalam praktiknya itu tidak berfungsi.
  • Saya rasa hanya menggunakan gambar JPEG sebagai satu-satunya antarmuka dengan GPT-4 adalah pemborosan. Mata manusia mengenali perbedaan antar-frame, bukan sekadar "frame" itu sendiri. Seperti codec video, model yang state internalnya bekerja dengan key frame dan delta bisa menjadi langkah besar berikutnya dalam pemrosesan video real-time.
  • Saya yakin Google DeepMind sebenarnya tidak memiliki model bahasa yang benar-benar mutakhir. Saat ChatGPT diluncurkan, Google mengatakan mereka tidak merilis model yang lebih baik karena alasan keamanan AI, tetapi kenyataannya tidak demikian.
  • Latensi pada demo ini bisa dimaklumi karena melalui API. Inferensi pada infrastruktur lokal hampir seketika, jadi demo ini akan mengungguli yang lain jika memiliki akses ke infrastruktur tersebut.
  • Pemilihan nama Sagittarius terasa lucu karena dalam zodiak posisinya berseberangan dengan Gemini.