- Dengan generasi on-demand real-time, setiap halaman dibuat sebagai gambar, dan saat objek di dalam gambar diklik, layar baru untuk menjelajah lebih dalam akan dibuat
- Layar berjalan sebagai antarmuka berpusat pada piksel tanpa HTML atau kolom input, dan bahkan teks dirender langsung oleh model gambar sebagai piksel
- Informasi halaman dibuat dengan menggunakan agentic web search bersama pengetahuan dunia dari model gambar, dan disebut memiliki tingkat akurasi yang mirip dengan yang diharapkan dari ChatGPT, Gemini, dan Claude
- Fitur live video stream menganimasikan gambar penjelajahan dan membuat transisi lebih mulus, tetapi saat ini disembunyikan di balik toggle karena masih sulit diprediksi dan boros sumber daya
- Untuk saat ini, ini lebih dekat ke alat eksplorasi dan pembelajaran eksperimental, tetapi jika akurasi dan performa model gambar/video meningkat, lingkungan ini dapat meluas untuk mencakup lebih banyak data nyata, interaksi, eksekusi tugas, hingga penyimpanan data
Ikhtisar
- Ini adalah browser visual tak terbatas yang bekerja dengan generasi on-demand real-time, menyusun setiap halaman yang didatangi pengguna sebagai gambar
- Di layar tidak ada HTML, kode, tautan tertentu, atau kolom input, dan saat objek di dalam gambar diklik, gambar baru yang menjelajahi objek tersebut lebih dalam akan dibuat
- Web dibangun ulang bukan sebagai kumpulan dokumen dan elemen UI, melainkan sebagai antarmuka berpusat pada piksel yang dihasilkan di layar
Cara kerja dan arah pengembangan
- Semua teks di layar juga dirender langsung oleh model gambar sebagai piksel, tanpa menaruh overlay teks terpisah di atas gambar
- Akibatnya, teks kadang bisa tidak lengkap atau muncul di posisi yang salah, dan disebut dapat membaik seiring peningkatan model
- Informasi di dalam gambar dibuat dengan menggabungkan agentic web search dan pengetahuan dunia milik model gambar itu sendiri
- Kadang bisa tidak akurat, tetapi diperkenalkan sebagai titik awal yang berguna dan biasanya berpijak pada data nyata di internet
- Disebut bahwa akurasi faktualnya mirip dengan tingkat yang bisa diharapkan saat menggunakan ChatGPT, Gemini, atau Claude
- Alih-alih layar yang didominasi teks dan kotak warna, pengalaman komputasi ini menargetkan penyampaian informasi lewat representasi visual yang kaya
- Pendekatan ini memandang bahwa kode dan aturan yang kaku saja sulit menyampaikan gagasan yang kompleks dan rinci, lalu menekankan arah yang memilih bentuk ekspresi paling efektif sesuai konteks, seperti satu kata, ilustrasi, atau rendering realistis
- live video stream adalah fitur eksperimental yang mengubah gambar statis menjadi aliran video yang lebih kontinu, menganimasikan tiap gambar penjelajahan dan membuat transisi di antaranya lebih mulus
- Perilakunya saat ini masih agak sulit diprediksi dan juga memakan banyak sumber daya, sehingga ditempatkan di balik toggle yang bisa dinyalakan dan dimatikan
- Saat ini digunakan model pembuatan video kustom yang sangat dioptimalkan bersama dua sistem pembuatan gambar, dan ke depannya direncanakan akan digabung menjadi satu sistem tunggal
- Saat ini dirancang sebagai alat eksplorasi dan pembelajaran eksperimental, tetapi jika akurasi dan performa model gambar/video meningkat, ini dapat berkembang menjadi halaman yang mencakup lebih banyak data nyata, dapat berinteraksi, menjalankan tugas secara langsung, dan menyimpan datanya sendiri
- Sebagai contoh, alih-alih hanya meneliti perjalanan berikutnya lalu melakukan pemesanan di tempat lain, seluruh prosesnya bisa ditangani di dalam Flipbook
- Tugas yang saat ini memerlukan aplikasi dan situs web terpisah juga disebut dapat lebih banyak ditangani di dalam lingkungan yang terlihat dan berfungsi seperti Flipbook di masa depan
- Tidak akan diputar di browser yang tidak mendukung video tersemat
- Demo menggunakan video yang sudah dibuat sebelumnya dan telah diedit demi kecepatan
3 komentar
Melihat situs dan video perkenalannya saja sudah bikin ingin coba sekali.. tapi katanya harus menunggu 3 jam. Sepertinya penggunanya benar-benar membludak.
https://x.com/DongwooKim/status/2047499005580738657
Saya mencoba memutar Seoul Namsan, dan hasilnya terasa sangat mungil dan bagus.
Komentar Hacker News
Ini benar-benar menakjubkan. Aku mengunggah diagram sistem hidroponik yang kutemukan entah dari mana,
lalu ia membuatkan diagram berkualitas tinggi terpisah untuk detail seperti perpipaan, suplai nutrisi, dan pengkabelan listrik
Memang tidak sepenuhnya akurat, tapi aku sangat suka konsepnya
Aku memintanya membuat diagram spesifikasi torsi suspensi mobil, dan karena itu topik yang kukenal, saat kucek
ternyata hampir semuanya tergambar dengan benar dan angka torsinya juga tepat
Aku bisa mengeklik komponen satu per satu untuk memperbesar dan melihat spesifikasi tambahan
Ini demo paling mengesankan yang kulihat setelah sekian lama, dan rasanya bisa dipakai seperti manual servis Haynes yang hidup
Yang benar cuma bahwa dibutuhkan panel surya, charge controller, baterai, dan beban; pengkabelannya sama sekali tidak masuk akal
Begitu masuk ke detail seperti pengaturan charge controller, semuanya langsung runtuh
Ini jelas tidak bisa dipakai sebagai informasi yang benar-benar diandalkan, tapi sebagai tontonan tetap menarik dan implementasinya mengesankan
hasilnya cuma gudang biasa dengan upcycled door ditempelkan begitu saja
Bahkan tidak terlihat di mana sepedanya masuk, dan yang ditampilkan cuma struktur yang bahkan tidak mirip bentuk akhir yang sebenarnya
Sama seperti demo AI lain, kelihatannya meyakinkan di permukaan, tapi sistemnya pada dasarnya tidak memahami apa yang sedang dilakukannya
Aku memintanya memberi label komponen di ruang mesin Jeep Wrangler JK dan awalnya keluar diagram yang tampak meyakinkan
Tapi reservoir minyak rem ada di sisi sebaliknya, dan di tempat itu justru ditempeli label tangki overflow coolant, sementara tangki overflow yang sebenarnya tergambar tapi tidak diberi label
Posisi baterainya juga salah, bagian atas grill depan ditulis sebagai tutup filter oli, dan posisi lubang pengisian oli juga salah
Setengah baterai diberi label sebagai fuse box, sementara fuse box yang asli tergambar dengan benar di sisi seberangnya tapi tanpa label
Tangki cairan washer kaca depan juga muncul sebagai dua buah yang saling menempel
Saat mengeklik tangki coolant yang salah label itu, aku dibawa ke halaman lain, dan kali ini posisinya benar tapi bentuk tangkinya sama sekali berbeda, plus tutup radiator diletakkan di atas tangki itu
Padahal seharusnya berada di atas radiator
Orang yang paham akan bisa menemukan cacat di setiap bagiannya, tapi di mata orang yang tidak tahu, ini terlihat cukup meyakinkan; rasanya persis seperti kisah LLM
sekilas tampilannya memang mirip Mac Pro, tapi semua elemen visualnya salah
Teksnya juga hanya terlihat benar pada pandangan pertama, dan isi setelah diklik pun hampir semuanya salah
Memang terlihat keren, tapi sudah lama aku tidak melihat AI terus-menerus salah separah ini sejak 2023
"your mom", lalu ia membuat sesuatu seperti plasenta yang ditumpangkan di atas linimasa sosial historis keibuanYang ini kusetujui
Proyeknya keren, tapi aku selalu penasaran dari mana datangnya sumber daya dan uang untuk membuat hal seperti ini lalu menjalankannya sebagai layanan publik
Mungkin mereka punya GPU sendiri atau memakai API GPT/Gemini dengan inferensi bersubsidi perusahaan,
tapi sebagai orang yang hidup hemat, aku masih sulit membayangkannya
Sama sekali tidak menyangka akan meledak sebesar ini
Ada yang membelanjakan uang untuk game, melukis, atau woodworking,
dan ada juga yang memakai sisa anggaran waktu luang dari gaji level FAANG untuk proyek seni GenAI alih-alih alkohol atau olahraga
Mungkin itu bukan seleramu, tapi semua orang biasanya punya setidaknya satu pos pengeluaran yang di mata orang lain tampak mewah
Di sini itu disebut immigrant mentality, bukan sebagai hinaan, tapi lebih ke sikap hemat khas orang yang harus memulai hidup dari nol
Selain itu juga sangat lambat, jadi pada akhirnya aku tidak menunggu
Bukan menyalahkan pembuatnya, cuma memang benar-benar terlalu lambat
Awalnya kukira ini bukan diagram, melainkan halaman web itu sendiri yang dibuat secara real-time
Aku selalu tertarik pada masa depan ketika aplikasi dibuat seketika sesuai kebutuhan pengguna,
jadi aku penasaran apakah sudah ada contoh nyata yang benar-benar membangun hal seperti itu
Muncul pengaturan seperti Mac Neo, 2 chip M4 quantum, solid state battery, dan graphene connector
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Muncul Sneed's Feed and Seed. Bahkan ada tulisan Formerly Chuck's
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
Kalau ini berhasil tepat, aku benar-benar akan sangat kagum
Sepertinya ini tidak ada di dalam data pelatihannya
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
Idenya menarik, tapi sekarang hampir semuanya gagal
Mungkin karena HN hug of death
Muncul 429 RESOURCE_EXHAUSTED bersama
Gemini generateContent request failed,lalu ada pesan yang menyuruh memeriksa paket dan informasi penagihan karena kuota saat ini terlampaui
Tautan ke informasi batas yang lebih rinci juga ditampilkan
Demo di halaman utama menampilkan Paris Travel Overview / Visiting Notre Dame, jadi
aku mencobanya dengan beberapa kota dan tempat yang benar-benar pernah kukunjungi
Titik-titik minatnya sendiri kadang dikenali dengan benar, tapi hubungan posisi spasial antartempat benar-benar kacau
Bahkan tidak mendekati kenyataan
Ini tampak seperti produk yang cukup mahal untuk terkena HN hug of death
Video sampel yang diunggah di tweet benar-benar keren
Hanya saja sekarang tidak berjalan dengan baik, jadi aku akan menunggunya sampai trafiknya reda lalu mencobanya lagi beberapa hari lagi