- Mengimplementasikan layanan seperti "Be My Eyes" dengan AI, yang menghubungkan penyandang tunanetra dengan relawan untuk membacakan layar
- Web app yang melihat video melalui backend multimodal dan menjelaskan apa yang terlihat secara real-time
- Menjalankan model multimodal open source BakLLaVA-1 dari SkunkworksAI dengan llama.cpp, dan mengeluarkan suara melalui Web Speech API
4 komentar
Wah, kalau melihat hal seperti ini saya bangga menjadi seorang engineer. Sepertinya ini akan sangat membantu para tunanetra.
Ada juga aplikasi bernama 'Sullivan Plus' yang digunakan YouTuber One Shot Hansol.
Sepertinya aplikasi itu bukan hanya mengenali teks, tetapi juga memahami ciri-ciri objek.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - berikan penglihatan kepada tunanetra
AI image captioning dari MS mulai mendeskripsikan foto seperti manusia
Kabar seperti ini benar-benar menyenangkan, haha. Putri saya penyandang tunanetra soalnya.