- Kode yang merangkum makalah ArXiv agar mudah dibaca lalu mengubahnya menjadi audio/video dengan GPT
- Mengubah makalah menjadi format video untuk pembelajar visual, dan menjadi audio untuk mereka yang lebih suka mendengarkan
- Tahapan kerja
- Mengunduh source code makalah melalui ArXiv ID
- Menggunakan
latex2html atau latexmlc untuk mengubah kode LaTeX menjadi halaman HTML
- Mengekstrak teks dan rumus dari halaman HTML, sementara tabel dan gambar diabaikan
- Saat membuat video, memetakan halaman PDF, teks, dan chunk teks yang sesuai dengan blok halaman
- Membagi teks ke dalam beberapa bagian dan menyusun ulang, menyederhanakan, serta menjelaskannya melalui OpenAI GPT API
- Membagi teks yang dihasilkan GPT menjadi beberapa chunk dan mengubahnya menjadi audio menggunakan API text-to-speech milik Google
- Mengemas semua bagian yang diperlukan untuk membuat file zip bagi pemrosesan video
- Menggunakan peta teks-blok yang telah dihitung sebelumnya untuk membuat video dengan
ffmpeg
1 komentar
Sampai video juga? Saya sempat kaget lalu cek ke YouTube, ternyata hanya tangkapan layar halaman makalah + suara.
Kalau OpenAI Sora dirilis, sepertinya bukan tidak mungkin nantinya bisa menghasilkan video yang bahkan menafsirkan isi makalah itu sendiri dan menjelaskannya.
Kanal YouTube resmi: https://www.youtube.com/@ArxivPapers