- Seri tutorial untuk membangun workflow yang mengubah PDF menjadi podcast
- Bisa juga mempelajari eksperimen menggunakan model text-to-speech
- Semua hal dibahas di masing-masing notebook, bahkan tanpa pengetahuan awal tentang LLM, prompt, atau model audio
Proses langkah demi langkah
- Langkah 1: Pra-pemrosesan PDF
Menggunakan model Llama-3.2-1B-Instruct untuk memproses PDF lalu menyimpannya sebagai file .txt.
- Langkah 2: Menulis transkrip
Menggunakan model Llama-3.1-70B-Instruct untuk menulis transkrip podcast dari teks.
- Langkah 3: Penulisan ulang dramatis
Menggunakan model Llama-3.1-8B-Instruct untuk membuat transkrip menjadi lebih dramatis.
- Langkah 4: Workflow text-to-speech
Menggunakan model parler-tts/parler-tts-mini-v1 dan bark/suno untuk membuat podcast berbentuk percakapan.
Langkah rinci untuk menjalankan notebook
- Persyaratan
Diperlukan server GPU atau penyedia API untuk menggunakan model Llama 70B, 8B, dan 1B.
- Notebook 1
Memproses PDF dan mengubahnya menjadi file .txt menggunakan model Feather light.
- Notebook 2
Mengambil output dari notebook 1 dan mengubahnya secara kreatif menjadi transkrip podcast.
- Notebook 3
Mengambil transkrip sebelumnya lalu menambahkan elemen dramatis dan jeda ke dalam percakapan.
- Notebook 4
Mengubah hasil dari notebook terakhir menjadi podcast.
Ide perbaikan/penambahan ke depan
- Eksperimen model suara: perlu peningkatan model TTS agar suara terdengar lebih alami.
- Debat LLM vs LLM: dua agen mendiskusikan topik untuk menyusun kerangka podcast.
- Pengujian penulisan transkrip menggunakan model 405B.
- Menulis prompt yang lebih baik.
- Mendukung kemampuan untuk mengumpulkan website, file audio, link YouTube, dan lain-lain.
Ringkasan GN⁺
- NotebookLlama adalah proyek open source yang mengubah PDF menjadi podcast, menggunakan berbagai model LLM dan TTS untuk menghasilkan konten kreatif.
- Proyek ini menunjukkan potensi untuk menghasilkan suara yang lebih alami melalui eksperimen dengan model LLM dan TTS.
- Proyek dengan fungsi serupa yang direkomendasikan antara lain TTS API dari Google dan Amazon Polly.
1 komentar
Komentar Hacker News
Semakin sering mendengarkan "episode" NotebookLM, semakin yakin bahwa Google melatih model "diskusi podcast" dengan dua pembicara berdasarkan backbone multimodal yang sudah ada
NotebookLM sangat mengesankan bahkan bagi orang yang tidak akrab dengan teknologi
Pilihan engine TTS terasa aneh
Output sampelnya dinilai sangat kurang
Berharap dirilis untuk bahasa lain dan beragam aksen, terutama aksen Asia Tenggara
Ada yang mengira NotebookLM bukan open source, melainkan hanya beberapa eksperimen di notebook iPython
Menunjukkan bahwa pembuatan prototipe dengan LLM sangat cepat
Ada pertanyaan apakah NotebookLM hanya menghasilkan podcast
Akan bagus jika bisa dijalankan secara lokal di ponsel
Sampelnya dinilai agak kasar
Menyebut ingin mendengar output dari orang yang sudah mencoba NotebookLM