1 poin oleh GN⁺ 2024-10-28 | 1 komentar | Bagikan ke WhatsApp
  • Seri tutorial untuk membangun workflow yang mengubah PDF menjadi podcast
  • Bisa juga mempelajari eksperimen menggunakan model text-to-speech
  • Semua hal dibahas di masing-masing notebook, bahkan tanpa pengetahuan awal tentang LLM, prompt, atau model audio

Proses langkah demi langkah

  • Langkah 1: Pra-pemrosesan PDF
    Menggunakan model Llama-3.2-1B-Instruct untuk memproses PDF lalu menyimpannya sebagai file .txt.
  • Langkah 2: Menulis transkrip
    Menggunakan model Llama-3.1-70B-Instruct untuk menulis transkrip podcast dari teks.
  • Langkah 3: Penulisan ulang dramatis
    Menggunakan model Llama-3.1-8B-Instruct untuk membuat transkrip menjadi lebih dramatis.
  • Langkah 4: Workflow text-to-speech
    Menggunakan model parler-tts/parler-tts-mini-v1 dan bark/suno untuk membuat podcast berbentuk percakapan.

Langkah rinci untuk menjalankan notebook

  • Persyaratan
    Diperlukan server GPU atau penyedia API untuk menggunakan model Llama 70B, 8B, dan 1B.
  • Notebook 1
    Memproses PDF dan mengubahnya menjadi file .txt menggunakan model Feather light.
  • Notebook 2
    Mengambil output dari notebook 1 dan mengubahnya secara kreatif menjadi transkrip podcast.
  • Notebook 3
    Mengambil transkrip sebelumnya lalu menambahkan elemen dramatis dan jeda ke dalam percakapan.
  • Notebook 4
    Mengubah hasil dari notebook terakhir menjadi podcast.

Ide perbaikan/penambahan ke depan

  • Eksperimen model suara: perlu peningkatan model TTS agar suara terdengar lebih alami.
  • Debat LLM vs LLM: dua agen mendiskusikan topik untuk menyusun kerangka podcast.
  • Pengujian penulisan transkrip menggunakan model 405B.
  • Menulis prompt yang lebih baik.
  • Mendukung kemampuan untuk mengumpulkan website, file audio, link YouTube, dan lain-lain.

Ringkasan GN⁺

  • NotebookLlama adalah proyek open source yang mengubah PDF menjadi podcast, menggunakan berbagai model LLM dan TTS untuk menghasilkan konten kreatif.
  • Proyek ini menunjukkan potensi untuk menghasilkan suara yang lebih alami melalui eksperimen dengan model LLM dan TTS.
  • Proyek dengan fungsi serupa yang direkomendasikan antara lain TTS API dari Google dan Amazon Polly.

1 komentar

 
GN⁺ 2024-10-28
Komentar Hacker News
  • Semakin sering mendengarkan "episode" NotebookLM, semakin yakin bahwa Google melatih model "diskusi podcast" dengan dua pembicara berdasarkan backbone multimodal yang sudah ada

    • Cara kedua pembicara saling memotong dan bercakap seperti manusia terasa sangat alami
    • Mungkin model tersebut di-fine-tune berdasarkan podcast nyata dan transkripnya
    • Dengan mengambil episode "The Daily" sebagai contoh, diperkirakan model bahasa menulis artikel fiktif yang merangkum isi podcast, lalu memasukkannya ke model dua pembicara dan memeriksa seberapa cocok transkrip keluarannya dengan artikel input
  • NotebookLM sangat mengesankan bahkan bagi orang yang tidak akrab dengan teknologi

    • Orang tua berusia 70-an dan anak berusia 8 tahun pun terus memakainya sambil tak henti-hentinya merasa kagum dengan teknologi ini
  • Pilihan engine TTS terasa aneh

    • Dibandingkan sistem TTS terbuka terbaru, XTTSv2 atau F5-TTS yang baru dianggap akan menjadi pilihan yang lebih baik
  • Output sampelnya dinilai sangat kurang

    • Ditekankan bahwa tim NotebookLM berhasil membuat produk yang sangat sukses dengan menggunakan model dasar yang sudah ada
  • Berharap dirilis untuk bahasa lain dan beragam aksen, terutama aksen Asia Tenggara

  • Ada yang mengira NotebookLM bukan open source, melainkan hanya beberapa eksperimen di notebook iPython

    • Fungsinya di level LLM tidak terlalu baru, tetapi cara mengemasnya sebagai produk cukup menarik
    • Bagian "podcast" dipandang hanya sebagai pengantar/ikhtisar dari korpus besar, dan mendapatkan referensi yang dikutip lewat percakapan dengan bot dianggap lebih berguna
  • Menunjukkan bahwa pembuatan prototipe dengan LLM sangat cepat

    • Merekomendasikan orang yang belum pernah memakai API untuk mencobanya
  • Ada pertanyaan apakah NotebookLM hanya menghasilkan podcast

    • Podcast memang menyenangkan, tetapi dianggap sebagai fitur yang agak gimmick
  • Akan bagus jika bisa dijalankan secara lokal di ponsel

    • Misalnya, jika dokumen kerja bisa diubah menjadi podcast untuk didengarkan saat mengemudi, produktivitas akan meningkat besar
  • Sampelnya dinilai agak kasar

  • Menyebut ingin mendengar output dari orang yang sudah mencoba NotebookLM