10 poin oleh aitechtree 2023-12-28 | 1 komentar | Bagikan ke WhatsApp

Membuat storytelling adalah hal yang sangat penting bagi siapa pun, tetapi juga merupakan bagian yang sulit.
Pada akhirnya, kunci utamanya adalah menciptakan cerita yang bagus.
Sejak ChatGPT muncul, telah terjadi inovasi dalam pembuatan cerita dengan AI, tetapi menurut saya
jalannya masih panjang.

Sekitar hampir setahun yang lalu, saya pernah membuat buku cerita anak menggunakan ChatGPT dan Stable Diffusion,
dan mempublikasikannya di Kakao Brunch, jadi kali ini saya memutuskan untuk membuat sesuatu yang lebih multimodal.

Tujuannya, setelah pengaturan awal, adalah menjadikan "otomatisasi tanpa awak sebagai inti, sehingga lebih dari 99% proses hingga hasil akhir dibuat sendiri oleh AI tanpa campur tangan manusia".
Tentu saja, cerita yang segar dan masuk akal harus terhubung melalui hubungan sebab-akibat, dan itu adalah syarat mutlak.

Karena itu, saya menetapkan "konten YouTube untuk anak-anak" sebagai target eksekusi.
Alasan memilih kategori anak-anak adalah,

  1. relatif lebih mudah menangani cerita
  2. diperkirakan efek yang diharapkan besar dibanding kualitas videonya
  3. ini pertama kalinya saya membuat konten anak-anak, jadi saya ingin mencobanya

[Merancang rencana eksekusi spesifik (arsitektur) dan membangunnya sendiri]

  1. Saya menilai bahwa logika pembuatan cerita perlu "dirancang dalam struktur yang terus menambahkan episode baru sambil menjaga konsistensi" agar memiliki keberlanjutan.

  2. Karena itu, saya membuat GPTs khusus untuk storytelling anak-anak. (saat ini diatur hanya untuk saya lihat)
    Instruksi GPTs disusun sangat rinci, kira-kira sepanjang 1 halaman A4 (tujuannya adalah "agar konsep dan konteks keseluruhan tetap terjaga").
    Saya mengaturnya agar kata-kata kunci yang ditentukan wajib digunakan di awal dan akhir setiap tulisan (sebagai pengaturan tekstual agar orang yang baru pertama kali menonton video ini pun bisa memahami konsep dan latar belakangnya, serta menantikan episode berikutnya).
    Isi utama dikembangkan mengikuti alur waktu yang natural dengan sumbu krisis, konflik, dan penyelesaian, sambil menetapkan banyak contoh detail agar konteks tetap terjaga dan pembuatan episode baru juga mengikuti aturan tersebut.
    *Alasan konsep "Petualangan Tori" ditetapkan sebagai "anak laki-laki yang wajahnya berubah setiap kali bangun tidur" adalah karena menjaga seed saat pembuatan gambar memiliki keterbatasan, jadi saya sengaja ingin mengubah kelemahan itu menjadi keunggulan. Karena episode baru tercipta setiap saat, justru saya menilai ini lebih baik.

  3. Skrip yang dihasilkan dari GPTs dihubungkan melalui Zapier ke Actions via API untuk pemrosesan lanjutan dan pembuatan multimodal.

*Untuk cara detail mengatur GPTs Actions, lihat tautan Kakao Brunch yang saya tulis
https://brunch.co.kr/@seawolf/9

  1. Saat terhubung ke GPTs, saya membuat GPTs menanyakan kepada saya "kata kunci tema episode baru". Hanya itu satu-satunya hal yang ditentukan manusia. Tentu saja, ini pun bisa dibuat acak.
    Cara menghasilkan 'kata kunci tema' mengikuti prosedur berikut sesuai yang diatur dalam instruksi.
  1. Melalui portal pencarian, saya membuatnya mengekstrak dan menampilkan 'kata kunci' terbaru yang disukai 'anak-anak' (dinilai dari volume masuk kata kunci pencarian, dll.). Setelah dicoba, game dan permainan memang sangat dominan.
  2. Setelah memilih kata kunci yang disukai dari daftar yang ditampilkan
  3. sesuai logika yang ditetapkan dalam instruksi, sistem langsung menghasilkan cerita baru sepanjang satu halaman yang masuk akal
  4. Sebagian besar isinya segar dan memuaskan, tetapi melalui prompt kita dapat meminta perubahan kecil atau penghapusan pada beberapa bagian.
  5. Setelah teks final ditetapkan, jika diberi perintah melalui Actions untuk "mengirimkannya ke email saya atau API", teks itu langsung dikirim dan trigger pun terjadi.
  1. Kini di Zapier, yang dipanggil dari GPTs dan menerima nilai kiriman (teks), API dipanggil sesuai urutan yang telah saya atur untuk melakukan pemrosesan data, penggabungan, dan pembuatan.

  2. Komponen multimodal hingga pembuatan video final (memanfaatkan API dan berbagai platform layanan)

  1. Skrip teks yang dioptimalkan
  2. Pembuatan text-to-speech
  3. Konteks dan kata kunci dari korpus skrip (biasanya 1 hingga 3 kalimat ditetapkan sebagai satu blok) diekstrak secara otomatis untuk menghasilkan gambar
  4. Musik, efek suara, emotikon, dan aksesori tambahan lainnya juga ditempatkan secara otomatis sesuai konteks
  5. Suara yang dihasilkan ditampilkan sebagai subtitle
  6. Rendering video final
  7. Sebagai opsi, "konversi ke berbagai bahasa"
  1. Selesai dengan mengunduh hasil akhir
  2. Didaftarkan sebagai konten YouTube

Setelah saya ukur waktu yang dibutuhkan (dan semakin cepat),

  1. Seluruh proses pembuatan cerita baru melalui GPTs: kurang dari 1 menit
  2. Pemrosesan lanjutan oleh API backend melalui pemanggilan Actions: sekitar 1~2 menit
  3. Hingga video multimodal final selesai dibuat secara otomatis: sekitar 3 menit
  4. Jika pada tahap ini manusia melakukan sedikit retouch pada bagian yang perlu dicek dan diperbaiki, kualitasnya meningkat sangat besar (jika hanya retouch sederhana, sekitar 3 menit)
  5. Rendering final: 3~5 menit (berbeda tergantung ukuran video)
    Dengan kata lain, dalam 10 menit, satu video anak-anak yang cukup bagus, solid, dan menarik dengan latar 3D modeling bisa dibuat.
    Biayanya pun, meski memakai beberapa API berbayar termasuk OPENAI serta biaya hosting, jika dijumlahkan semuanya, dari sisi biaya pokok untuk membuat satu video berdurasi kurang dari 3 menit kemungkinan kurang dari 1.000 won per menit.

[Tautan untuk melihat hasil akhirnya]
"Petualangan Tori" episode 1: transformasi menjadi bintang K-POP (bahasa Korea)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

"Petualangan Tori" episode 1: transformasi menjadi bintang K-POP (versi bahasa Inggris)
https://www.youtube.com/watch?v=CT3KHU7BvIs

"Petualangan Tori" episode 2: transformasi menjadi superhero (bahasa Korea)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

"Petualangan Tori" episode 3: transformasi menjadi Santa Claus (bahasa Korea / versi 3D modeling)
https://www.youtube.com/watch?v=wl2RWAqOXtY

Saya menilai bahwa lebih dari 90% prosesnya telah mencapai otomatisasi tanpa awak.
Melalui eksperimen ini, saya menemukan berbagai bidang penerapan dan membagikan tulisan ini dalam rangka berbagi informasi.

Jika Anda menginginkan lebih banyak informasi, silakan bergabung ke komunitas.
[ Tautan bergabung ke komunitas (open chat KakaoTalk) ]
https://open.kakao.com/o/gE6hK9Vf

1 komentar

 
aitechtree 2023-12-28

Semoga ini bisa sedikit membantu banyak orang.