Saya jadi teringat Disquiet yang dulu pernah ada...semoga berjalan dengan baik

 

diarization memang bagus, tetapi ada beberapa bagian yang agak kurang memuaskan, jadi kalau ingin mendalami lebih jauh di antara model-model yang sudah dipublikasikan, sepertinya seperti komentar di bawah, kita malah harus benar-benar masuk ke ranah riset.

 
iolothebard 9 hari lalu | induk | di: Anthropic merilis Claude Opus 4.8 (anthropic.com)

Sudahlah, kamu sudah makan banyak, Nak~

 
skageektp 9 hari lalu | induk | di: Saya Lelah Berbicara dengan AI (orchidfiles.com)

Ah, jadi berbicara dengan AI itu harus dianggap sesuatu yang aneh?
Kalau berbicara dengan manusia itu hal yang positif?

 

Anda juga bisa membuat koleksi sendiri dan membagikannya kepada orang lain.

Saya akan memikirkan penjelasan layanannya.

 

Baru pertama kali melihatnya jadi saya cari tahu, ini layanan yang bagus.
Sepertinya bisa menjadi referensi yang baik. Terima kasih!

 

Ide yang bagus kemungkinan besar sudah pernah dicoba oleh seseorang di belahan bumi lain. Apakah Anda tahu rendercv?

 

Sebelumnya pun sudah nyaman dipakai, tapi setelah diperbarui rasanya jadi lebih bagus lagi hehe

 

Saya pernah melakukan riset terkait pemisahan pembicara, jadi saya akan menyampaikan berdasarkan yang saya tahu.

  1. Ya, hasilnya akan jadi lebih presisi. Namun secara teknis tingkat kesulitannya mungkin cukup tinggi. Karena ini berarti perubahan bentuk mulut dan sinkronisasi suara juga bisa dicocokkan. Ada banyak open source terkait seperti TalkNet-ASD, 3D-Speaker-Toolkit, jadi Anda bisa menjadikannya referensi dengan baik. Selain itu, belakangan ini juga ada riset seperti SpeakerLM yang digabungkan dengan LLM, sehingga gambar dan video dapat diberikan bersama sebagai input untuk melakukan pemisahan pembicara dan pembuatan subtitle secara bersamaan.
  2. Untuk ini, karena saya tidak terlalu memahami konteks bisnis yang sedang Anda jalankan, saya hanya bisa bicara berdasarkan informasi yang tertulis. Wajah yang muncul dalam konten seperti drama, film, atau variety show, meskipun orangnya sama, bisa terekstrak sangat berbeda tergantung riasan atau situasinya. Jadi Anda perlu mengekstrak seluruh wajah tokoh yang muncul di tiap konten, lalu melakukan clustering per wajah dan mencocokkannya satu per satu dengan daftar pemeran dari konten tersebut. Ini memang bisa dilakukan dengan model multimodal, tetapi demi akurasi tetap dibutuhkan pelabelan oleh manusia, sehingga memakan banyak biaya dan waktu. Itu juga alasan kenapa orang membayar pekerja lepas untuk melakukannya. Sebagai referensi, bahkan ketika hanya ada audio, jika data suara ini dikumpulkan lebih dulu lalu dilabeli dan di-embedding oleh manusia, kualitas pemisahan pembicara akan meningkat cukup besar.
  3. Database untuk konten seperti ini memiliki banyak API terkait seperti tmdb, imdb, kmdb, jadi siapa pun bisa mengambilnya sampai batas tertentu, baik gratis maupun berbayar. Tetapi untuk membuatnya menjadi database, Anda tetap perlu mengerjakannya sendiri. Crawling juga bisa menjadi salah satu cara.
  4. Saya tidak tahu persis apa yang ingin Anda lakukan, tetapi yang saya jelaskan di atas memang terdengar mudah diucapkan, namun untuk benar-benar meningkatkan akurasi dibutuhkan banyak waktu dan biaya. Riset yang pernah saya lakukan juga memanjang cukup lama karena berbagai alasan. Mencapai akurasi 80–90% itu mudah, tetapi itu adalah sesuatu yang bisa dilakukan siapa saja. Karena itu, mengisi detail pada sisa 10% inilah yang menjadi esensi komersialisasi dan nilai intinya. Jika Anda bertanya, "apakah kualitasnya membaik," maka tentu membaik. Namun jika pertanyaannya, "apakah membaik sebanding dengan biaya dan waktu," saya kurang yakin. Seperti yang saya katakan, peningkatannya hanya sekitar 10%.

Bagaimanapun juga, sangat mengagumkan dan keren melihat orang non-developer mencoba tantangan seperti ini. Semoga hasilnya baik.

 
tested 10 hari lalu | induk | di: Saya Lelah Berbicara dengan AI (orchidfiles.com)

Aku sekarang sudah lelah sialan

 

Oh! Bagus ya. Sepertinya saya harus mencobanya.

 
inust33 10 hari lalu | induk | di: Saya Lelah Berbicara dengan AI (orchidfiles.com)

Fakta bahwa Anda tidak merasa itu aneh....

 

Idenya menarik! Namun, karena penjelasannya tidak terlihat sebelum di-hover, rasanya penelusurannya malah jadi sedikit lebih merepotkan..! Akan lebih bagus kalau informasinya muncul di bagian bawah thumbnail!

 

Saya penulisnya.

Berkat masukan yang baik di komentar, saya memutuskan untuk menghentikan tindakan menumpuk tulisan generatif massal dengan AI.
Seharusnya saya berhenti pada sebatas mengunggah tulisan yang dibuat AI ke blog dan membacanya sendiri, tetapi mempostingnya ke GeekNews karena mengejar jumlah tayangan adalah kesalahan saya.

Sekarang saya beralih agar AI bukan sekadar mengunggah tulisan, melainkan membantu saya saat saya menulis. Jika pembelajaran yang saya peroleh dalam proses itu terasa bermakna, saya akan kembali ke GeekNews.

Terima kasih banyak kepada Anda semua yang telah meninggalkan komentar yang baik.
( Tulisan utama juga sudah saya perbaiki agar ditulis oleh saya sendiri. )

 
kirinonakar 10 hari lalu | induk | di: Apa alat pengembang favorit Anda? (lobste.rs)

Saya sudah mencoba beberapa, tapi belum ada yang benar-benar pas, jadi sekarang saya sedang membuatnya sendiri. Saya mengambil hanya fitur yang saya butuhkan dengan menjadikan notepad++, VS code, Zed, dan Obsidian sebagai referensi.

 

Anda terlalu memuji! Karena ini adalah vibe coding untuk bertahan hidup dari seseorang yang berlatar belakang perencana, ternyata saya memang tidak bisa luput dari mata tajam para pengguna GeekNews.

Seperti yang Anda sampaikan, membagikan source code dan menerima feedback tampaknya memang merupakan jalan untuk berkembang satu tingkat lagi sebagai seorang maker. Saya akan merapikan sedikit lagi kode dan strukturnya, lalu dalam waktu dekat mencoba membuka Github Repo dengan percaya diri. Terima kasih!

 

Kalau di Mac, untuk memasukkan bahasa Korea di terminal bukannya harus menekan Enter dua kali? (2 kali, setelah komposisi Hangul selesai lalu saat memasukkan)
Satu-satunya yang tidak punya masalah ini cuma wezterm, jadi saya pindah ke sana.

 
albert 10 hari lalu | induk | di: OpenHuman - Superinteligensi AI Pribadi (github.com/tinyhumansai)

Karena tampaknya lebih baik daripada openclaw untuk wiki LLM bawaan, saya sempat berpikir untuk mencobanya. Apakah ada alasan tertentu Anda memandangnya secara negatif?

 

Ide yang bagus. Dengan begitu, grafik atau beberapa figure juga bisa disertakan. Terima kasih atas idenya!

 

Komentarnya tampaknya ingin banyak. Kemampuan memancing percakapan memang bagus. Di sini, akan lebih disukai kalau repo di github.com diunggah dulu. Kata seorang developer.