-
Konteks budaya
- StarCraft: Brood War(selanjutnya disebut BW) adalah game yang sangat penting di Korea, dan sebagian besar pemain profesional, tim, serta turnamennya berbasis di Korea.
- BW adalah game strategi yang mirip catur, sehingga bukan hanya memainkannya, tetapi juga mempelajarinya, yang sama pentingnya.
- Seperti opening dalam catur, BW juga memiliki strategi dan build tertentu, yang merupakan bahasa khusus domain yang dikembangkan di dalam komunitas.
-
Masalah pengetahuan bagi orang asing
- Sebagian besar komunitas non-Korea tidak fasih berbahasa Korea.
- Orang asing yang dapat berbicara bahasa Korea dengan lancar jarang ada, sehingga akses informasi komunitas non-Korea lebih terbatas dibanding komunitas Korea.
- Terjemahan mesin memiliki keterbatasan dalam menerjemahkan bahasa khusus domain, dan ini menjadi salah satu faktor yang membuat komunitas non-Korea tertinggal dari komunitas Korea.
-
Proses penerjemahan baru
- Melalui proses terjemahan mesin yang baru, kini dimungkinkan untuk menyediakan terjemahan yang lebih akurat.
- Sekitar 7 video per hari dapat diterjemahkan, yang jauh lebih cepat daripada sebelumnya.
-
Tech stack
- Dibagi menjadi dua bagian: pembuatan subtitle dan konsumsi subtitle.
- Menggunakan yt-dlp dan OpenAI Whisper untuk mengunduh track audio video, lalu membuat subtitle darinya.
- Menggunakan Google Colab untuk menjalankan Whisper, menerima URL video sebagai input, dan menghasilkan file SRT berbahasa Korea.
- Menggunakan LLM dan kamus slang untuk meningkatkan akurasi terjemahan.
-
Konsumsi subtitle
- Menggunakan TamperMonkey untuk menambahkan tombol ke video YouTube agar subtitle terjemahan dapat diunduh.
- Menggunakan Pastebin dan Google Sheets + Apps Script untuk berbagi dan mengelola subtitle.
-
Peningkatan
- Ada kemungkinan menambahkan dukungan untuk berbagai bahasa.
- Sebagai peningkatan teknis, ada kemungkinan menambahkan fitur untuk menampilkan tombol hanya pada video tertentu.
-
Pemikiran akhir
- Performa, skalabilitas, latensi, dan sebagainya tidak penting; proyek ini diselesaikan dengan menggabungkan solusi yang sudah ada.
- Kode Python untuk user script dan notebook Colab singkat serta mudah dirawat.
- Proyek ini adalah sistem CRUD yang paling sederhana, dan tidak ada alasan bagi kompleksitasnya untuk meningkat secara signifikan.
1 komentar
Komentar Hacker News
Sebagai pemain BW Korea sekaligus peneliti pengenalan suara, saya merasa tulisan ini menarik. Awalnya ada banyak kesalahan dalam transkripsi bahasa Korea, tetapi LLM berhasil memperbaikinya dengan sangat mengesankan. Misalnya, "12 anmadang build" sebenarnya adalah "12 apmadang build". Build tu-e-cheori seharusnya ditranskripsikan sebagai build tu-hae-cheori.
Jangan terkecoh oleh judulnya. Tulisan ini adalah pendekatan yang sangat teliti dan kreatif untuk menerjemahkan komentar StarCraft dan meningkatkan aksesibilitas.
Sebagai pengguna non-Inggris, saat membaca tulisan ini saya teringat pada sulitnya menerjemahkan artikel komputer dan pengembangan perangkat lunak.
Saya bisa memahami versi Google Translate dengan cukup baik. Mungkin karena saya familiar dengan BW dan opener zerg 12hatch.
Lucu juga bahwa dalam tulisan tentang terjemahan itu, rasio signal-to-noise justru dipahami terbalik sepenuhnya. Rasio signal-to-noise yang tinggi itu hal yang bagus.
Anda bisa menggunakan yt-dlp untuk mengunduh video berkualitas lebih rendah demi menghemat bandwidth.
yt-dlp -f "bv[height<=720]" <url>Sebagai orang yang waktu kecil bermain peta uang, saya penasaran apa arti angka di depan bangunan itu.
Google Translate memang sudah membaik, tetapi tetap tidak bisa menerjemahkan teks bahasa Mandarin atau Jepang tentang permainan Go secara efektif.
Saya menyukai tulisan ini. Saat mencoba kompetisi regional Amerika untuk World Cyber Games, saya kaget melihat betapa cepatnya orang-orang lain.
Saya suka bahwa "natural expansion" diterjemahkan menjadi "courtyard", meskipun itu "salah".