Dari 170 ribu kata bahasa Inggris, berapa banyak yang Anda ketahui?
(vocabowl-870366514258.us-west1.run.app)- VocabOwl adalah alat Scientific Word Count yang memperkirakan jumlah kata bahasa Inggris yang benar-benar diketahui pengguna berdasarkan 171.476 kata bahasa Inggris
- Untuk melihat hasilnya, pengguna harus menyelesaikan tantangan 100 soal, yaitu metode yang memperkirakan ukuran kosakata keseluruhan melalui tes singkat
- Dijelaskan bahwa penyusunan soal menggunakan metode stratified sampling
- Situs ini menonjolkan penggunaan Gemini 3 Flash AI dan memasukkan AI dalam cara pembuatan serta pengoperasian tes kata
- Proyek ini terinspirasi dari podcast The Rest Is Science serta Prof. Hannah Fry dan Michael Stevens
Tes yang disediakan VocabOwl
- VocabOwl adalah layanan estimasi jumlah kosakata bahasa Inggris yang berpusat pada pertanyaan “How many of the 171,476 English words do you actually know?”
- Pengguna dapat mengerjakan tantangan yang terdiri dari 100 soal dan melihat berapa banyak kata bahasa Inggris yang mereka ketahui
- Dijelaskan bahwa soal tes disusun dengan metode scientifically stratified
Cara implementasi dan sumber inspirasi
- Di situs tersebut, Stratified Sampling ditampilkan sebagai metode inti
- Teknologi yang digunakan ditampilkan sebagai Gemini 3 Flash AI
- Sumber inspirasinya ditampilkan sebagai podcast The Rest Is Science, Prof. Hannah Fry, dan Michael Stevens
1 komentar
Komentar Hacker News
Terlalu banyak klik untuk tiap kata. Saya memang suka kuis semacam “berapa banyak kata yang Anda tahu” jadi tetap saya selesaikan, tetapi secara keseluruhan pengelompokannya meragukan
Ada alur besar bahwa kata-kata awal mudah dan kata-kata belakangan sulit, tetapi tingkat menengahnya cukup campur aduk. breviary jauh lebih langka daripada yang layak disebut tingkat menengah, dan kata fobia seperti Hippopotomonstrosesquippedaliophobia terasa lebih seperti lelucon yang mungkin ditunjukkan anak SD setelah menemukannya di kamus daripada kata yang benar-benar dipakai. Menempatkan metamorphosis dan kinetic di level expert juga sulit diterima
Definisinya umumnya masih bisa dikenali, tetapi menjelaskan lethargy sebagai “keadaan lesu” terasa terlalu dangkal, melihat complacent sebagai “kesombongan yang puas diri” terasa berlebihan, magnanimous tidak harus melibatkan “saingan”, dan untuk gauche, hanya “canggung secara sosial” melewatkan nuansa tactless
Katanya “ilmiah”, tetapi hanya memberi rumus secara garis besar dan tidak menjelaskan bagaimana kata-kata itu awalnya distratifikasi. Jika stratified sampling memang metode yang diakui secara formal untuk hal seperti ini, saya ingin ada tautan ke referensi yang nyata. Saya menganggap kosakata saya cukup besar, tetapi estimasi di atas 75k yang diberikan aplikasi ini sulit dipercaya
Hippopotomonstrosesquippedaliophobia tampaknya bukan soal menghafal seluruh kata, melainkan menebak makna dari bagian-bagiannya. Saya tahu sesquippedalian, phobia juga mudah dikenali, dan hippo pun bisa diduga lebih dekat ke akar Latin “besar” daripada hewan
Saya juga pernah mendengar complacent dan gauche dipakai seperti itu, dan kalau di kamus, itu paling tidak mungkin definisi kedua atau ketiga, jadi saya tidak keberatan. Dulu saya cukup berprestasi di spelling bee, dan kalau saya punya disiplin untuk belajar kamus berjam-jam tiap akhir pekan, mungkin nilainya bisa lebih tinggi lagi
Akan jauh lebih baik kalau ada ringkasan yang menunjukkan jawaban yang saya pilih dan jawaban benar untuk yang saya salahkan
Meski begitu, di sana smug juga dianalisis mirip dengan self-satisfied atau self-complacent, jadi mungkin yang terasa meleset justru makna smug. Menurut intuisi saya, smug bukan sekadar sifat yang “diri-”, melainkan lebih relasional, ada rasa menikmati keadaan lebih unggul daripada orang lain. complacent pada dasarnya berarti puas dengan keadaan sendiri, tetapi sering membawa implikasi negatif bahwa seseorang seharusnya bertindak untuk memperbaiki keadaan, namun tidak melakukannya
Tiap kata butuh terlalu banyak klik sehingga menyelesaikannya makan waktu lama, dan untuk kata yang tidak saya tahu pun tebakannya terlalu mudah karena ada opsi jawaban
Konsepnya menarik, tetapi harus mengerjakan 100 kata itu lumayan banyak. Melewati kata-kata mudah di awal terasa membosankan, jadi saya keburu jenuh sebelum sampai ke kata-kata yang menarik
Sistem seperti ini secara internal bisa punya skor dan tingkat kepercayaan lalu menyesuaikan jauh lebih cepat. Awalnya tingkat kepercayaan rendah lalu meningkat seiring waktu; di awal jawaban benar/salah menggeser skor dengan cepat, lalu perlahan menjadi stabil
Dalam praktiknya, mula-mula akan muncul kata-kata yang makin jarang, lalu jika salah sistem kembali ke kata yang lebih mudah, dan ketika mulai benar lagi akhirnya akan berputar di sekitar tingkat kemampuan pengguna. Dan jumlah klik per kata juga terlalu banyak. Ini tes santai; sekali klik definisi seharusnya langsung diproses, dan jika khawatir salah klik cukup sediakan tombol undo
Akan bagus jika tiap pilihan diberi huruf atau angka sehingga bisa dipilih lewat keyboard. Dulu ada layanan formulir seperti itu dan cukup bekerja baik, sepertinya Typeform. Saat saya buka untuk memeriksa, sekarang semuanya penuh dengan omongan AI jadi saya kehilangan minat untuk memastikan
Selain kritik-kritik lain, karena ada kesalahan struktural, perhitungannya hanya setengah benar. Bergantung pada cara menghitungnya, bahkan bisa dibilang 100% salah
Saya penutur asli bahasa Inggris, kutu buku yang banyak membaca, dan mendapat nilai sempurna di SAT, lalu menjawab benar semua 100 kata tanpa mencari di internet. Meski begitu, “SCIENTIFIC ESTIMATE” tetap hanya menunjukkan bahwa saya tahu 85.000 dari 170.000 kata, jadi terasa membingungkan
Jika melihat halaman “How is this calculated” di bagian akhir, mereka mengatakan ada sekitar 171.476 kata yang saat ini digunakan berdasarkan Oxford English Dictionary Second Edition, lalu membagi tingkat kesulitan menjadi Core Basics 3.000, Intermediate 7.000, Advanced 10.000, Expert 25.000, The Obscure 40.000+. Total skor katanya adalah jumlah dari akurasi tiap tingkat × ukuran tingkat tersebut
Tetapi bahkan jika semua tingkat itu dijumlahkan, hasilnya hanya 85.000, jadi bahkan dengan skor sempurna hasilnya cuma 50%. Selain itu, mereka memakai subset bahasa yang sangat terbatas dan mungkin kurang mewakili tingkat kesulitan. Lucu sih, tapi salah dalam banyak hal
Seperti yang sering terjadi dalam tes kosakata bahasa Inggris, tahu bahasa Yunani membantu di level tinggi
Ada beberapa kata teknis, tetapi kebanyakan adalah kata-kata yang mungkin terdengar bahkan dalam percakapan biasa di Radio 4
Saya dapat 78.000, yang lumayan bagus untuk bahasa kedua. Nilai maksimum tes ini tampaknya 85.000
Pilihan jawabannya terasa seperti dibuat LLM, dan ada beberapa pola seperti “now” dan “forever” yang sering muncul
Beberapa tahun lalu saya pernah memainkan game serupa, bisa dimainkan terus dengan sistem naik level jika cukup sering benar berturut-turut dan turun level jika salah sekali. Di level yang sangat tinggi malah jadi lebih mudah, karena ada kata-kata Inggris Kuno yang tercampur dan kata-kata itu pada dasarnya sama dengan bahasa ibu saya, bahasa Belanda. Sepertinya ada unsur amal juga, dan mungkin itu https://freerice.com/, tetapi sekarang gamenya tampak sudah disederhanakan
Ghent University di Belgia juga pernah punya tes menarik, yang menilai kemahiran dengan membandingkan skor dengan rata-rata tingkat pendidikan tertentu. Di sana saya dapat sekitar 41.000, dan sepertinya itu dinilai setara rata-rata penutur asli bahasa Inggris tingkat universitas. Di pembaruan bagian bawah https://languagehat.com/ghent-vocabulary-test/ ada info ke mana tes itu pindah dan beberapa alternatif
Cukup seru
Akan lebih baik jika tombol submit dihapus, lalu setelah ditekan langsung ditunjukkan benar atau salahnya, dan sekitar 1 detik kemudian lanjut ke soal berikutnya. Alur harus menekan submit dua kali merusak immersion
Selain itu, pada kata-kata yang saya lihat, dari 4 pilihan biasanya satu benar, satu antonim dari jawaban benar, dan dua sisanya nyaris acak. Praktis, pilihan yang tidak menyertakan antonim bisa langsung dilewati
Pertama-tama, saya bisa menyingkirkan jawaban yang memecah kata menjadi kata-kata Inggris umum. Kalau sebuah kata bisa diurai semudah itu, dari awal mestinya bukan kata obscure
Menulis distractor untuk soal pilihan ganda itu sulit. Dari ujian yang saya tahu, selain ujian yang menuntut perhitungan atau hafalan, LEK, ujian nasional dokter di Polandia, melakukannya hampir secara brutal. Bagi orang di luar bidang itu, hampir mustahil menebak berdasarkan firasat dan mendapat hasil di atas peluang acak
Harusnya bisa menjawab dengan “tidak tahu”. Tidak adil kalau saat benar-benar tidak tahu kita tetap punya peluang 1/4 untuk benar, dan dengan trik umum mengerjakan pilihan ganda malah bisa lebih sering benar
Ada beberapa kata yang sebenarnya dengan senang hati ingin saya anggap salah, tetapi tetap dihitung sebagai benar
Tingkat kesulitannya juga perlu sedikit dicampur. Sekitar 30 soal terakhir terasa seperti kerja membosankan. Idenya sendiri bagus
Bahkan dalam kasus terburuk pun, peluang 25% untuk benar secara kebetulan bisa dikoreksi
Soalnya cukup mudah disiasati. Banyak pilihan jawaban tidak tampak seperti definisi kata, struktur “jawaban benar + makna kebalikan + 2 yang tidak relevan” sering muncul, dan di bagian akhir sangat sering jawaban terpanjang adalah yang benar. Desain distractor-nya buruk
Sampel katanya juga sangat berat sebelah ke konsep yang terkait kata, berbicara, pembicara, dan persuasi. Mungkin LLM diberi prompt untuk memilih kata, lalu malah memilih kata-kata yang berkaitan dengan “kata”
Sebagai latar belakang, saya penutur bahasa kedua, penggemar linguistik, dan memakai bahasa Inggris terutama di lingkungan akademik dan profesional. Dengan mencampur trik-trik di atas saya dapat 75.400, tetapi kenyataannya mungkin lebih dekat ke 10~15k
Desainnya juga, seperti siapa pun bisa lihat, sangat mirip Duolingo sampai terasa menyakitkan
Sepertinya kebanyakan bahasa punya kata untuk rasa sakit seperti ini, sesuatu yang mungkin akan disetujui oleh orang-orang yang sudah cukup berumur
Saya menjawab benar 88 dari 100, tetapi satu-satunya hal yang saya pelajari dari situ adalah bahwa saya cukup pandai menebak. Sekitar 20 saya jawab benar dengan mengeliminasi pilihan yang tidak meyakinkan, atau menebak dari arti sebagian kata
Kalau ingin menilai dengan lebih jujur jumlah kata yang benar-benar saya tahu dan kata yang bisa saya jawab benar, seharusnya ada opsi “tidak tahu”
Untuk menemukan level dengan lebih cepat, seharusnya memakai rating ELO. Bersusah payah mengerjakan 100 kata dasar itu tidak ada artinya
Angka 171.476 dari OED dipakai secara tidak akurat, dan pendekatannya menunjukkan salah paham besar tentang kamus dan bahasa
Angka ini merujuk pada jumlah full entry yang didefinisikan sebagai “current use” dalam Oxford English Dictionary Second Edition setebal 20 jilid. Itu bukan berarti jumlah kata. Angka tersebut juga tidak mencakup varian ejaan, bentuk infleksi, frasa, maupun entri run-on di OED
Selain itu, OED sama sekali bukan daftar lengkap bahasa Inggris. Bahkan, karena siklus pembaruannya sangat lambat, kemungkinan ada ratusan ribu hingga jutaan kata yang tidak masuk. Sebagai editor kamus sekaligus leksikografer, saya memakai OED setiap hari, dan para pembuatnya juga mengetahui hal itu