Word2Vec menerima empat penilaian 'penolakan keras' di ICLR2013

(openreview.net)

1 poin oleh GN⁺ 2023-12-19 | 1 komentar | Bagikan ke WhatsApp

Estimasi ruang vektor untuk representasi kata yang efisien

Para peneliti mengusulkan dua arsitektur model baru untuk menghitung representasi vektor kontinu kata dari himpunan data yang sangat besar.
Kualitas representasi ini diukur pada tugas kemiripan kata dan dibandingkan dengan berbagai jenis teknik berbasis jaringan saraf yang sebelumnya menunjukkan kinerja terbaik.
Tim peneliti mengamati peningkatan akurasi yang signifikan dengan biaya komputasi yang jauh lebih rendah. Artinya, pada himpunan data 1,6 miliar kata, vektor 300 dimensi berkualitas tinggi untuk 1 juta kosakata dapat diturunkan dalam waktu kurang dari satu hari dengan satu CPU.
Mereka juga menunjukkan bahwa vektor-vektor ini memberikan kinerja mutakhir pada himpunan uji untuk mengukur berbagai jenis kemiripan kata.
Himpunan uji ini direncanakan akan dibuka agar dapat digunakan oleh komunitas riset.

Opini

Para reviewer menunjukkan bahwa kurang ada motivasi yang jelas mengenai bagaimana model yang diusulkan berbeda dari model yang ada, dan mengapa model tersebut lebih unggul.
Penjelasan model sangat minim, sehingga sulit menentukan bagaimana perbedaannya dari penelitian sebelumnya.
Para reviewer menekankan bahwa makalah ini mencakup perbandingan yang tidak konsisten antara model yang dilatih pada berbagai himpunan data dan dimensi yang berbeda, padahal hal itu diperlukan agar klaim makalah menjadi meyakinkan.

Opini GN⁺

Penelitian ini mengusulkan teknik baru untuk mengestimasi vektor kata secara efisien, yang merupakan kemajuan penting di bidang pemrosesan bahasa alami.
Model yang diusulkan dapat dilatih jauh lebih cepat dibandingkan model jaringan saraf kompleks yang sudah ada, sehingga dapat berguna untuk penelitian yang menangani data bahasa berskala besar.
Makalah ini juga menyajikan cara baru untuk mengevaluasi kualitas vektor kata, yang berpotensi menjadi standar dalam penelitian mendatang untuk mengukur kemiripan kata.

1 komentar

GN⁺ 2023-12-19

Komentar Hacker News

Ada postingan FB terbaru dari Tomas Mikolov (penulis word2vec) yang berisi detail lebih lengkap: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
Bagian yang menarik sekaligus pahit adalah bahwa bahkan para ahli pun bisa salah. Mulai dari reaksi ala Geoff Hinton tentang analogi kata seperti “saya juga sudah tahu, tapi lupa mempresentasikannya”, sampai orang-orang yang bahkan tidak membaca makalahnya atau mencobanya sendiri namun berkata “ini cuma trik murahan jadi tidak mungkin berhasil”. Juga disebutkan bahwa Ian Goodfellow sampai marah di Twitter
- Tomas mengatakan bahwa ide encoder-decoder (seq-to-seq) berasal darinya, lalu setelah ia pindah ke Facebook, Ilya dan Quoc melanjutkannya
  Namun Quoc mengatakan itu tidak benar: https://twitter.com/quocleix/status/1736523075943125029
  Menurut Quoc, Tomas bukan mengusulkan ide itu; justru ketika ia membagikan gagasan penerjemahan end-to-end, Tomas sangat skeptis, dan meski begitu mereka tetap berupaya keras agar itu bisa bekerja. Bukan berarti ada yang berbohong, melainkan tampaknya salah satu pihak salah ingat, tetapi tetap meninggalkan rasa yang kurang enak
- Kalau dilihat secara adil, ada juga ingatan bahwa makalah saat itu dan teknologi di sekitarnya memang cukup kurang bagus. Implementasi yang banyak dipakai bekerja berbeda dari isi makalahnya, dan teknologinya sendiri juga tidak terlalu bagus untuk hal-hal di luar perbandingan tingkat kata
  Memberi bobot tf-idf pada kata tertentu memang sedikit membantu, tetapi sekumpulan kata berbobot tf-idf juga sama kuatnya. Cara memakai cosine similarity pada penjumlahan beberapa word vector sekarang terdengar sangat bodoh
- Saya sempat bertanya di thread lain seperti apa Goodfellow marah, dan hanya menemukan ini: https://twitter.com/goodfellow_ian/status/113352818965167718...
  Kalau memang ini yang dimaksud, terus terang kesannya Mikolov terlihat cukup tidak stabil
- Tulisan itu, sejujurnya, terdengar seperti ocehan panjang karena terlalu banyak ungkapan yang menyindir banyak orang. Sebenarnya bisa ditulis dengan jauh lebih berkelas
  Meski begitu, tetap masuk akal untuk percaya bahwa sebagian besar peneliti juga manusia yang sangat dipengaruhi harga diri dan uang, alih-alih selalu menempatkan perkembangan pengetahuan bersama sebagai prioritas utama. batuk OpenAI batuk
- Tulisan itu rasanya lebih cocok ada di Twitter daripada di FB yang ‘terlupakan’. Dengan begitu, individu dan organisasi yang disebut atau disindir bisa punya kesempatan melihatnya dan membagikan sudut pandang mereka
  Kalau tidak, jadinya hanya terdengar seperti keluhan
Menurut saya para reviewer sebenarnya melakukan pekerjaan yang cukup baik. Isi review-nya juga cukup masuk akal. Proses review seharusnya menilai kualitas makalah, bukan menebak seberapa besar pengaruh makalah itu di masa depan
Lagi pula, tidak semua makalah yang berpengaruh benar-benar makalah yang bagus
- Setuju. Makalah saya yang paling berpengaruh juga ditolak keras saat pertama kali dikirim, dan kalau dipikir-pikir itu memang wajar
  Motivasinya kurang, kontribusinya tidak dipaparkan dengan jelas, dan cara penjelasannya juga sangat membingungkan. Inti idenya hampir tidak berubah, tetapi makalah yang akhirnya terbit jauh lebih baik, dan itu karena review pertama yang keras. Review-nya sendiri tidak terlalu penuh wawasan—sekadar “ini membingungkan, saya tidak tahu apa yang Anda lakukan dan kenapa”—tetapi kadang sudut pandang dari luar seperti itu memang sangat dibutuhkan
  Saya juga pernah me-review dan menolak makalah yang terlihat punya bibit ide hebat, tetapi makalah tertulisnya sendiri tidak bagus. Saat makalah seperti itu kemudian terbit dalam bentuk yang jauh lebih baik, saya selalu senang melihatnya
- Saya setuju bahwa makalah memang sering dinilai seperti itu dalam praktiknya, tetapi sangat tidak setuju bahwa seharusnya begitu. Ini seperti masalah reviewer mencari bukan di tempat kuncinya hilang, melainkan di bawah lampu jalan
  Yang harus dilihat bukan “apakah makalah ini mencentang kotak-kotak penilaian”, tetapi “apakah makalah ini mendorong bidang ini maju sehingga layak mendapat lebih banyak eksposur”. Jika yang pertama tidak lebih baik mengarah ke yang kedua, itu kegagalan sistem
  Ini mirip nilai-nilai perekrutan yang memilih kandidat dengan rambut rapi dan ucapan klise yang pas, tetapi justru melewatkan orang yang benar-benar memberi dampak pada pendapatan
  Apakah makalah ‘bagus’ yang sangat ketat tetapi tidak menghasilkan apa-apa benar-benar makalah yang bagus? Jika kemajuan sains dipandang sebagai lemparan dadu—makalah yang ketat adalah dadu dengan peluang sukses tinggi, makalah yang kurang ketat adalah dadu dengan peluang rendah—maka cukup cari makalah yang ketat saja. Dengan begitu, kesimpulannya adalah word2vec yang kurang ketat menghasilkan kemajuan hanya karena “sangat beruntung”, dan tidak perlu dinilai bagus
  Tetapi word2vec juga sangat inovatif, dan itu seharusnya menjadi faktor positif dalam review. Bahkan, saya rasa makalah yang inovatif sulit untuk sangat ketat karena definisi ketelitian di bidang itu sendiri belum mapan. Pada batas ekstrem, saya bahkan ingin mengatakan bahwa ketelitian dan inovasi berkorelasi negatif
- “Esai berkaki delapan pada masa lalu diperlukan agar peserta ujian kekaisaran menunjukkan kualitas yang dibutuhkan untuk jabatan pemerintahan… Dari sisi struktur dan gaya sastra, esai berkaki delapan bersifat terbatas dan kaku. Ada berbagai aturan tentang jumlah kalimat, jumlah kata, format dan struktur, hingga teknik rima.”
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Kalau begitu saya tidak paham kenapa sistem peer review mendapat begitu banyak fokus dan upaya
  Kalau ditanya kepada pihak yang mendanai riset, besar kemungkinan mereka lebih ingin berinvestasi pada ide yang berdampak daripada sekadar menghasilkan makalah ‘berkualitas tinggi’ yang tidak punya pengaruh
- Ini interpretasi yang benar. Mungkin ada yang ingin membawanya ke arah “para reviewer itu bodoh”, tetapi bukan itu masalahnya
Belakangan terlihat bahwa komentar dari reviewer f5bf cukup menarik. Ia mengatakan akan bagus jika dijelaskan bagaimana model-model ini menangani kemiripan makna non-transitif seperti “river”, “bank”, dan “bailout”, dan menyebut bahwa orang seperti Tversky mengkritik model ruang semantik karena tidak dapat memodelkan kemiripan semacam ini dengan tepat
Hal yang menonjol pada model-model terbaru (GPT, model difusi gambar, dll.) adalah kemampuan memainkan kata ketika ada makna ganda. Dulu ini tampak seperti kemampuan yang sangat manusiawi, tetapi sekarang sepertinya sudah masuk ke kotak peralatan model generatif. Dugaan saya, kebanyakan akan menggunakan sesuatu yang mirip word2vec untuk mendapatkan vektor embedding dari prompt
Saya tidak tahu apakah ambiguitas word2vec berkontribusi pada kemampuan bermain kata, tetapi ini menunjukkan situasi fitur vs bug di mana ambiguitas seperti ini menjadi fitur untuk tujuan kreatif dan menjadi bug jika ingin memodelkan ruang makna sebagai ruang vektor yang ketat
Saya menafsirkannya bahwa embedding kata/prompt pada model saat ini terlalu besar, kelebihan muatan dengan dimensi yang redundan, dan mungkin tidak memenuhi formalisme matematis apa pun seperti ruang vektor yang berfungsi dengan baik
- Perbedaan kuncinya bisa disebut embedding tanpa konteks dan embedding kontekstual. Pendekatan seperti word2vec secara struktural harus memberikan vektor yang persis sama untuk setiap “bank” di semua kalimat
  Tetapi model-model berikutnya, misalnya keluarga Transformer, BERT, GPT, dan sebagainya, memberikan vektor yang sama sekali berbeda bergantung pada konteks kata-kata di sekitar “bank” tersebut
- Model kecil sekalipun (misalnya dimensi tersembunyi 32) seharusnya bisa menangani ambiguitas token jika memiliki attention. Informasi jauh lebih banyak ada di konteks daripada di token itu sendiri
Tampaknya versi awal makalah ini memang ditolak, lalu setelah itu ada pembaruan dan penambahan penjelasan berdasarkan review. Pada akhirnya itu bermanfaat dan terlihat seperti cara proses review seharusnya bekerja
Terutama karena makalah ini adalah pekerjaan yang terobosan, masuk akal untuk mencurahkan lebih banyak upaya untuk menjelaskan mengapa ia bekerja daripada hanya mengandalkan hasil benchmark yang bagus
Kalau dilihat sekarang, reviewer anonim yang dulu tampak pintar mungkin terasa cukup bodoh
Peer review tidak bekerja dengan baik untuk ide-ide baru. Tidak ada yang punya waktu atau kelonggaran untuk menghabiskan berjam-jam, lalu berjam-jam lagi, demi mencoba memahami sesuatu yang benar-benar baru
- Patut dicatat bahwa sebagian besar sains terbaik muncul sebelum peer review menjadi dominan
  Dulu saya pernah membaca tulisan yang sekarang sulit saya temukan lagi, yang kurang lebih merangkum sejarah sistem peer review saat ini. Peer review seperti yang kita kenal sekarang terutama muncul pada 1970-an, sebagai respons terhadap berbagai krisis pendanaan di dunia akademik. Itu adalah strategi untuk membuat riset tampak lebih dapat dipercaya
  Kritik paling mematikan terhadap peer review tentu saja adalah bahwa ia gagal total mencegah krisis reprodusibilitas, dan mungkin malah turut membantu menyebabkannya. Dunia akademik adalah sistem yang motivasi utamanya mendapatkan pendanaan melalui citra keandalan, dan secara prinsip ini merupakan resep bagi penipuan yang meluas
- Saya menyelesaikan PhD AI dalam setahun terakhir, dan saya bisa mengatakan bahwa reviewer yang benar-benar menghabiskan berjam-jam untuk melakukan satu review dengan baik memang ada. Memang benar bahwa belakangan ini peluang bertemu reviewer malas lebih tinggi dan Anda bisa saja sial, tetapi makalah ini tampaknya bukan kasus seperti itu
  Misalnya, review f5bf merangkum CBOW dan skip-gram, lalu menunjukkan bahwa penjelasan model sangat minimal sehingga sulit menilai seberapa berbeda ia dari model yang ada. Ia mengatakan akan baik jika ditambahkan representasi grafis atau detail matematis, dan itu sangat mungkin dilakukan karena banyak ruang dipakai untuk persamaan yang agak tidak perlu tentang jumlah parameter, sehingga hampir satu halaman sisa sudah cukup
  Review-review seperti ini menghasilkan revisi yang cukup besar pada makalah tersebut, hanya saja tampaknya belum cukup besar: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  Itu adalah review berkualitas baik, dan secara pribadi saya pikir makalah ini mendapat manfaat dari proses review tersebut
- Selama setahun terakhir saya sangat kecewa dengan track konferensi machine learning. Makalah terlalu banyak dan reviewer terlalu sedikit, sehingga jumlah reviewer mahasiswa PhD menjadi tidak normal banyaknya
  Saya menerima review yang benar-benar tidak masuk akal, bahkan ada yang melanggar semangat ilmiah. Misalnya ada reviewer yang pada dasarnya bersikeras bahwa jika tidak ada ide arsitektur baru dan hasil state-of-the-art, maka tidak layak diterbitkan. Seolah-olah memahami dan menyederhanakan alat yang sudah ada dengan lebih baik itu sama sekali tidak boleh
- Kesimpulan yang saya dapat bukan itu. Kesimpulannya adalah bahwa proses review memperbaiki makalah dan membuatnya lebih ketat. Saya tidak mengerti mengapa itu dianggap buruk
  Tentu saja ada kalanya reviewer berfokus pada isu lain, alih-alih pada pertanyaan “apakah ini akan merevolusi A, B, C”
- Masalahnya di sini bukan karena reviewer tidak mampu menangani ide baru. Mereka sangat familier dengan embedding kata dan juga cara pembuatannya
  Bukan berarti word2vec punya sangat banyak konsep baru; yang membedakannya adalah ia sederhana, cepat, dan berkualitas baik. Perangkat lunak dan vektor pra-pelatihannya lebih mudah diakses dan digunakan dibanding pendekatan sebelumnya
Memang ada empat “strong reject”, tetapi semuanya tampaknya ditulis oleh reviewer yang sama pada waktu yang sama dengan isi yang sama. Bukankah itu pada dasarnya hanya satu penolakan?
Dan saya juga penasaran mengapa hanya skor dari reviewer itu yang terlihat
Saya penasaran berapa banyak orang yang berbicara dengan sangat tegas di sini tentang nilai atau ketiadaan nilai dari peer review yang benar-benar pernah terlibat sebagai penulis dan reviewer sekaligus. Saya bahkan lebih penasaran lagi soal mereka yang pernah menjalankan peran editor, yang harus menyatukan dan mensintesis beberapa review menjadi satu rekomendasi
Ada banyak tempat untuk berbagi riset atau ide tanpa peer review formal, dan arXiv/bioRxiv adalah contoh paling jelas. Jika seseorang menolak peer review itu sendiri, tampaknya alternatifnya sudah cukup banyak
- Karena ini internet, untuk topik apa pun, sebagian besar keyakinan yang sangat kuat datang dari orang-orang yang hampir tidak punya pengalaman atau kompetensi di bidang tersebut
  Di HN mungkin sedikit lebih baik daripada rata-rata, tetapi pada saat yang sama juga akan condong ke orang-orang yang sedang menunda pekerjaan. Cukup pertimbangkan hal itu sendiri
Saat masih mahasiswa, saya pernah membuat sistem sederhana untuk mengoreksi teks berdasarkan beberapa heuristik sebagai tugas kelas.
Dosen kelas itu menyarankan agar pada musim panas saya mengirim makalah ke konferensi regional yang menjelaskan sistem dan hasilnya. Saya menulisnya dengan bantuan, tetapi langsung ditolak dengan alasan seperti tata bahasanya buruk. Konferensinya diadakan di Brasil, tetapi makalahnya harus ditulis dalam bahasa Inggris. Saya masih mahasiswa, dan saya merasa bahasa Inggris saya memang sangat buruk.
Dosen saya menyarankan untuk mengirim email ke reviewer, meminta umpan balik, lalu merevisi dan mengirim ulang. Jadi saya menanyakan secara spesifik bagian paragraf mana yang membingungkan, dan mereka mengirim potongan kalimat yang jelas-jelas salah. Namun itu adalah kalimat sebelum koreksi dari contoh yang menunjukkan sebelum/sesudah sistem saya melakukan koreksi.
Saya mencoba menjelaskan bahwa bagian itu memang seharusnya salah secara tata bahasa, tetapi jawabannya adalah, “Perbaiki kesalahan bahasa Inggrisnya lalu kirim ulang.” Setelah mencoba dua atau tiga kali lagi, saya akhirnya menyerah.
- Ini mengingatkan saya pada anekdot Feynman tentang pengalamannya di Brasil. Khususnya, Anda bisa mencari “I was invited to give a talk at the Brazilian Academy of Sciences”, tetapi kalau belum pernah membacanya, keseluruhannya layak dibaca.
  https://southerncrossreview.org/81/feynman-brazil.html
- Rasanya memang sangat mungkin seperti itu, jadi saya hanya bisa memutar mata. Kalau masih ingin menerbitkannya, Anda bisa mengunggahnya ke arXiv dan meminta kecerdasan kolektif HN merekomendasikan venue yang tepat.
  Jika tidak punya akses ke arXiv, Anda bisa mencari endorser: <https://info.arxiv.org/help/endorsement.html>. Kirim email yang singkat dan sopan, dan utamakan ringkas daripada terlalu formal. Kurang lebih seperti: “Pada tahun yyyy saya menulis makalah tentang koreksi tata bahasa otomatis saat kuliah, dan ditolak oleh sebuah venue karena kesalahan tata bahasa pada gambar. Saya masih ingin menerbitkannya. Bisakah Anda meng-endorse akun arXiv saya? Juga, bisakah Anda merekomendasikan venue yang sesuai untuk pengiriman?” Untuk permintaan endorsement, cukup ikuti panduan di situs arXiv.
- Saya pernah menjadi reviewer, dan kadang pernah menulis review yang mirip.
  Makalah adalah latihan untuk menyampaikan informasi kepada pembaca. Jika tulisannya membuat pembaca sangat sulit memahami informasi itu, maka terlepas dari kualitas ide di dalamnya, makalah tersebut tidak banyak gunanya dan tidak layak diterbitkan.
  Tugas reviewer bukan menulis ulang makalah agar menjadi bisa dipahami. Mereka tidak punya waktu, dan itu juga bukan pekerjaan mereka.
  Menulis itu tidak mudah, dan menulis makalah teknis adalah keterampilan yang benar-benar sulit dipelajari. Namun itu tetap diperlukan agar riset bisa berguna.
  Terus terang, kedengarannya dosen yang menyarankan Anda menulis makalah itu tidak menjalankan perannya dengan baik dan malah membuat Anda membuang waktu. Jika pekerjaan itu memang layak diterbitkan, ia seharusnya meluangkan waktu untuk membantu memperbaikinya sampai dalam bentuk yang bisa diterbitkan; kalau tidak, ia seharusnya tidak menyarankannya sejak awal.
Saya menandainya karena judulnya menyesatkan. Empat strong reject itu berasal dari satu penulis.
Entah kenapa ditampilkan empat kali, tetapi kemungkinan besar itu perilaku aneh dari OpenReview. Status sebenarnya yang ditampilkan halaman itu adalah 2 unknown dengan teks panjang, 1 weak reject, dan 1 strong reject.
Jika thread review dibaca mulai dari bawah ke atas, itu terlihat seperti thread Show HN yang berubah menjadi negatif.
Setelah makalah itu awalnya menerima pertanyaan dan umpan balik negatif, para penulis memperbaruinya dan sedikit memancing reviewer. Mereka menjawab, “Kami menyambut diskusi… kontribusi utama yang tampaknya terlewat di beberapa review adalah bahwa representasi vektor kata yang baik dapat dihitung bahkan dengan model yang sangat dangkal.”
Tanggapan terhadap pembaruan itu adalah, “Revisi dan sanggahan tersebut tidak menyelesaikan masalah yang diajukan reviewer. Dalam bentuknya saat ini, saya tidak berpikir makalah ini seharusnya diterima. Evaluasi kualitas: Strong reject. Tingkat keyakinan: reviewer memiliki pengetahuan.”

Word2Vec menerima empat penilaian 'penolakan keras' di ICLR2013

Estimasi ruang vektor untuk representasi kata yang efisien

Opini

Opini GN⁺

Bacaan terkait

1 komentar

Komentar Hacker News