HN: Membangun situs web untuk pencarian semantik makalah ArXiv

(papermatch.mitanshu.tech)

2 poin oleh GN⁺ 2024-12-26 | 1 komentar | Bagikan ke WhatsApp

1 komentar

GN⁺ 2024-12-26

Komentar Hacker News

Senang melihat proyek seperti ini. Jika diperluas melampaui arXiv, perlu mempertimbangkan bahwa cakupan itu penting dalam tinjauan literatur.
Sayangnya, penerbit besar seperti Elsevier dan Springer menekan agar abstrak dihapus dari indeks lain seperti OpenAlex, sehingga akses menjadi lebih sulit.
Saya penasaran apakah sudah melihat alat seperti undermind.ai, scite.ai, dan elicit.org.
Selain pencarian, ada baiknya juga memikirkan apa saja yang termasuk dalam alur produk khusus tinjauan literatur. Dulu saya bekerja di scite.ai.
- Ada PaperMatchBio untuk bioRxiv (https://papermatchbio.mitanshu.tech/) dan PaperMatchMed untuk medRxiv (https://papermatchmed.mitanshu.tech/), tetapi saya setuju bahwa punya banyak situs per bidang bukanlah hal ideal.
  Saya belum sempat membuat pipeline sinkronisasi untuk keduanya, jadi hasilnya mungkin agak lama.
  Penerbit besar yang membuat abstrak dihapus tampaknya memang akan menjadi masalah nyata untuk memperluas cakupan.
  Saya sudah melihat undermind.ai, scite.ai, dan elicit.org, tetapi mungkin belum cukup mendalam, jadi saya akan memeriksanya lagi dan menambahkan fitur pelengkap.
  Saya penasaran apakah alur tinjauan literatur di luar pencarian maksudnya sistem manajemen referensi seperti Mendeley/Zotero.
- Layar challenge Cloudflare yang muncul di awal itu fatal.
  Saya penasaran kenapa begitu banyak makalah yang tidak ada di arXiv. Apakah penulis harus mengunggahnya sendiri? Makalah matematika, fisika, dan ilmu komputer sering saya temukan, tetapi makalah biologi, kimia, dan kedokteran biasanya tidak ada.
  Database yang memuat semua ID makalah yang ada, di mana makalah itu tersedia, dan di mana ia tidak tersedia, juga bisa sama bermanfaatnya. Makalah yang sedikit saja mendapat dana publik seharusnya tidak boleh hilang.
1. Saya penasaran kenapa memakai model mixbread.
2. Saya penasaran seberapa besar peningkatan efisiensi dari membinarisasi embedding dan memakai jarak Hamming.
3. Saya penasaran kenapa memilih Milvus dibanding vector store lain.
4. Saya penasaran apakah pengambilan metadata mingguan sudah diotomatisasi, apakah hanya pekerjaan cron sederhana, atau ada hal lain yang perlu dikoordinasikan.
  Saat mencari “transformers on byte level not token level”, hasilnya lumayan, tetapi makalah yang lebih baru ini https://arxiv.org/abs/2412.09871 tidak muncul, dan mungkin ada banyak orang yang ingin menemukannya.
  Meningkatkan kepadatan hasil juga akan bagus. Misalnya, akan menarik jika ada opsi UI untuk melipat abstrak agar lebih banyak hasil terlihat di layar pertama.
- 1. Karena sumber daya yang saya punya terbatas, ukuran model-nya cukup kecil sehingga korpus bisa diproses lumayan cepat. Selain itu, model ini mendukung MRL dan embedding biner, yang bisa membantu saat perlu mengurangi ukuran VM.
  2. Hampir sekitar 500 ms. Lihat https://news.ycombinator.com/item?id=42507116#42509636
  3. Saya memilih Milvus karena https://benchmark.vectorview.ai/vectordbs.html. Saya berasumsi bahwa jumlah star yang banyak berarti komunitasnya lebih besar, bug lebih cepat ditemukan dan diperbaiki, serta dukungan fiturnya lebih baik.
  4. Pengambilan mingguan sudah diotomatisasi di https://huggingface.co/spaces/bluuebunny/update_arxiv_embeddings. Karena sumber daya yang tersedia terbatas, saya membiarkan HuggingFace Spaces mengotomatiskannya.
    Namun Space itu terus tertidur, jadi untuk menghindarinya saya berencana terus memanggil Space yang sama lewat api/gradio_client.
    Soal kebaruan, itu benar, jadi saya ingin menambahkan opsi pengurutan Recency. Perlu menyeimbangkan antara kemiripan dan tanggal publikasi.
    Saya juga akan melihat opsi melipat abstrak dan meningkatkan kepadatan hasil.
Bagus sekali. Saya mencoba beberapa kueri dan hasil berbasis makna-nya cukup baik.
Namun jika ini menjadi bagian dari alur kerja harian alih-alih alat seperti Google Scholar, akan bagus jika bisa melihat bagaimana makalah itu ditinjau dan dikutip. Ada yang seperti OpenReview, dan contohnya https://openreview.net/forum?id=jhKbnNhwhc.
Selain itu, akan bagus jika ada fitur semacam “ceritakan agar saya bisa cepat mengejar ketertinggalan” untuk sekumpulan makalah. Model generatif bisa membantu; maksudnya, pada akhirnya akan bagus jika bisa menuliskan paragraf dengan sitasi yang kira-kira layak masuk ke bagian tinjauan literatur/penelitian terkait dalam sebuah makalah.
- Saya belum tahu OpenReview. Saya suka transparansi-nya, jadi saya pasti akan mempertimbangkan integrasinya.
  Membuat model menulis bagian pendahuluan juga masukan yang bagus. Saya mencoba mempertahankan mesin pencari ini sedikit lebih tradisional, tetapi jika hasilnya bagus, itu mungkin arah yang perlu ditempuh ke depan.
Dulu, beberapa tahun sebelum ledakan LLM, ketika saya mencoba database vektor berukuran serupa (gensim/doc2vec), pencarian vektor masih bisa dilakukan secara brute force saja dengan instruksi seperti SSE atau AVX.
Cukup ditulis dalam C dan diberi Python API. Jika datanya beberapa GB, brute force CPU real-time pun memungkinkan dan bisa di bawah 200 ms.
- Ini masalah menarik, jadi saya tambahkan ke daftar TODO.
Proyek yang luar biasa
Baru-baru ini saya membuat database embedding dengan dataset arXiv: https://huggingface.co/NeuML/txtai-arxiv
Kalau tertarik pada bidang pencarian literatur, ada juga beberapa proyek terkait
annotateai(https://github.com/neuml/annotateai) memberi anotasi pada makalah dengan LLM, dan mendukung pencarian database arXiv di atas
paperai(https://github.com/neuml/paperai) menyediakan pencarian semantik dan alur kerja untuk makalah medis dan ilmiah, serta berbasis txtai(https://github.com/neuml/txtai)
paperetl(https://github.com/neuml/paperetl) adalah proses ETL untuk makalah medis dan ilmiah, dan mendukung dokumen PDF penuh
- Kelihatannya proyek-proyek yang bagus, jadi pasti akan saya lihat
- paperetl keren. Saya simpan untuk dilihat nanti. Dulu pernah membuat sesuatu yang mirip di internal perusahaan dengan grobid; itu proyek bagus yang dibuat patrice
Sebagai referensi, txtai merilis embedding arXiv 8 hari lalu
https://huggingface.co/NeuML/txtai-arxiv
- Benar
Setiap kali pencarian semantik diterapkan, saya ingin melihat apa kelebihannya dibanding pencarian teks
Saya penasaran apakah ada benchmark untuk memastikan pencariannya benar-benar lebih baik. Secara subjektif, saya juga penasaran apakah ia lebih baik memunculkan makalah baru, atau lebih berguna di bidang tertentu
- Semua kelebihannya bergantung pada kemampuan model embedding. Embedding semantik memahami nuansa, sehingga bisa menemukan abstrak yang secara konseptual cocok meskipun tidak memiliki keyword yang persis sama
  Misalnya, “neural networks” dan “deep learning” bisa, dan seharusnya, mengambil makalah yang mirip
  Secara subjektif, menurut saya iya. Saya membagikannya kepada rekan-rekan, dan mereka bilang ini membantu menemukan penulis dan makalah baru di bidang tersebut saat menyiapkan manuskrip
  Untuk apakah ini lebih berguna di bidang tertentu, saya rasa saya tidak punya kapasitas untuk menjawabnya
- Salah satu faktornya adalah bagaimana pengguna merumuskan kueri. Sampai batas tertentu orang terbiasa dengan pencarian teks penuh, tetapi pencarian semantik bersinar ketika mengajukan pertanyaan harfiah yang jawabannya mungkin tidak cocok secara istilah
Saya penasaran area bagus lain apa yang mungkin berguna untuk pencarian semantik. Sudah lama saya ingin mencoba membuat webapp seperti ini
Ide yang terpikir sekarang adalah pencarian iklan online untuk marketer. Meng-embedding dan mengindeks iklan video/gambar agar orang bisa mencari inspirasi pemasaran dengan bahasa alami
Ada juga pencarian belanja yang mencakup berbagai platform e-commerce seperti Sephora, Zara, dan H&M
Namun saya tidak tahu apakah salah satu dari keduanya cukup bagus sebagai masalah bisnis untuk diselesaikan
- 1. Pencarian cepat dokumen internal. Hampir semua perusahaan membutuhkannya. Menjelajahi hierarki seperti filesystem itu lambat, terbatas, dan gaya lama
  2. Pencarian cepat kode yang dapat menemukan bagian terkait meskipun komentar diungkapkan dengan cara berbeda
- Saya berharap orang berhenti membuat teknologi iklan menjadi lebih baik. Orang lain mungkin saja melakukannya, tetapi Anda tidak perlu melakukannya
Saya penasaran apakah ini mirip dengan https://www.semanticscholar.org dari Allen Institute for AI
- Sepertinya lebih dekat ke situs web ini: https://arxivxplorer.com/
- Lebih mirip dengan yang dikomentari triilman, tetapi semua komponennya open source. Kami berencana menambahkan dukungan filter dan keyword segera. Sebenarnya kami sedang menunggu Milvus
Ide yang keren
Sebagai masukan, saya mencari “wave function collapse algorithm”, “gumin wave function collapse”, “wfc”, dan “model synthesis”, tetapi tidak mendapatkan hasil relevan dari area riset yang saya minati. Banyak makalah fisika lain dan komputasi kuantum yang muncul
WFC algorithm mungkin contoh yang buruk untuk pencarian seperti ini karena istilahnya digunakan secara tumpang tindih dan sama sekali tidak terkait dengan mekanika kuantum. Model synthesis juga terlalu umum, jadi mungkin itu juga contoh yang buruk
Halaman pertama pencarian “wave function collapse algorithm” di arXiv sendiri menampilkan hasil yang relevan
- arXiv adalah mesin pencari berbasis keyword, jadi ia mencari kata-kata di dalam teks apa adanya. PaperMatch mencoba menemukan makalah serupa yang lebih dekat secara semantik
  Sebagai pendekatan lain, pilih satu makalah yang Anda suka, salin abstrak atau arXiv ID dari arXiv, lalu tempelkan ke PaperMatch; itu akan membantu menemukan makalah yang mirip

HN: Membangun situs web untuk pencarian semantik makalah ArXiv

Bacaan terkait

1 komentar

Komentar Hacker News