1 poin oleh GN⁺ 2024-02-26 | 1 komentar | Bagikan ke WhatsApp

Perkembangan mesin pencari Marginalia

  • Pencarian Marginalia pada awalnya adalah eksperimen kecil, tetapi kini telah menjadi proyek yang dijalankan penuh waktu.
  • Mesin pencari ini saat ini bekerja paling baik sejauh ini dan telah mencapai banyak tonggak penting.
  • Mesin pencari ini telah dipindahkan dari ruang tamu ke server enterprise yang layak.

Perapian basis kode dan penyederhanaan aplikasi

  • Tema utama tahun ini adalah merapikan basis kode dan menyederhanakan aplikasi.
  • Fokusnya adalah menjaga beban operasional tetap dapat dikelola, serta membuat orang lain lebih mudah mengakses aplikasi dan codebase.
  • Banyak pekerjaan yang diperlukan, tetapi hasilnya mulai terlihat.

Peningkatan operasional

  • Dulu, pergantian indeks memerlukan downtime selama beberapa hari, tetapi sekarang itu sudah tidak ada lagi.
  • Belakangan ini, upgrade tanpa downtime juga sudah dimungkinkan.
  • Dari sisi operasional, hal-hal yang dulu membutuhkan proses manual selama berminggu-minggu kini telah digantikan dengan menekan tombol di GUI.

Penambahan dukungan kata kunci anchor text

  • Penambahan dukungan kata kunci anchor text memberikan dampak besar pada kemampuan mesin pencari dalam menemukan hasil yang relevan.
  • Saat perubahan ini pertama kali dilakukan, integrasinya belum berjalan baik sehingga tidak langsung terlihat, tetapi ketika sinyal relevansi yang baru mulai mapan, muncullah momen yang mengejutkan.

Transisi menjadi pekerjaan penuh waktu

  • Berkat dukungan sponsor dari NLnet, sekitar 8 bulan lalu proyek ini beralih menjadi pekerjaan penuh waktu.
  • Bagian tersulitnya adalah tidak bekerja terlalu banyak, dan ada usaha untuk setidaknya beristirahat satu hari setiap minggu.
  • Karena diketahui bahwa istirahat yang cukup membuat seseorang berpikir lebih jernih, maka secara teori penting untuk sesekali beristirahat agar bisa bekerja lebih baik.

Target pengindeksan 1 miliar dokumen

  • Perjalanan menuju pengindeksan 1 miliar dokumen berjalan perlahan.
  • Bukan karena perangkat lunaknya tidak mampu menanganinya, tetapi karena rasio signal-to-noise di web buruk sehingga ini lebih sulit dari perkiraan.
  • Salah satu alasan besar mengapa mesin pencari ini bekerja relatif baik adalah karena apa yang tidak diindeksnya.
  • Setahun lalu, indeksnya berada di kisaran 50 juta hingga 100 juta, tetapi pada crawling terakhir mencapai 220 juta, dan saat putaran crawling berikutnya selesai diperkirakan akan berada di kisaran 290 juta hingga 300 juta.

Peningkatan parsing dan eksekusi query

  • Masih ada banyak ruang untuk peningkatan dalam parsing dan eksekusi query.
  • Pekerjaan persiapan telah dimulai untuk merapikan kode yang terdampak sebelum pekerjaan sebenarnya dimulai.
  • Lompatan besar dalam proyek ini selalu bersifat eksperimental; memang ada yang direncanakan, tetapi hal-hal yang tidak direncanakan tampaknya justru akan memberi dampak besar.

Ucapan terima kasih

  • Terima kasih kepada NLnet, FUTO, para sponsor Patreon, para pendukung, dan para pengguna.
  • Tanpa dukungan mereka, semua ini tidak akan mungkin terjadi.

Pendapat GN⁺

  • Mesin pencari Marginalia adalah contoh proyek yang dimulai dari eksperimen kecil lalu tumbuh menjadi proyek penuh waktu melalui peningkatan berkelanjutan dan dukungan komunitas.
  • Peningkatan fungsional seperti dukungan kata kunci anchor text berperan sebagai perubahan penting yang secara signifikan meningkatkan performa mesin pencari.
  • Proyek ini memberi komunitas open source dan para pengembang kesempatan untuk berkolaborasi dan berkontribusi, sekaligus membantu kemajuan teknologi mesin pencari.

1 komentar

 
GN⁺ 2024-02-26
Komentar Hacker News
  • Seorang pengguna menyimpan situs ini sebagai bookmark untuk mencari materi yang sangat spesifik tentang pemodelan numerik. Ia menemukan materi tentang solver, pembuatan mesh, dan metode optimisasi dari era 1980-an dan 1990-an yang tidak bisa ditemukan di Google, serta berhasil menemukan situs-situs yang ditulis para ahli yang sama sekali tidak akan ditemukan lewat Google, sehingga menurutnya sangat berharga.
  • Rasio sinyal terhadap derau di web tidak bagus, sehingga mereka mengalami kesulitan yang lebih besar dari perkiraan. Salah satu alasan mesin pencari relatif bekerja dengan baik adalah karena ada hal-hal yang tidak mereka indeks.
  • Seorang pengguna menemukan situs web acak yang melakukan binary patch pada C&C Tiberian Sun untuk dukungan IPv6, dan itu membuatnya merindukan web lama. Ini mengingatkannya pada Searchlores milik Fravia, dan terasa seperti apa jadinya jika Umberto Eco tertarik pada komputer. Pengalamannya seperti menemukan sesuatu yang menakjubkan di labirin perpustakaan dalam 'The Name of the Rose', lalu kehilangannya selamanya setelah itu.
  • Pengguna lain menyebut bahwa ini terasa seperti masa lalu. Pada 1998, bahkan dengan AltaVista ia tidak bisa menemukan perbedaan antara buku dan film "All Quiet on the Western Front", tetapi sekarang ia bisa menemukan banyak halaman blog pribadi, makalah universitas, situs kode, diskusi mailing list, blog, grup diskusi Rust, situs pribadi, dan diskusi para ahli yang membahas topik itu.
  • Seorang pengguna mengatakan ia terkejut saat mencari "transformers intuition". Dibandingkan hasil Google yang menampilkan situs yang dioptimalkan untuk SEO—kebanyakan Medium—serta situs mencolok dengan isi yang lebih buruk, hasil dari mesin pencari ini menurutnya luar biasa.
  • Seorang pengguna bertanya-tanya apakah Common Crawl akan berguna. Saat ini datanya sekitar 100TB untuk 3,35 miliar halaman, sehingga akan butuh waktu lama untuk diunduh kecuali diproses langsung di S3, dan ia tidak tahu seperti apa rasio sinyal terhadap deraunya.
  • Ada pengguna yang mempertanyakan fitur "situs acak". Ia mengira hasilnya akan diambil secara sampling seragam, tetapi tampaknya situs-situs tertentu terus muncul berulang kali.
  • Seorang pengguna mengatakan ia tidak sering memakainya karena sudah terbiasa dengan Google, tetapi menurutnya Marginalia adalah proyek yang keren, dan di tengah makin maraknya situs SEO spam serta jawaban buatan AI, ia merasa kemungkinan akan lebih sering memakainya ke depan.
  • Terakhir, seorang pengguna mengatakan ia baru membandingkannya dengan hasil pencarian Google terbaru: hasil untuk pencarian skor terendah India dalam Test cricket kurang bagus, hasil untuk kalkulator RAID lumayan tetapi bercampur derau, dan pencarian tentang perbedaan film dan buku "All Quiet on the Western Front" sama sekali tidak menghasilkan apa pun.