21 poin oleh GN⁺ 2025-09-12 | 2 komentar | Bagikan ke WhatsApp
  • Proyek DIY yang membangun mesin pencari bernama Searcha Page/Seek Ninja di server pribadi yang ditempatkan di ruang cuci, menghadirkan pengalaman setara Google
  • Dimulai dari indeks sekitar 2 miliar halaman dan menargetkan 4 miliar dokumen dalam setengah tahun, dengan menggabungkan metode pengindeksan tradisional dan perluasan kata kunci serta pemahaman konteks berbasis LLM
  • Menginvestasikan total 5.000 dolar pada perangkat kelas AMD EPYC 7532 (32-core)·RAM 0,5 TB yang dirakit dari komponen server bekas, sambil menekan biaya lewat strategi upgrade arbitrage
  • Meminimalkan ketergantungan pada cloud, tetapi menggunakan Llama 3 dari SambaNova untuk inferensi LLM; Seek Ninja adalah versi berorientasi privasi yang tidak menyimpan profil atau menggunakan lokasi
  • Kehadiran AI memungkinkan skalabilitas berbiaya rendah, dan codebase miliknya yang mencapai 150 ribu baris dipercepat pengembangannya secara iteratif melalui LLM sehingga ia bisa membangun sistem skala besar sendirian
  • Meski memakai konfigurasi pribadi berbiaya rendah, sistem ini tetap mampu menjaga akurasi dan kecepatan pencarian lokal; jika trafik meningkat di masa depan, ia mempertimbangkan pindah ke colocation, menunjukkan potensi eksperimental pencarian alternatif

Latar belakang: pengalaman pencarian ‘hampir seperti Google’ dengan perangkat kecil

  • Dibandingkan dengan sejarah Google yang berawal dari server ber-casing Duplo saat masa Stanford, ini menjadi contoh bahwa bahkan dengan satu server lama pun seseorang bisa mendekati pengalaman pencarian modern
  • Tiga puluh tahun lalu, Google dimulai sebagai Backrub di kampus Stanford, menggunakan server eksperimental yang menampung 40 GB data dalam casing dari blok Duplo
    • Setelahnya di-upgrade menjadi rak server kecil berkat donasi IBM dan Intel, tetapi pada 2025 pencarian Google telah tumbuh ke skala yang bahkan tidak bisa ditampung satu data center saja
  • Searcha Page milik Ryan Pearce mewujudkan pengalaman pencarian modern dengan mesin yang ukurannya kira-kira sebesar server Google awal
    • Server dipasang di samping mesin cuci dan pengering, dipindahkan dari kamar tidur untuk meredakan masalah panas dan kebisingan
    • Meski dibatasi kondisi ruang cuci, kualitas hasil pencariannya dinilai secara subjektif mendekati kelas atas
  • Skala indeks saat ini sekitar 2 miliar dokumen dan diperkirakan mencapai 4 miliar dokumen dalam 6 bulan
    • Sebagai perbandingan: Google memiliki 24 juta halaman pada 1998 dan 400 miliar halaman pada 2020
    • Secara absolut skalanya lebih kecil, tetapi untuk single server self-hosted, ini sangat besar

Teknologi inti: pengindeksan tradisional + bantuan LLM

  • Arsitektur keseluruhan mengikuti susunan mesin pencari tradisional, tetapi memakai desain hibrida yang memanfaatkan LLM untuk perluasan kata kunci dan penilaian konteks
    • Ini mengingatkan pada sejarah integrasi AI di mesin pencari besar seperti RankBrain, sambil menekankan bahwa terlepas dari sentimen negatif terhadap LLM, AI sudah lama menjadi elemen inti pencarian
    • LLM dimanfaatkan sebagai alat praktis untuk meningkatkan kecepatan pengembangan dan skalabilitas dalam pembangunan dataset dan kontekstualisasi
  • Sang operator awalnya mengimplementasikan banyak hal dengan LLM lalu menggantinya dengan logika tradisional dalam pengembangan iteratif, hingga codebase berkembang menjadi sekitar 150 ribu baris
    • Jika menghitung seluruh iterasi pengembangan, total beban kerjanya diperkirakan setara dengan 500 ribu baris

Infrastruktur: pengindeksan mandiri dan ‘upgrade arbitrage’ dari server bekas

  • Perangkatnya berupa server bekas berbasis AMD EPYC 7532 (32-core), memanfaatkan secara agresif penurunan harga komponen yang dulu dijual di kisaran 3.000 dolar+ dan kini tersedia di bawah 200 dolar
    • Total biaya pembangunan sekitar 5.000 dolar, dengan sekitar 3.000 dolar di antaranya dialokasikan untuk storage
    • Dengan konfigurasi seperti RAM 0,5 TB, sistem ini mampu menangani ratusan sesi simultan
  • Dengan pendekatan self-hosting, penggunaan cloud ditekan seminimal mungkin, tetapi untuk inferensi LLM ia mengandalkan SambaNova (Llama 3) demi akses cepat dan murah
    • Dengan memanfaatkan korpus web publik seperti Common Crawl, ia mempercepat crawler dan indexer, sambil berencana mengurangi ketergantungan itu dalam jangka panjang

Produk: Searcha Page dan Seek Ninja

  • Searcha Page: menghadirkan UX SERP tradisional yang mirip Google, dan memberikan hasil yang tetap efektif bahkan untuk pencarian lokal
    • Disebutkan bahwa alih-alih meta description, sistem ini memakai ringkasan LLM untuk memperkuat penjelasan relevansi kueri-dokumen
  • Seek Ninja: varian privacy-first yang tidak menyimpan profil dan tidak menggunakan lokasi
    • Pendekatan yang ringan dan minimalis, cocok dipakai sebagai pengganti mode incognito
  • Untuk monetisasi, ia sedang menguji iklan afiliasi ringan alih-alih banner berlebihan, dan berencana pindah ke colocation jika trafik meningkat tajam

Kasus pembanding: pendekatan cloud dan vektor milik Wilson Lin

  • Dalam eksperimen personal lain pada era yang sama, Wilson Lin mengejar operasi sangat murah dengan strategi cloud-native dan mesin vektor buatannya sendiri, CoreNN
    • Ia membuat ringkasan LLM untuk setiap dokumen guna mengekspresikan pencocokan kueri-dokumen dengan cara berbeda
    • Tujuannya berbagi pandangan bahwa hambatan yang lebih besar bukanlah teknologi, melainkan pasar dan kanal distribusi
  • Pearce sempat mencoba vector DB, tetapi hasilnya dianggap terlalu ambigu dan artistik hingga tidak cukup akurat, sehingga ia kembali ke teknik tradisional dari sudut pandang akurasi ranking

Isu operasional: panas, kebisingan, dan keterbatasan fisik ruang cuci

  • Karena server di kamar tidur menimbulkan masalah hidup sehari-hari akibat panas, perangkat dipindahkan ke utility room, dengan konektivitas dijaga lewat solusi seperti melubangi jalur kabel
    • Jika pintu terlalu lama tertutup, penumpukan panas bisa menjadi masalah sehingga ventilasi menjadi faktor penting
  • Meski cenderung skeptis terhadap cloud, ia mempertimbangkan pemindahan ke colocation data center secara berbasis trigger dengan melihat batasan LLM dan trafik

Makna: eksperimen pengejaran Google oleh pengembang solo dan peran realistis LLM

  • Berlawanan dengan anggapan bahwa LLM adalah alat yang merusak kualitas pencarian, kasus ini menunjukkan bahwa LLM adalah sarana realistis yang memberi individu kemampuan membangun mesin pencari sebagai akselerator pengembangan dan skala
    • Kombinasi pengindeksan tradisional + bantuan LLM adalah kompromi praktis yang mengejar akurasi sekaligus daya jelaskan
  • Kombinasi server bekas murah + korpus publik + API LLM murah membuktikan bahwa pencarian alternatif bisa dicoba tanpa sumber daya Big Tech berskala besar
    • Meski tantangan seperti ekspansi bahasa, biaya crawling berkelanjutan, dan ketahanan terhadap spam masih tersisa, ini menunjukkan daya saing eksperimental di ranah pencarian niche dan berorientasi privasi

2 komentar

 
savvykang 2025-09-12

Tautan untuk melewati paywall https://archive.is/dLEl5

 
GN⁺ 2025-09-12
Pendapat Hacker News
  • Saya membuat indeks domain sendiri. Saya tidak merayapi semua halaman internal dari setiap domain, tapi itu memang bukan tujuannya. Saat ini saya punya 1.542.766 domain. Memang tidak banyak, tapi datanya dikumpulkan secara jujur. Siapa pun bisa memakainya lewat repositori GitHub, jadi kalau ingin mulai crawling bisa dipakai sebagai referensi: Internet-Places-Database

    • Proyek yang sangat keren. Awalnya saya penasaran, terinspirasi dari apa. Dan ada tautan rusak di Readme: https://rumca-js.github.io/internet full internet search

    • Kalau meminta zone file ICANN, bukankah kita bisa mendapatkan daftar domain resmi untuk hari itu?

  • Saya juga sempat ingin mencoba hal seperti ini pada 2023! Bagian tersulit dalam membuat mesin pencari sebenarnya bukanlah "pencarian" itu sendiri, melainkan membangun indeks dan, seperti yang orang lain katakan, merayapi internet yang sangat tidak ramah, terutama jika dijalankan dari satu server rumahan tanpa rotasi IP. Semoga orang ini berhasil dan menjadi referensi di komunitas seperti pembuat Marginalia. Membaca ini membuat saya ingin mencobanya lagi

    • Sepertinya bagus untuk menandai open-webindex dari openwebsearch.eu. Ini belum open source, tapi mungkin akan dibuka setelah tahap beta selesai. Rencana detailnya masih belum pasti

    • Saya penasaran apakah data commoncrawl cukup berguna untuk proyek seperti ini

    • Saya sempat berpikir, bagaimana kalau crawling-nya di-crowdsource? Masalah rotasi IP bisa teratasi, dan bebannya juga bisa didistribusikan

    • Isu IP ini menarik. Dulu saya membuat bot CSGO untuk scraping harga Steam, bahkan sempat menyewa layanan proxy, tapi tetap diblokir oleh Steam. Jadi saya penasaran, apakah orang-orang benar-benar membeli IP sungguhan

    • Jelas ada perbedaan antara punya indeks dan tidak punya indeks. Tapi mengurutkan hasil adalah hal yang berbeda lagi. Misalnya, apa yang seharusnya muncul di halaman ke-200, dan apakah hasil di sana masih bermakna

  • Saya mencoba pencarian acak di https://searcha.page/ dan mendapat pesan "terjadi error saat membuat hasil pencarian"

    • Saya khawatir ini kena hug of death. Suhu di laundry itu pasti naik drastis

    • Penggunaan saya minggu ini meningkat 20 kali lipat dibanding minggu lalu. Anehnya, bottleneck-nya bukan layanan pencariannya sendiri, melainkan perluasan konteks. Grafik pemakaiannya hampir tegak lurus. Saya sendiri tidak yakin ini termasuk minggu yang bagus atau tidak

    • Saya mengalami hal yang sama di https://seek.ninja/s?q=beatles

    • Sebelum gejala ini muncul, halaman hasil pencarian pertama (SERP) cukup mengesankan

  • Saya mendapat pemberitahuan bahwa batas artikel sudah tercapai. Sepertinya sudah sekitar 10 tahun sejak terakhir kali saya membuka tautan fastcompany! Saya sempat berharap akhirnya bisa membaca tulisan mereka lagi, tapi malah kecewa. Saya melihat isinya lewat archive, dan:

    • mesin pencari baru Search-a-Page juga punya versi berfokus privasi bernama Seek Ninja,
    • rahasianya adalah large language model. Hampir sama dengan pencarian tradisional, hanya saja AI membantu perluasan kata kunci dan pemahaman konteks.
    • ada tulisan blog dari penghobi ambisius bernama Wilson Lin yang membuat mesin pencari dengan caranya sendiri blog
    • juga disebut contoh mesin pencari hobi nonkomersial seperti Marginalia Marginalia
    • "Kenapa laundry? Karena panas dan berisik." Mesinnya memakai AMD EPYC 7532 32-core, RAM 0,5 TB, total biaya $5.000, dan penyimpanan $3.000
    • Belakangan ini saya benar-benar binge-read tulisan blog Wilson Lin, dan kualitasnya sangat tinggi serta sangat bermanfaat bagi amatir yang tertarik pada mesin pencari dan LLM blog

    • Mode Reader Firefox, kadang ditambah refresh, bisa menembus sebagian besar paywall, termasuk artikel ini

  • "Prosesor AMD EPYC 7532 32-core saat rilis dulu harganya lebih dari $3.000, tapi sekarang bisa didapat di eBay dengan harga di bawah $200." Kenapa deal semacam ini selalu tidak pernah muncul saat saya sedang mencari komponen homelab

    • Kita harus meluangkan waktu untuk memeriksa deal yang pelabelannya berantakan, dan siap juga membeli dari penjual tanpa reputasi

    • Kalau mencari 'AMD EPYC 7532', ada banyak sekali listing di kisaran $150~$200. Saya jadi penasaran apakah saat dulu mencari komponen homelab, memang belum ada deal seperti ini

    • Memang bukan CPU, tapi awal tahun ini saya membeli workstation Thinkpad produksi 2020 di eBay seharga $500. Waktu baru, harganya $5.700. Pasar hardware eBay memang seperti itu. Tunggu 5 tahun, harganya turun jadi sepersepuluh

    • TheServerStore.com kadang punya deal bagus. Awal tahun ini saya sekaligus merakit server EPYC 7702 64-core baru (RAM 256GB, NVMe 8TB) dengan total sekitar $3.000

    • Salah satu cara adalah membeli chip grade QC dan mencoba sendiri. Saya juga membelinya dengan cara seperti ini. Biaya terbesar bagi saya justru disk, lalu RAM. Chip-nya terasa relatif murah

  • Saya rasa proyek ini sangat keren, semoga tetap menyenangkan untuk dikerjakan. Saya sendiri sudah puluhan kali membayangkan membuat mesin pencari pribadi, tapi selalu mentok. Internet tahun 1999 dan internet sekarang terlalu berbeda. Sekarang, discovery itu sendiri sudah tidak terlalu bermakna. Misalnya, kita menemukan blog pribadi tentang dinosaurus, tapi tidak pernah diperbarui sejak 2004, gambar dan tautannya rusak semua, dan sekarang Wikipedia atau Smithsonian jelas lebih baik. Menemukan situs pribadi unik seperti itu memang tetap menyenangkan, tapi nilainya tidak lagi seperti dulu. Secara realistis, kita sedang kembali ke jaringan yang berpusat pada "hub", di mana tiap platform memonopoli jenis konten tertentu: YouTube, TikTok, Medium, Reddit, Mayo Clinic, dan lain-lain. Perusahaan-perusahaan besar seperti ini cenderung defensif terhadap crawler pribadi, tapi ramah terhadap crawler Google. Karena Google memberi mereka trafik pengguna. Kalau crawler saya, apakah akan semudah itu diizinkan? Meski begitu saya tidak menyerah. Mungkin internet berbasis hub seperti ini memang membutuhkan mesin pencari yang sadar hub

  • Ungkapan 'Google rival' agak berlebihan. Menyebutnya sekadar 'mesin pencari' justru terasa lebih akurat, mengingat semua hal yang dilakukan Google saat ini

  • Sulit bagi saya untuk membalas semua orang satu per satu, tapi sayalah orang yang memang menjalankan mesin pencari ini. Ya, hari ini sempat down karena lonjakan trafik. Penggunaan meningkat 20 kali dibanding minggu lalu, dan saya benar-benar belum siap. Di kepala saya, saya samar-samar membayangkan pertumbuhan pengguna akan lambat dan stabil. Terima kasih kepada semua yang sudah mencoba, dan maaf jika layanannya tidak bekerja dengan baik. Ini pertama kalinya saya benar-benar menghadapi "ujian dengan api"

  • Kombinasi inovasi hebat dan self-hosting yang skeptis terhadap cloud. Menurut saya hal seperti ini perlu jauh lebih banyak lagi