- Proyek DIY yang membangun mesin pencari bernama Searcha Page/Seek Ninja di server pribadi yang ditempatkan di ruang cuci, menghadirkan pengalaman setara Google
- Dimulai dari indeks sekitar 2 miliar halaman dan menargetkan 4 miliar dokumen dalam setengah tahun, dengan menggabungkan metode pengindeksan tradisional dan perluasan kata kunci serta pemahaman konteks berbasis LLM
- Menginvestasikan total 5.000 dolar pada perangkat kelas AMD EPYC 7532 (32-core)·RAM 0,5 TB yang dirakit dari komponen server bekas, sambil menekan biaya lewat strategi upgrade arbitrage
- Meminimalkan ketergantungan pada cloud, tetapi menggunakan Llama 3 dari SambaNova untuk inferensi LLM; Seek Ninja adalah versi berorientasi privasi yang tidak menyimpan profil atau menggunakan lokasi
- Kehadiran AI memungkinkan skalabilitas berbiaya rendah, dan codebase miliknya yang mencapai 150 ribu baris dipercepat pengembangannya secara iteratif melalui LLM sehingga ia bisa membangun sistem skala besar sendirian
- Meski memakai konfigurasi pribadi berbiaya rendah, sistem ini tetap mampu menjaga akurasi dan kecepatan pencarian lokal; jika trafik meningkat di masa depan, ia mempertimbangkan pindah ke colocation, menunjukkan potensi eksperimental pencarian alternatif
Latar belakang: pengalaman pencarian ‘hampir seperti Google’ dengan perangkat kecil
- Dibandingkan dengan sejarah Google yang berawal dari server ber-casing Duplo saat masa Stanford, ini menjadi contoh bahwa bahkan dengan satu server lama pun seseorang bisa mendekati pengalaman pencarian modern
- Tiga puluh tahun lalu, Google dimulai sebagai Backrub di kampus Stanford, menggunakan server eksperimental yang menampung 40 GB data dalam casing dari blok Duplo
- Setelahnya di-upgrade menjadi rak server kecil berkat donasi IBM dan Intel, tetapi pada 2025 pencarian Google telah tumbuh ke skala yang bahkan tidak bisa ditampung satu data center saja
- Searcha Page milik Ryan Pearce mewujudkan pengalaman pencarian modern dengan mesin yang ukurannya kira-kira sebesar server Google awal
- Server dipasang di samping mesin cuci dan pengering, dipindahkan dari kamar tidur untuk meredakan masalah panas dan kebisingan
- Meski dibatasi kondisi ruang cuci, kualitas hasil pencariannya dinilai secara subjektif mendekati kelas atas
- Skala indeks saat ini sekitar 2 miliar dokumen dan diperkirakan mencapai 4 miliar dokumen dalam 6 bulan
- Sebagai perbandingan: Google memiliki 24 juta halaman pada 1998 dan 400 miliar halaman pada 2020
- Secara absolut skalanya lebih kecil, tetapi untuk single server self-hosted, ini sangat besar
Teknologi inti: pengindeksan tradisional + bantuan LLM
- Arsitektur keseluruhan mengikuti susunan mesin pencari tradisional, tetapi memakai desain hibrida yang memanfaatkan LLM untuk perluasan kata kunci dan penilaian konteks
- Ini mengingatkan pada sejarah integrasi AI di mesin pencari besar seperti RankBrain, sambil menekankan bahwa terlepas dari sentimen negatif terhadap LLM, AI sudah lama menjadi elemen inti pencarian
- LLM dimanfaatkan sebagai alat praktis untuk meningkatkan kecepatan pengembangan dan skalabilitas dalam pembangunan dataset dan kontekstualisasi
- Sang operator awalnya mengimplementasikan banyak hal dengan LLM lalu menggantinya dengan logika tradisional dalam pengembangan iteratif, hingga codebase berkembang menjadi sekitar 150 ribu baris
- Jika menghitung seluruh iterasi pengembangan, total beban kerjanya diperkirakan setara dengan 500 ribu baris
Infrastruktur: pengindeksan mandiri dan ‘upgrade arbitrage’ dari server bekas
- Perangkatnya berupa server bekas berbasis AMD EPYC 7532 (32-core), memanfaatkan secara agresif penurunan harga komponen yang dulu dijual di kisaran 3.000 dolar+ dan kini tersedia di bawah 200 dolar
- Total biaya pembangunan sekitar 5.000 dolar, dengan sekitar 3.000 dolar di antaranya dialokasikan untuk storage
- Dengan konfigurasi seperti RAM 0,5 TB, sistem ini mampu menangani ratusan sesi simultan
- Dengan pendekatan self-hosting, penggunaan cloud ditekan seminimal mungkin, tetapi untuk inferensi LLM ia mengandalkan SambaNova (Llama 3) demi akses cepat dan murah
- Dengan memanfaatkan korpus web publik seperti Common Crawl, ia mempercepat crawler dan indexer, sambil berencana mengurangi ketergantungan itu dalam jangka panjang
Produk: Searcha Page dan Seek Ninja
- Searcha Page: menghadirkan UX SERP tradisional yang mirip Google, dan memberikan hasil yang tetap efektif bahkan untuk pencarian lokal
- Disebutkan bahwa alih-alih meta description, sistem ini memakai ringkasan LLM untuk memperkuat penjelasan relevansi kueri-dokumen
- Seek Ninja: varian privacy-first yang tidak menyimpan profil dan tidak menggunakan lokasi
- Pendekatan yang ringan dan minimalis, cocok dipakai sebagai pengganti mode incognito
- Untuk monetisasi, ia sedang menguji iklan afiliasi ringan alih-alih banner berlebihan, dan berencana pindah ke colocation jika trafik meningkat tajam
Kasus pembanding: pendekatan cloud dan vektor milik Wilson Lin
- Dalam eksperimen personal lain pada era yang sama, Wilson Lin mengejar operasi sangat murah dengan strategi cloud-native dan mesin vektor buatannya sendiri, CoreNN
- Ia membuat ringkasan LLM untuk setiap dokumen guna mengekspresikan pencocokan kueri-dokumen dengan cara berbeda
- Tujuannya berbagi pandangan bahwa hambatan yang lebih besar bukanlah teknologi, melainkan pasar dan kanal distribusi
- Pearce sempat mencoba vector DB, tetapi hasilnya dianggap terlalu ambigu dan artistik hingga tidak cukup akurat, sehingga ia kembali ke teknik tradisional dari sudut pandang akurasi ranking
Isu operasional: panas, kebisingan, dan keterbatasan fisik ruang cuci
- Karena server di kamar tidur menimbulkan masalah hidup sehari-hari akibat panas, perangkat dipindahkan ke utility room, dengan konektivitas dijaga lewat solusi seperti melubangi jalur kabel
- Jika pintu terlalu lama tertutup, penumpukan panas bisa menjadi masalah sehingga ventilasi menjadi faktor penting
- Meski cenderung skeptis terhadap cloud, ia mempertimbangkan pemindahan ke colocation data center secara berbasis trigger dengan melihat batasan LLM dan trafik
Makna: eksperimen pengejaran Google oleh pengembang solo dan peran realistis LLM
- Berlawanan dengan anggapan bahwa LLM adalah alat yang merusak kualitas pencarian, kasus ini menunjukkan bahwa LLM adalah sarana realistis yang memberi individu kemampuan membangun mesin pencari sebagai akselerator pengembangan dan skala
- Kombinasi pengindeksan tradisional + bantuan LLM adalah kompromi praktis yang mengejar akurasi sekaligus daya jelaskan
- Kombinasi server bekas murah + korpus publik + API LLM murah membuktikan bahwa pencarian alternatif bisa dicoba tanpa sumber daya Big Tech berskala besar
- Meski tantangan seperti ekspansi bahasa, biaya crawling berkelanjutan, dan ketahanan terhadap spam masih tersisa, ini menunjukkan daya saing eksperimental di ranah pencarian niche dan berorientasi privasi
Belum ada komentar.