Berkat AI, Seorang Pria Menjalankan Layanan Pesaing Google dari Ruang Cuci

(fastcompany.com)

21 poin oleh GN⁺ 2025-09-12 | Belum ada komentar. | Bagikan ke WhatsApp

Proyek DIY yang membangun mesin pencari bernama Searcha Page/Seek Ninja di server pribadi yang ditempatkan di ruang cuci, menghadirkan pengalaman setara Google
Dimulai dari indeks sekitar 2 miliar halaman dan menargetkan 4 miliar dokumen dalam setengah tahun, dengan menggabungkan metode pengindeksan tradisional dan perluasan kata kunci serta pemahaman konteks berbasis LLM
Menginvestasikan total 5.000 dolar pada perangkat kelas AMD EPYC 7532 (32-core)·RAM 0,5 TB yang dirakit dari komponen server bekas, sambil menekan biaya lewat strategi upgrade arbitrage
Meminimalkan ketergantungan pada cloud, tetapi menggunakan Llama 3 dari SambaNova untuk inferensi LLM; Seek Ninja adalah versi berorientasi privasi yang tidak menyimpan profil atau menggunakan lokasi
Kehadiran AI memungkinkan skalabilitas berbiaya rendah, dan codebase miliknya yang mencapai 150 ribu baris dipercepat pengembangannya secara iteratif melalui LLM sehingga ia bisa membangun sistem skala besar sendirian
Meski memakai konfigurasi pribadi berbiaya rendah, sistem ini tetap mampu menjaga akurasi dan kecepatan pencarian lokal; jika trafik meningkat di masa depan, ia mempertimbangkan pindah ke colocation, menunjukkan potensi eksperimental pencarian alternatif

Latar belakang: pengalaman pencarian ‘hampir seperti Google’ dengan perangkat kecil

Dibandingkan dengan sejarah Google yang berawal dari server ber-casing Duplo saat masa Stanford, ini menjadi contoh bahwa bahkan dengan satu server lama pun seseorang bisa mendekati pengalaman pencarian modern
Tiga puluh tahun lalu, Google dimulai sebagai Backrub di kampus Stanford, menggunakan server eksperimental yang menampung 40 GB data dalam casing dari blok Duplo
- Setelahnya di-upgrade menjadi rak server kecil berkat donasi IBM dan Intel, tetapi pada 2025 pencarian Google telah tumbuh ke skala yang bahkan tidak bisa ditampung satu data center saja
Searcha Page milik Ryan Pearce mewujudkan pengalaman pencarian modern dengan mesin yang ukurannya kira-kira sebesar server Google awal
- Server dipasang di samping mesin cuci dan pengering, dipindahkan dari kamar tidur untuk meredakan masalah panas dan kebisingan
- Meski dibatasi kondisi ruang cuci, kualitas hasil pencariannya dinilai secara subjektif mendekati kelas atas
Skala indeks saat ini sekitar 2 miliar dokumen dan diperkirakan mencapai 4 miliar dokumen dalam 6 bulan
- Sebagai perbandingan: Google memiliki 24 juta halaman pada 1998 dan 400 miliar halaman pada 2020
- Secara absolut skalanya lebih kecil, tetapi untuk single server self-hosted, ini sangat besar

Teknologi inti: pengindeksan tradisional + bantuan LLM

Arsitektur keseluruhan mengikuti susunan mesin pencari tradisional, tetapi memakai desain hibrida yang memanfaatkan LLM untuk perluasan kata kunci dan penilaian konteks
- Ini mengingatkan pada sejarah integrasi AI di mesin pencari besar seperti RankBrain, sambil menekankan bahwa terlepas dari sentimen negatif terhadap LLM, AI sudah lama menjadi elemen inti pencarian
- LLM dimanfaatkan sebagai alat praktis untuk meningkatkan kecepatan pengembangan dan skalabilitas dalam pembangunan dataset dan kontekstualisasi
Sang operator awalnya mengimplementasikan banyak hal dengan LLM lalu menggantinya dengan logika tradisional dalam pengembangan iteratif, hingga codebase berkembang menjadi sekitar 150 ribu baris
- Jika menghitung seluruh iterasi pengembangan, total beban kerjanya diperkirakan setara dengan 500 ribu baris

Infrastruktur: pengindeksan mandiri dan ‘upgrade arbitrage’ dari server bekas

Perangkatnya berupa server bekas berbasis AMD EPYC 7532 (32-core), memanfaatkan secara agresif penurunan harga komponen yang dulu dijual di kisaran 3.000 dolar+ dan kini tersedia di bawah 200 dolar
- Total biaya pembangunan sekitar 5.000 dolar, dengan sekitar 3.000 dolar di antaranya dialokasikan untuk storage
- Dengan konfigurasi seperti RAM 0,5 TB, sistem ini mampu menangani ratusan sesi simultan
Dengan pendekatan self-hosting, penggunaan cloud ditekan seminimal mungkin, tetapi untuk inferensi LLM ia mengandalkan SambaNova (Llama 3) demi akses cepat dan murah
- Dengan memanfaatkan korpus web publik seperti Common Crawl, ia mempercepat crawler dan indexer, sambil berencana mengurangi ketergantungan itu dalam jangka panjang

Produk: Searcha Page dan Seek Ninja

Searcha Page: menghadirkan UX SERP tradisional yang mirip Google, dan memberikan hasil yang tetap efektif bahkan untuk pencarian lokal
- Disebutkan bahwa alih-alih meta description, sistem ini memakai ringkasan LLM untuk memperkuat penjelasan relevansi kueri-dokumen
Seek Ninja: varian privacy-first yang tidak menyimpan profil dan tidak menggunakan lokasi
- Pendekatan yang ringan dan minimalis, cocok dipakai sebagai pengganti mode incognito
Untuk monetisasi, ia sedang menguji iklan afiliasi ringan alih-alih banner berlebihan, dan berencana pindah ke colocation jika trafik meningkat tajam

Kasus pembanding: pendekatan cloud dan vektor milik Wilson Lin

Dalam eksperimen personal lain pada era yang sama, Wilson Lin mengejar operasi sangat murah dengan strategi cloud-native dan mesin vektor buatannya sendiri, CoreNN
- Ia membuat ringkasan LLM untuk setiap dokumen guna mengekspresikan pencocokan kueri-dokumen dengan cara berbeda
- Tujuannya berbagi pandangan bahwa hambatan yang lebih besar bukanlah teknologi, melainkan pasar dan kanal distribusi
Pearce sempat mencoba vector DB, tetapi hasilnya dianggap terlalu ambigu dan artistik hingga tidak cukup akurat, sehingga ia kembali ke teknik tradisional dari sudut pandang akurasi ranking

Isu operasional: panas, kebisingan, dan keterbatasan fisik ruang cuci

Karena server di kamar tidur menimbulkan masalah hidup sehari-hari akibat panas, perangkat dipindahkan ke utility room, dengan konektivitas dijaga lewat solusi seperti melubangi jalur kabel
- Jika pintu terlalu lama tertutup, penumpukan panas bisa menjadi masalah sehingga ventilasi menjadi faktor penting
Meski cenderung skeptis terhadap cloud, ia mempertimbangkan pemindahan ke colocation data center secara berbasis trigger dengan melihat batasan LLM dan trafik

Makna: eksperimen pengejaran Google oleh pengembang solo dan peran realistis LLM

Berlawanan dengan anggapan bahwa LLM adalah alat yang merusak kualitas pencarian, kasus ini menunjukkan bahwa LLM adalah sarana realistis yang memberi individu kemampuan membangun mesin pencari sebagai akselerator pengembangan dan skala
- Kombinasi pengindeksan tradisional + bantuan LLM adalah kompromi praktis yang mengejar akurasi sekaligus daya jelaskan
Kombinasi server bekas murah + korpus publik + API LLM murah membuktikan bahwa pencarian alternatif bisa dicoba tanpa sumber daya Big Tech berskala besar
- Meski tantangan seperti ekspansi bahasa, biaya crawling berkelanjutan, dan ketahanan terhadap spam masih tersisa, ini menunjukkan daya saing eksperimental di ranah pencarian niche dan berorientasi privasi

Berkat AI, Seorang Pria Menjalankan Layanan Pesaing Google dari Ruang Cuci

Latar belakang: pengalaman pencarian ‘hampir seperti Google’ dengan perangkat kecil

Teknologi inti: pengindeksan tradisional + bantuan LLM

Infrastruktur: pengindeksan mandiri dan ‘upgrade arbitrage’ dari server bekas

Produk: Searcha Page dan Seek Ninja

Kasus pembanding: pendekatan cloud dan vektor milik Wilson Lin

Isu operasional: panas, kebisingan, dan keterbatasan fisik ruang cuci

Makna: eksperimen pengejaran Google oleh pengembang solo dan peran realistis LLM

Bacaan terkait

Belum ada komentar.