- Alignment Scry dari ExoPriors adalah platform yang memungkinkan pencarian 60 juta dokumen dan 22 juta embedding yang dikumpulkan dari arXiv, Hacker News, LessWrong, dan lainnya menggunakan SQL serta operasi vektor melalui Claude Code
- Menyediakan API key publik dan mendukung pencarian teks berbasis BM25 maupun pencarian semantik berbasis jarak kosinus pgvector
- Dengan fungsi
alignment.search() dan alignment.search_exhaustive(), pengguna dapat membedakan antara pencarian sampel cepat dan pencarian menyeluruh
- API dapat dipanggil dengan pengaturan sederhana di Claude Web atau lingkungan Claude Code, serta menyediakan handle pribadi (
@handle) dan fitur penyimpanan embedding
- Dibuka gratis untuk peneliti, dan penting sebagai lingkungan eksperimen kueri data skala besar untuk riset AI dan otomatisasi penelusuran informasi
Ikhtisar
- Alignment Scry adalah sistem pencarian yang dapat menjalankan operasi SQL dan aljabar vektor terhadap indeks dokumen terkait ledakan kecerdasan
- Sumber data utama mencakup arXiv, Hacker News, LessWrong, community-archive.org, dll.
- Pengguna dapat menelusuri data melalui Claude Code dengan kueri bahasa alami atau perintah SQL
- Sistem ini masih berada pada tahap eksperimen Alpha, dan juga mencakup Lens Studio, alat eksplorasi yang berpusat pada LessWrong
Integrasi Claude dan cara akses
- Dapat langsung digunakan lewat pengaturan akses API di Claude Code atau Claude Web
- Izinkan eksekusi kode, pembuatan file, akses jaringan, lalu tambahkan
api.exopriors.com ke whitelist domain
- Dapat diakses tanpa login melalui API key publik
exopriors_public_readonly_v1_2025
- Agar model Claude tidak perlu melewati proses persetujuan pengguna setiap kali memanggil API, tersedia opsi
--dangerously-skip-permissions (berisiko)
- Disarankan memakai model Opus 4.5 atau lebih baru, dan disebutkan adanya risiko serangan prompt injection
Fitur utama
- Query: menjalankan kueri SQL terhadap 60 juta dokumen
- Embed: menyimpan dan menggunakan ulang embedding untuk pencarian semantik
- Timeout: disesuaikan otomatis sekitar 20–120 detik tergantung beban
- Target pencarian: berbagai jenis dokumen seperti post, comment, paper, tweet, dll.
- Lexical Search: pencarian kata kunci berbasis BM25, mendukung phrase search dan fuzzy matching
- Semantic Search: pencarian kemiripan makna dengan jarak kosinus pgvector (
<=>)
Kueri dan manajemen performa
alignment.search() hanya mengembalikan 100 hasil BM25 teratas, cocok untuk sampling eksplorasi cepat
alignment.search_exhaustive() menjalankan pencarian penuh dan mendukung pagination
- Panduan performa
- Pencarian sederhana: 1–5 detik
- Join embedding (di bawah 500 ribu baris): 5–20 detik
- Agregasi kompleks (di bawah 2 juta baris): 20–60 detik
- Pemindaian skala besar (lebih dari 5 juta baris): bisa timeout saat beban tinggi
- Ringkasan sebelum eksekusi kueri dan prosedur konfirmasi pengguna digunakan untuk mencegah beban berlebih
- Kueri berat diidentifikasi otomatis berdasarkan LIMIT, estimated_rows, ukuran join, dll.
Struktur data dan view
- Menyediakan materialized view di dalam skema
alignment
- Contoh:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, dll.
- Kolom utama:
entity_id, uri, source, kind, original_author, title, score, embedding, dll.
- Metadata dapat diakses dengan join ke tabel
alignment.entities
- Fungsi
alignment.author_topics() memungkinkan analisis silang antara topik tertentu dan penulis
Operasi vektor dan fitur komposisi
<=>: operator jarak kosinus pgvector (semakin dekat ke 0, semakin mirip)
@handle: referensi ke vektor yang disimpan
- Pencampuran vektor: komposisi berbobot konsep dalam bentuk
scale(@rigor,.6) - scale(@hype,.3)
- Penghilangan bias:
debias_vector(@axis, @topic) untuk menghapus pengaruh topik tertentu
- Perhitungan vektor pusat (centroid) memungkinkan representasi makna rata-rata dari penulis atau periode tertentu
- Perhitungan temporal delta memungkinkan pelacakan pergeseran gagasan dari waktu ke waktu
Pencarian hibrida dan contoh
- Mendukung pencarian gabungan Lexical + Semantic
- Contoh: bentuk
WITH hits AS (search(...)) <=> @q untuk mengurutkan ulang kandidat teks dengan vektor semantik
- Contoh BM25
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- Contoh SQL
- Menghitung daftar penulis teratas untuk topik tertentu
- Pagination hasil skala besar dengan
alignment.search_exhaustive()
Skala sistem dan ketentuan penyediaan
- Memiliki 65M+ dokumen, 22M+ embedding, dan 600GB+ indeks
- Gratis untuk peneliti, termasuk 1.5M token embedding
- Saat membuat akun, tersedia namespace handle pribadi, timeout lebih panjang (hingga 10 menit), dan batas kueri yang diperluas
Ringkasan
- Alignment Scry adalah platform kueri data riset AI skala besar yang terintegrasi dengan Claude, mendukung pencarian hibrida yang menggabungkan SQL dan operasi vektor
- Melalui API publik dan panduan kueri yang jelas, platform ini menyediakan akses data eksperimental bagi peneliti dan pengembang AI
- Dengan indeks berukuran 600GB dan lebih dari 60 juta dokumen, lingkungan ini dibangun untuk mengotomatisasi eksplorasi terkait alignment AI dan riset kecerdasan
1 komentar
Komentar Hacker News
Saya suka bahwa proyek ini menghasilkan SQL, bukan sekadar chatbot black box
Daripada memakai LLM sebagai database, saya rasa arah yang tepat adalah memanfaatkannya sebagai alat untuk menerjemahkan bahasa alami ke bahasa kueri terstruktur
Namun saya penasaran apakah ada timeout atau sandboxing agar API tidak disalahgunakan
Saya juga penasaran apakah ada semantic bleeding yang mencampurkan makna antar dataset yang berbeda — misalnya, “optimization” bisa dipakai dengan arti berbeda di ArXiv, LessWrong, dan HN
SQL query planner masih sangat kuat saat harus menangani banyak view dan indeks
Kami juga sangat memperhatikan keamanan dan rate-limit, serta memblokir join berbahaya lewat parsing AST
Claude dapat memanfaatkan kombinasi centroid vektor untuk mengurangi perbedaan makna antar domain yang berbeda
Misalnya, embedding LessWrong dan embedding ArXiv untuk kata “optimization” bisa dirata-ratakan untuk eksperimen perbandingan
Proses implementasinya saya tulis di posting blog
Saat ini kliennya untuk macOS, tapi engine untuk Linux juga sedang disiapkan
Cakupan penerapan untuk interpretasi dan penerjemahan bahasa alami sangat luas
Pada akhirnya, saya rasa investasi juga akan bergeser ke alat-alat praktis seperti ini
Semakin besar modelnya, semakin baik ia membedakan arti yang berbeda dari kata yang sama
Proyek yang sangat keren. Saya akan langsung mencoba memakainya untuk menemukan manifold Calabi–Yau dalam riset teori string yang sedang saya kerjakan
Setelah riset bersama Claude, saya menemukan dua paper tentang flux vacua yang memakai algoritme genetik, dan kombinasi SQL + BM25 memungkinkan pencarian yang sangat presisi
Namun escape tanda kutip di bash agak merepotkan, dan karena batas 100 item di alignment.search(), saya harus memakai search_exhaustive() untuk mendapatkan hasil lengkap
Claude menganalisis korpus ExoPriors dan merangkum paper serta hasil utamanya, dan mengisyaratkan bahwa hasil DESI bisa mengubah arah eksplorasi teori string
Khususnya, paper arXiv:2511.23463 menjelaskan fenomena “phantom crossing” pada energi gelap dengan pencampuran axion-dilaton
Ke depan, saya berencana memperluas riset dengan memasukkan parameter (w₀, wₐ) ke fungsi fitting, dan menambahkan dinamika axion
Artikel terkait: liputan BBC
Menggunakan flag “dangerously-skip-permissions” bersama teks yang tidak aman itu berbahaya
Input yang datang dari internet bisa mengandung prompt injection, jadi itu wajib dijalankan di lingkungan sandbox
Saya sedang mencari cara untuk mengueri informasi gen dan protein di dalam Supplementary Material pada paper ilmu hayati
Saat ini indeksnya tidak konsisten, jadi banyak insight riset genomik 15 tahun terakhir terkubur begitu saja
Dengan memanfaatkan data open access, saya rasa pendekatan ini bisa berhasil
Itu memakai OpenAlex untuk menelusuri citation graph dan menganalisis PDF open access
Saya memakainya untuk mencari cryoprotective agents berdasarkan suhu, tetapi itu juga bisa diperluas ke masalah Anda
Ungkapan seperti “intelligence explosion” dan “ARBITRARY SQL + VECTOR ALGEBRA” terdengar seperti istilah teknis yang dilebih-lebihkan
Berkat Opus 4.5 dan GPT-5.2-Codex-xhigh, kecepatan pengembangan melonjak drastis
Scry adalah satu-satunya alat yang bisa menjalankan SQL arbitrer pada korpus skala besar, sambil bebas bereksperimen dengan kombinasi vektor
Menggabungkan prompt dan dataset eksternal saat ini adalah kanal eksplorasi yang paling sederhana sekaligus kuat
Rasanya seperti “curl | bash” untuk bereksperimen dengan cepat
Disebut sebagai alat riset “state-of-the-art”, tapi saya penasaran apa tepatnya yang membuatnya begitu mutakhir
Misalnya, model Gemma juga pernah disebut “state-of-the-art” meski performanya di bawah pesaing
Juicero juga dulu termasuk mutakhir saat dirilis, tetapi akhirnya memeras dengan tangan malah lebih baik
Saat ini saya sedang mengembangkan sistem riset akademik otonom, dan berencana mengintegrasikan proyek ini
Sekarang saya memakai Edison Scientific API dan prompt kustom, dan saya penasaran apakah ada rencana open source
Proyek terkait: gia-agentic-short
Kalau bisa mendapatkan $5.000, saya rasa saya bisa langsung membukanya