Alignment Scry dari ExoPriors, kueri indeks 600GB dari Hacker News, arXiv, dll. lewat Claude Code

(exopriors.com)

1 poin oleh GN⁺ 2026-01-01 | 1 komentar | Bagikan ke WhatsApp

Alignment Scry dari ExoPriors adalah platform yang memungkinkan pencarian 60 juta dokumen dan 22 juta embedding yang dikumpulkan dari arXiv, Hacker News, LessWrong, dan lainnya menggunakan SQL serta operasi vektor melalui Claude Code
Menyediakan API key publik dan mendukung pencarian teks berbasis BM25 maupun pencarian semantik berbasis jarak kosinus pgvector
Dengan fungsi alignment.search() dan alignment.search_exhaustive(), pengguna dapat membedakan antara pencarian sampel cepat dan pencarian menyeluruh
API dapat dipanggil dengan pengaturan sederhana di Claude Web atau lingkungan Claude Code, serta menyediakan handle pribadi (@handle) dan fitur penyimpanan embedding
Dibuka gratis untuk peneliti, dan penting sebagai lingkungan eksperimen kueri data skala besar untuk riset AI dan otomatisasi penelusuran informasi

Ikhtisar

Alignment Scry adalah sistem pencarian yang dapat menjalankan operasi SQL dan aljabar vektor terhadap indeks dokumen terkait ledakan kecerdasan
- Sumber data utama mencakup arXiv, Hacker News, LessWrong, community-archive.org, dll.
- Pengguna dapat menelusuri data melalui Claude Code dengan kueri bahasa alami atau perintah SQL
Sistem ini masih berada pada tahap eksperimen Alpha, dan juga mencakup Lens Studio, alat eksplorasi yang berpusat pada LessWrong

Integrasi Claude dan cara akses

Dapat langsung digunakan lewat pengaturan akses API di Claude Code atau Claude Web
- Izinkan eksekusi kode, pembuatan file, akses jaringan, lalu tambahkan api.exopriors.com ke whitelist domain
Dapat diakses tanpa login melalui API key publik exopriors_public_readonly_v1_2025
Agar model Claude tidak perlu melewati proses persetujuan pengguna setiap kali memanggil API, tersedia opsi --dangerously-skip-permissions (berisiko)
Disarankan memakai model Opus 4.5 atau lebih baru, dan disebutkan adanya risiko serangan prompt injection

Fitur utama

Query: menjalankan kueri SQL terhadap 60 juta dokumen
Embed: menyimpan dan menggunakan ulang embedding untuk pencarian semantik
Timeout: disesuaikan otomatis sekitar 20–120 detik tergantung beban
Target pencarian: berbagai jenis dokumen seperti post, comment, paper, tweet, dll.
Lexical Search: pencarian kata kunci berbasis BM25, mendukung phrase search dan fuzzy matching
Semantic Search: pencarian kemiripan makna dengan jarak kosinus pgvector (<=>)

Kueri dan manajemen performa

alignment.search() hanya mengembalikan 100 hasil BM25 teratas, cocok untuk sampling eksplorasi cepat
alignment.search_exhaustive() menjalankan pencarian penuh dan mendukung pagination
Panduan performa
- Pencarian sederhana: 1–5 detik
- Join embedding (di bawah 500 ribu baris): 5–20 detik
- Agregasi kompleks (di bawah 2 juta baris): 20–60 detik
- Pemindaian skala besar (lebih dari 5 juta baris): bisa timeout saat beban tinggi
Ringkasan sebelum eksekusi kueri dan prosedur konfirmasi pengguna digunakan untuk mencegah beban berlebih
Kueri berat diidentifikasi otomatis berdasarkan LIMIT, estimated_rows, ukuran join, dll.

Struktur data dan view

Menyediakan materialized view di dalam skema alignment
- Contoh: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, dll.
- Kolom utama: entity_id, uri, source, kind, original_author, title, score, embedding, dll.
Metadata dapat diakses dengan join ke tabel alignment.entities
Fungsi alignment.author_topics() memungkinkan analisis silang antara topik tertentu dan penulis

Operasi vektor dan fitur komposisi

<=>: operator jarak kosinus pgvector (semakin dekat ke 0, semakin mirip)
@handle: referensi ke vektor yang disimpan
Pencampuran vektor: komposisi berbobot konsep dalam bentuk scale(@rigor,.6) - scale(@hype,.3)
Penghilangan bias: debias_vector(@axis, @topic) untuk menghapus pengaruh topik tertentu
Perhitungan vektor pusat (centroid) memungkinkan representasi makna rata-rata dari penulis atau periode tertentu
Perhitungan temporal delta memungkinkan pelacakan pergeseran gagasan dari waktu ke waktu

Pencarian hibrida dan contoh

Mendukung pencarian gabungan Lexical + Semantic
- Contoh: bentuk WITH hits AS (search(...)) <=> @q untuk mengurutkan ulang kandidat teks dengan vektor semantik
Contoh BM25
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
Contoh SQL
- Menghitung daftar penulis teratas untuk topik tertentu
- Pagination hasil skala besar dengan alignment.search_exhaustive()

Skala sistem dan ketentuan penyediaan

Memiliki 65M+ dokumen, 22M+ embedding, dan 600GB+ indeks
Gratis untuk peneliti, termasuk 1.5M token embedding
Saat membuat akun, tersedia namespace handle pribadi, timeout lebih panjang (hingga 10 menit), dan batas kueri yang diperluas

Ringkasan

Alignment Scry adalah platform kueri data riset AI skala besar yang terintegrasi dengan Claude, mendukung pencarian hibrida yang menggabungkan SQL dan operasi vektor
Melalui API publik dan panduan kueri yang jelas, platform ini menyediakan akses data eksperimental bagi peneliti dan pengembang AI
Dengan indeks berukuran 600GB dan lebih dari 60 juta dokumen, lingkungan ini dibangun untuk mengotomatisasi eksplorasi terkait alignment AI dan riset kecerdasan

1 komentar

GN⁺ 2026-01-01

Komentar Hacker News

Saya suka bahwa proyek ini menghasilkan SQL, bukan sekadar chatbot black box
Daripada memakai LLM sebagai database, saya rasa arah yang tepat adalah memanfaatkannya sebagai alat untuk menerjemahkan bahasa alami ke bahasa kueri terstruktur
Namun saya penasaran apakah ada timeout atau sandboxing agar API tidak disalahgunakan
Saya juga penasaran apakah ada semantic bleeding yang mencampurkan makna antar dataset yang berbeda — misalnya, “optimization” bisa dipakai dengan arti berbeda di ArXiv, LessWrong, dan HN
- Betul, kadang orang memang menginginkan presisi dan kontrol
  SQL query planner masih sangat kuat saat harus menangani banyak view dan indeks
  Kami juga sangat memperhatikan keamanan dan rate-limit, serta memblokir join berbahaya lewat parsing AST
  Claude dapat memanfaatkan kombinasi centroid vektor untuk mengurangi perbedaan makna antar domain yang berbeda
  Misalnya, embedding LessWrong dan embedding ArXiv untuk kata “optimization” bisa dirata-ratakan untuk eksperimen perbandingan
- Saya juga melakukan pendekatan serupa. Saya membuat log percakapan Claude Code dan Codex menjadi DB lokal yang bisa langsung dikueri dari CLI
  Proses implementasinya saya tulis di posting blog
  Saat ini kliennya untuk macOS, tapi engine untuk Linux juga sedang disiapkan
- Menurut saya, pendekatan seperti inilah “inovasi nyata yang akan tetap bertahan bahkan kalau gelembung AI pecah”
  Cakupan penerapan untuk interpretasi dan penerjemahan bahasa alami sangat luas
  Pada akhirnya, saya rasa investasi juga akan bergeser ke alat-alat praktis seperti ini
- Belum ada eksperimen, tetapi dari pengalaman saya ukuran model embedding memengaruhi seberapa baik pemisahan makna kata
  Semakin besar modelnya, semakin baik ia membedakan arti yang berbeda dari kata yang sama
Proyek yang sangat keren. Saya akan langsung mencoba memakainya untuk menemukan manifold Calabi–Yau dalam riset teori string yang sedang saya kerjakan
Setelah riset bersama Claude, saya menemukan dua paper tentang flux vacua yang memakai algoritme genetik, dan kombinasi SQL + BM25 memungkinkan pencarian yang sangat presisi
Namun escape tanda kutip di bash agak merepotkan, dan karena batas 100 item di alignment.search(), saya harus memakai search_exhaustive() untuk mendapatkan hasil lengkap
- Saya juga baru-baru ini menyelidiki riset perubahan energi gelap DESI dengan alat ini
  Claude menganalisis korpus ExoPriors dan merangkum paper serta hasil utamanya, dan mengisyaratkan bahwa hasil DESI bisa mengubah arah eksplorasi teori string
  Khususnya, paper arXiv:2511.23463 menjelaskan fenomena “phantom crossing” pada energi gelap dengan pencampuran axion-dilaton
  Ke depan, saya berencana memperluas riset dengan memasukkan parameter (w₀, wₐ) ke fungsi fitting, dan menambahkan dinamika axion
  Artikel terkait: liputan BBC
Menggunakan flag “dangerously-skip-permissions” bersama teks yang tidak aman itu berbahaya
Input yang datang dari internet bisa mengandung prompt injection, jadi itu wajib dijalankan di lingkungan sandbox
- Saya juga hari ini mulai menjalankan Claude di devcontainer, dan penasaran opsi sandbox mana yang paling sederhana
Saya sedang mencari cara untuk mengueri informasi gen dan protein di dalam Supplementary Material pada paper ilmu hayati
Saat ini indeksnya tidak konsisten, jadi banyak insight riset genomik 15 tahun terakhir terkubur begitu saja
Dengan memanfaatkan data open access, saya rasa pendekatan ini bisa berhasil
- Saya juga pernah membuat sesuatu yang mirip — papers2dataset
  Itu memakai OpenAlex untuk menelusuri citation graph dan menganalisis PDF open access
  Saya memakainya untuk mencari cryoprotective agents berdasarkan suhu, tetapi itu juga bisa diperluas ke masalah Anda
Ungkapan seperti “intelligence explosion” dan “ARBITRARY SQL + VECTOR ALGEBRA” terdengar seperti istilah teknis yang dilebih-lebihkan
- Itu bukan berlebihan. Sekarang ini memang benar-benar sebuah mesin ledakan kecerdasan perangkat lunak
  Berkat Opus 4.5 dan GPT-5.2-Codex-xhigh, kecepatan pengembangan melonjak drastis
  Scry adalah satu-satunya alat yang bisa menjalankan SQL arbitrer pada korpus skala besar, sambil bebas bereksperimen dengan kombinasi vektor
Menggabungkan prompt dan dataset eksternal saat ini adalah kanal eksplorasi yang paling sederhana sekaligus kuat
Rasanya seperti “curl | bash” untuk bereksperimen dengan cepat
- Betul. Kombinasi Prompt + Tool + External Dataset punya potensi yang luar biasa besar
Disebut sebagai alat riset “state-of-the-art”, tapi saya penasaran apa tepatnya yang membuatnya begitu mutakhir
- Karena skalanya. Tidak banyak alat yang memungkinkan Anda mengueri isi penuh semua paper arXiv
- Itu cuma istilah pemasaran. Bukan ungkapan yang dilindungi, jadi siapa saja bisa memakainya
  Misalnya, model Gemma juga pernah disebut “state-of-the-art” meski performanya di bawah pesaing
  Juicero juga dulu termasuk mutakhir saat dirilis, tetapi akhirnya memeras dengan tangan malah lebih baik
- Alatnya memang mutakhir, tetapi sumber datanya bersifat historis
- Saya jadi bertanya-tanya apakah maksudnya “yang terbaik” hanya karena “yang paling duluan”
Saat ini saya sedang mengembangkan sistem riset akademik otonom, dan berencana mengintegrasikan proyek ini
Sekarang saya memakai Edison Scientific API dan prompt kustom, dan saya penasaran apakah ada rencana open source
Proyek terkait: gia-agentic-short
- Saya ingin merilisnya sebagai open source, tetapi sejujurnya kondisi finansial saya sedang sulit
  Kalau bisa mendapatkan $5.000, saya rasa saya bisa langsung membukanya

Alignment Scry dari ExoPriors, kueri indeks 600GB dari Hacker News, arXiv, dll. lewat Claude Code

Ikhtisar

Integrasi Claude dan cara akses

Fitur utama

Kueri dan manajemen performa

Struktur data dan view

Operasi vektor dan fitur komposisi

Pencarian hibrida dan contoh

Skala sistem dan ketentuan penyediaan

Ringkasan

Bacaan terkait

1 komentar

Komentar Hacker News