1 poin oleh GN⁺ 2026-01-01 | 1 komentar | Bagikan ke WhatsApp
  • Alignment Scry dari ExoPriors adalah platform yang memungkinkan pencarian 60 juta dokumen dan 22 juta embedding yang dikumpulkan dari arXiv, Hacker News, LessWrong, dan lainnya menggunakan SQL serta operasi vektor melalui Claude Code
  • Menyediakan API key publik dan mendukung pencarian teks berbasis BM25 maupun pencarian semantik berbasis jarak kosinus pgvector
  • Dengan fungsi alignment.search() dan alignment.search_exhaustive(), pengguna dapat membedakan antara pencarian sampel cepat dan pencarian menyeluruh
  • API dapat dipanggil dengan pengaturan sederhana di Claude Web atau lingkungan Claude Code, serta menyediakan handle pribadi (@handle) dan fitur penyimpanan embedding
  • Dibuka gratis untuk peneliti, dan penting sebagai lingkungan eksperimen kueri data skala besar untuk riset AI dan otomatisasi penelusuran informasi

Ikhtisar

  • Alignment Scry adalah sistem pencarian yang dapat menjalankan operasi SQL dan aljabar vektor terhadap indeks dokumen terkait ledakan kecerdasan
    • Sumber data utama mencakup arXiv, Hacker News, LessWrong, community-archive.org, dll.
    • Pengguna dapat menelusuri data melalui Claude Code dengan kueri bahasa alami atau perintah SQL
  • Sistem ini masih berada pada tahap eksperimen Alpha, dan juga mencakup Lens Studio, alat eksplorasi yang berpusat pada LessWrong

Integrasi Claude dan cara akses

  • Dapat langsung digunakan lewat pengaturan akses API di Claude Code atau Claude Web
    • Izinkan eksekusi kode, pembuatan file, akses jaringan, lalu tambahkan api.exopriors.com ke whitelist domain
  • Dapat diakses tanpa login melalui API key publik exopriors_public_readonly_v1_2025
  • Agar model Claude tidak perlu melewati proses persetujuan pengguna setiap kali memanggil API, tersedia opsi --dangerously-skip-permissions (berisiko)
  • Disarankan memakai model Opus 4.5 atau lebih baru, dan disebutkan adanya risiko serangan prompt injection

Fitur utama

  • Query: menjalankan kueri SQL terhadap 60 juta dokumen
  • Embed: menyimpan dan menggunakan ulang embedding untuk pencarian semantik
  • Timeout: disesuaikan otomatis sekitar 20–120 detik tergantung beban
  • Target pencarian: berbagai jenis dokumen seperti post, comment, paper, tweet, dll.
  • Lexical Search: pencarian kata kunci berbasis BM25, mendukung phrase search dan fuzzy matching
  • Semantic Search: pencarian kemiripan makna dengan jarak kosinus pgvector (<=>)

Kueri dan manajemen performa

  • alignment.search() hanya mengembalikan 100 hasil BM25 teratas, cocok untuk sampling eksplorasi cepat
  • alignment.search_exhaustive() menjalankan pencarian penuh dan mendukung pagination
  • Panduan performa
    • Pencarian sederhana: 1–5 detik
    • Join embedding (di bawah 500 ribu baris): 5–20 detik
    • Agregasi kompleks (di bawah 2 juta baris): 20–60 detik
    • Pemindaian skala besar (lebih dari 5 juta baris): bisa timeout saat beban tinggi
  • Ringkasan sebelum eksekusi kueri dan prosedur konfirmasi pengguna digunakan untuk mencegah beban berlebih
  • Kueri berat diidentifikasi otomatis berdasarkan LIMIT, estimated_rows, ukuran join, dll.

Struktur data dan view

  • Menyediakan materialized view di dalam skema alignment
    • Contoh: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, dll.
    • Kolom utama: entity_id, uri, source, kind, original_author, title, score, embedding, dll.
  • Metadata dapat diakses dengan join ke tabel alignment.entities
  • Fungsi alignment.author_topics() memungkinkan analisis silang antara topik tertentu dan penulis

Operasi vektor dan fitur komposisi

  • <=>: operator jarak kosinus pgvector (semakin dekat ke 0, semakin mirip)
  • @handle: referensi ke vektor yang disimpan
  • Pencampuran vektor: komposisi berbobot konsep dalam bentuk scale(@rigor,.6) - scale(@hype,.3)
  • Penghilangan bias: debias_vector(@axis, @topic) untuk menghapus pengaruh topik tertentu
  • Perhitungan vektor pusat (centroid) memungkinkan representasi makna rata-rata dari penulis atau periode tertentu
  • Perhitungan temporal delta memungkinkan pelacakan pergeseran gagasan dari waktu ke waktu

Pencarian hibrida dan contoh

  • Mendukung pencarian gabungan Lexical + Semantic
    • Contoh: bentuk WITH hits AS (search(...)) <=> @q untuk mengurutkan ulang kandidat teks dengan vektor semantik
  • Contoh BM25
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • Contoh SQL
    • Menghitung daftar penulis teratas untuk topik tertentu
    • Pagination hasil skala besar dengan alignment.search_exhaustive()

Skala sistem dan ketentuan penyediaan

  • Memiliki 65M+ dokumen, 22M+ embedding, dan 600GB+ indeks
  • Gratis untuk peneliti, termasuk 1.5M token embedding
  • Saat membuat akun, tersedia namespace handle pribadi, timeout lebih panjang (hingga 10 menit), dan batas kueri yang diperluas

Ringkasan

  • Alignment Scry adalah platform kueri data riset AI skala besar yang terintegrasi dengan Claude, mendukung pencarian hibrida yang menggabungkan SQL dan operasi vektor
  • Melalui API publik dan panduan kueri yang jelas, platform ini menyediakan akses data eksperimental bagi peneliti dan pengembang AI
  • Dengan indeks berukuran 600GB dan lebih dari 60 juta dokumen, lingkungan ini dibangun untuk mengotomatisasi eksplorasi terkait alignment AI dan riset kecerdasan

1 komentar

 
GN⁺ 2026-01-01
Komentar Hacker News
  • Saya suka bahwa proyek ini menghasilkan SQL, bukan sekadar chatbot black box
    Daripada memakai LLM sebagai database, saya rasa arah yang tepat adalah memanfaatkannya sebagai alat untuk menerjemahkan bahasa alami ke bahasa kueri terstruktur
    Namun saya penasaran apakah ada timeout atau sandboxing agar API tidak disalahgunakan
    Saya juga penasaran apakah ada semantic bleeding yang mencampurkan makna antar dataset yang berbeda — misalnya, “optimization” bisa dipakai dengan arti berbeda di ArXiv, LessWrong, dan HN

    • Betul, kadang orang memang menginginkan presisi dan kontrol
      SQL query planner masih sangat kuat saat harus menangani banyak view dan indeks
      Kami juga sangat memperhatikan keamanan dan rate-limit, serta memblokir join berbahaya lewat parsing AST
      Claude dapat memanfaatkan kombinasi centroid vektor untuk mengurangi perbedaan makna antar domain yang berbeda
      Misalnya, embedding LessWrong dan embedding ArXiv untuk kata “optimization” bisa dirata-ratakan untuk eksperimen perbandingan
    • Saya juga melakukan pendekatan serupa. Saya membuat log percakapan Claude Code dan Codex menjadi DB lokal yang bisa langsung dikueri dari CLI
      Proses implementasinya saya tulis di posting blog
      Saat ini kliennya untuk macOS, tapi engine untuk Linux juga sedang disiapkan
    • Menurut saya, pendekatan seperti inilah “inovasi nyata yang akan tetap bertahan bahkan kalau gelembung AI pecah”
      Cakupan penerapan untuk interpretasi dan penerjemahan bahasa alami sangat luas
      Pada akhirnya, saya rasa investasi juga akan bergeser ke alat-alat praktis seperti ini
    • Belum ada eksperimen, tetapi dari pengalaman saya ukuran model embedding memengaruhi seberapa baik pemisahan makna kata
      Semakin besar modelnya, semakin baik ia membedakan arti yang berbeda dari kata yang sama
  • Proyek yang sangat keren. Saya akan langsung mencoba memakainya untuk menemukan manifold Calabi–Yau dalam riset teori string yang sedang saya kerjakan
    Setelah riset bersama Claude, saya menemukan dua paper tentang flux vacua yang memakai algoritme genetik, dan kombinasi SQL + BM25 memungkinkan pencarian yang sangat presisi
    Namun escape tanda kutip di bash agak merepotkan, dan karena batas 100 item di alignment.search(), saya harus memakai search_exhaustive() untuk mendapatkan hasil lengkap

    • Saya juga baru-baru ini menyelidiki riset perubahan energi gelap DESI dengan alat ini
      Claude menganalisis korpus ExoPriors dan merangkum paper serta hasil utamanya, dan mengisyaratkan bahwa hasil DESI bisa mengubah arah eksplorasi teori string
      Khususnya, paper arXiv:2511.23463 menjelaskan fenomena “phantom crossing” pada energi gelap dengan pencampuran axion-dilaton
      Ke depan, saya berencana memperluas riset dengan memasukkan parameter (w₀, wₐ) ke fungsi fitting, dan menambahkan dinamika axion
      Artikel terkait: liputan BBC
  • Menggunakan flag “dangerously-skip-permissions” bersama teks yang tidak aman itu berbahaya
    Input yang datang dari internet bisa mengandung prompt injection, jadi itu wajib dijalankan di lingkungan sandbox

    • Saya juga hari ini mulai menjalankan Claude di devcontainer, dan penasaran opsi sandbox mana yang paling sederhana
  • Saya sedang mencari cara untuk mengueri informasi gen dan protein di dalam Supplementary Material pada paper ilmu hayati
    Saat ini indeksnya tidak konsisten, jadi banyak insight riset genomik 15 tahun terakhir terkubur begitu saja
    Dengan memanfaatkan data open access, saya rasa pendekatan ini bisa berhasil

    • Saya juga pernah membuat sesuatu yang mirip — papers2dataset
      Itu memakai OpenAlex untuk menelusuri citation graph dan menganalisis PDF open access
      Saya memakainya untuk mencari cryoprotective agents berdasarkan suhu, tetapi itu juga bisa diperluas ke masalah Anda
  • Ungkapan seperti “intelligence explosion” dan “ARBITRARY SQL + VECTOR ALGEBRA” terdengar seperti istilah teknis yang dilebih-lebihkan

    • Itu bukan berlebihan. Sekarang ini memang benar-benar sebuah mesin ledakan kecerdasan perangkat lunak
      Berkat Opus 4.5 dan GPT-5.2-Codex-xhigh, kecepatan pengembangan melonjak drastis
      Scry adalah satu-satunya alat yang bisa menjalankan SQL arbitrer pada korpus skala besar, sambil bebas bereksperimen dengan kombinasi vektor
  • Menggabungkan prompt dan dataset eksternal saat ini adalah kanal eksplorasi yang paling sederhana sekaligus kuat
    Rasanya seperti “curl | bash” untuk bereksperimen dengan cepat

    • Betul. Kombinasi Prompt + Tool + External Dataset punya potensi yang luar biasa besar
  • Disebut sebagai alat riset “state-of-the-art”, tapi saya penasaran apa tepatnya yang membuatnya begitu mutakhir

    • Karena skalanya. Tidak banyak alat yang memungkinkan Anda mengueri isi penuh semua paper arXiv
    • Itu cuma istilah pemasaran. Bukan ungkapan yang dilindungi, jadi siapa saja bisa memakainya
      Misalnya, model Gemma juga pernah disebut “state-of-the-art” meski performanya di bawah pesaing
      Juicero juga dulu termasuk mutakhir saat dirilis, tetapi akhirnya memeras dengan tangan malah lebih baik
    • Alatnya memang mutakhir, tetapi sumber datanya bersifat historis
    • Saya jadi bertanya-tanya apakah maksudnya “yang terbaik” hanya karena “yang paling duluan”
  • Saat ini saya sedang mengembangkan sistem riset akademik otonom, dan berencana mengintegrasikan proyek ini
    Sekarang saya memakai Edison Scientific API dan prompt kustom, dan saya penasaran apakah ada rencana open source
    Proyek terkait: gia-agentic-short

    • Saya ingin merilisnya sebagai open source, tetapi sejujurnya kondisi finansial saya sedang sulit
      Kalau bisa mendapatkan $5.000, saya rasa saya bisa langsung membukanya