22 poin oleh xguru 2024-05-26 | 1 komentar | Bagikan ke WhatsApp
  • Mesin NL-to-SQL yang memungkinkan kueri bahasa alami untuk data terstruktur
  • Seluruh codebase kini menjadi open source: termasuk core engine, klien (autentikasi/RBAC), dan lainnya
  • Kini siapa pun dapat membangun solusi text-to-SQL di dalam produknya sendiri
  • Core NL-to-SQL engine Dataherald adalah agen berbasis LLM yang menggunakan penalaran CoT (Chain of Thought) dan berbagai alat untuk menghasilkan SQL dengan akurasi tinggi dari prompt pengguna yang diberikan
  • Terdiri dari total 4 layanan
    • Engine: agen LLM, vector store, dan konektor DB
    • Konsol admin: frontend NextJS untuk konfigurasi engine dan pengelolaan observability
    • Backend enterprise: membungkus core engine untuk menambahkan autentikasi/cache/API dan lainnya
    • Bot Slack: menambahkan Dataherald ke workflow Slack

1 komentar

 
xguru 2024-05-26

Dataherald - mesin natural language-to-SQL
Pernah dibagikan 8 bulan lalu, dan sekarang seluruhnya sudah dirilis sebagai open source.

Pendapat Hacker News

  • Alat ini terlihat sangat keren. Alat lain bekerja baik untuk kueri sederhana, tetapi kesulitan dengan skema yang kompleks dan join. Penasaran apakah DataHerald sudah memecahkan masalah ini.
  • Tahun lalu saya merilis produk text-to-SQL sebagai open source. Sangat sulit membangun bisnis seperti ini. Lebih masuk akal menggabungkan open source dengan alat distribusi gratis seperti Snowflake/PowerBI.
  • Saya penasaran mengapa seluruh produk ini dijadikan open source. Apakah sedang beralih ke model open core? Akan berterima kasih jika alasannya dibagikan.
  • Terima kasih atas kontribusi bersejarah ini. Banyak perusahaan saat ini sedang “bercakap-cakap” dengan data. Mungkin banyak tim yang mengerjakan hal serupa.
  • Ini salah satu asisten analitik AI yang kaya fitur. Patut diapresiasi karena merilisnya sebagai open source. Ada contoh sukses seperti Metabase, Airbyte, dan dbt.
  • Saya penasaran siapa target pengguna alat ini. Situs webnya mengklaim bisa menjawab pertanyaan data tanpa melalui analis, tetapi analis adalah ahli model dan data. Data warehouse bisa memiliki berbagai masalah. Saya penasaran apakah LLM bisa menanganinya secara konsisten.
  • Alasan alat ini bisa bekerja lebih baik daripada LLM rata-rata adalah karena bisa dilatih menggunakan struktur database. Namun struktur database bisa sering berubah sehingga mungkin perlu pelatihan ulang. Saya penasaran apakah setelah perbaikan PR, pelatihan ulang berjalan otomatis.
  • Saya penasaran apakah alat ini bisa melakukan join yang kompleks. Saya tidak menemukan contohnya di situs web.
  • Saya tidak mengerti mengapa menggunakan sistem NLP+ORM itu lebih baik. Memang harus memakai sintaks yang tetap, tetapi bisa mendapatkan akurasi 100%.
  • Saya baru-baru ini mencoba NL-to-SQL sebagai prototipe. Tantangannya adalah bagaimana mencegah kesalahan atau pelaku jahat memengaruhi database. Jika ingin membahas aspek lain terkait ini, silakan hubungi saya.