15 poin oleh xguru 2024-02-07 | 1 komentar | Bagikan ke WhatsApp
  • Mencapai 76,5% di SQL-Eval, menunjukkan performa terbaik untuk ukuran modelnya
    • Masih di bawah GPT-4(83%), tetapi lebih unggul daripada GPT-3.5-Turbo(65%) / Claude-2(64,5%)
    • Lebih tinggi daripada sqlcoder-7b(71%) dan mirip dengan sqlcoder-15b(78%)
  • ChatDB juga dikembangkan, yaitu alat untuk membuat dasbor tanpa kode tanpa perlu menulis SQL

Contoh

  • Pertanyaan: Tentukan pelanggan dengan nilai pesanan terbesar pada bulan lalu, lalu tampilkan semua produk dan jumlah yang mereka pesan.
  • Output:
    WITH LastMonthOrders AS (  
      SELECT o.customerid, o.orderid, op.productid, op.quantity, p.productname, op.quantity * p.unitprice AS total_order_value  
      FROM orders o  
      JOIN order_details op ON o.orderid = op.orderid  
      JOIN products p ON op.productid = p.productid  
      WHERE o.orderdate >= date_trunc('month', CURRENT_DATE) - INTERVAL '1 month'  
      AND o.orderdate < date_trunc('month', CURRENT_DATE)  
    ),  
    CustomerTotalOrderValue AS (  
      SELECT customerid, SUM(total_order_value) AS total_value  
      FROM LastMonthOrders  
      GROUP BY customerid  
      ORDER BY total_value DESC  
      LIMIT 1  
    )  
    SELECT c.customerid, c.companyname, lm.productid, lm.productname, lm.quantity  
    FROM CustomerTotalOrderValue ctov  
    JOIN LastMonthOrders lm ON ctov.customerid = lm.customerid  
    JOIN customers c ON c.customerid = lm.customerid;  
    
  • NaturalQuery bekerja sangat baik untuk pertanyaan kompleks seperti di atas, subkueri, dan rasio.

1 komentar

 
xguru 2024-02-07

Opini Hacker News

  • Skor performanya di SQL-Eval adalah 76,5%, sedikit tertinggal dari GPT-4 yang 83% dan sqlcoder-15b yang 78%.

    • Kira-kira di bidang aplikasi apa intern data science AI seperti ini bisa berguna? Apa yang bisa dibuat dengan AI yang memiliki akurasi 75%?
    • Sebagai programmer yang sering mencari referensi saat mengerjakan SQL, sepertinya AI seperti ini bisa dipakai untuk menyusun draf kueri pertama.
    • Model yang lebih besar mungkin bisa memberikan hasil yang lebih baik dalam satu kasus, tetapi model 15b bisa dijalankan dengan mudah di m1 64GB.
    • Di lingkungan perusahaan, ada kalanya kita tidak ingin informasi skema bocor ke data pelatihan OpenAI, dan ada juga kebutuhan untuk menjalankan kueri secara offline.
    • Saat ingin menjalankan banyak kueri, model kecil dan lokal berguna karena bisa menghemat biaya.
    • Akan keren jika ada mini data scientist yang memungkinkan orang nonteknis ikut melakukan kueri, tetapi saya penasaran bagaimana cara menentukan apakah kueri itu termasuk dalam 25% yang "tidak akurat".
    • Mungkin tingkat keberhasilan keseluruhan bisa ditingkatkan lewat algoritma konsensus mirip RAID, di mana beberapa AI saling memverifikasi jawaban masing-masing.
    • Sebagian besar ini hanya proses merapikan pikiran saya, tetapi mungkin orang lain punya lebih banyak ide. Selamat atas peluncurannya, OP!
  • Saya rasa model text-to-SQL tidak sedang menyelesaikan masalah yang tepat.

    • Bagian yang sulit bukanlah sintaks atau tidak tahu cara menulis kueri group by, melainkan memahami makna data.
    • Jika melihat tabel Snowflake dengan 50 kolom, kita tidak bisa menebak isinya hanya dari nama kolom.
    • Misalnya, jika ada tabel dengan 10 kolom yang semuanya bernama ...price, kita harus mencari wiki atau membaca definisi DBT untuk mengetahui arti sebenarnya.
    • Saya tidak bisa memercayai kueri yang dihasilkan model; model tidak memahami data, hanya memahami sintaks kueri.
  • Ada yang menyoroti bahwa ini bukan open source; karena ada pembatasan berbasis penggunaan, lebih tepat disebut "source-available".

  • Ini menarik dan termasuk bidang yang saya minati, tetapi saya tidak menganggapnya sebagai pertanyaan yang kompleks; ini pertanyaan analitik dasar.

    • Kebanyakan analis bisa menulis hal seperti ini sambil tidur.
    • Saya pernah mencoba menggunakan ChatGPT untuk menulis SQL dan hasilnya biasa saja, tetapi jelas akan membaik.
  • Seperti banyak penggunaan AI lainnya, ini sangat bagus sebagai "seed", terutama saat memberikan ide seperti pengelompokan berdasarkan rentang.

    • Namun, di hampir semua database, masalahnya ada pada detail.
    • Berbagai produk menafsirkan "kuantitas" secara berbeda (misalnya kotak vs unit), kupon dan diskon dimodelkan dengan cara yang aneh, berat diasumsikan dalam pon/kilogram lalu tercampur tanpa penanda satuan, dan seterusnya.
  • Orang yang bilang ini tidak berguna hanya karena akurasinya baru 75% perlu mempertimbangkan dua hal berikut:

    • Ini adalah versi pertama, dan sudah seribu kali lebih berguna bagi product owner dan analis dibanding Airtable apa pun yang bisa dibayangkan.
    • Kita memang ingin akurat dalam semua tantangan, tetapi kita sudah hidup dalam ekonomi "cukup bagus", dan kalau ini cukup mendekati, maka untuk bisnis ini mungkin sudah cukup baik.
  • Saya penasaran bagaimana performanya di Bird, benchmark yang lebih kompleks dan realistis.

  • Berdasarkan pengalaman saya bekerja di bidang data, banyak orang menerima pertanyaan dari eksekutif, lalu bertanggung jawab memahami data warehouse dengan cukup baik untuk menulis SQL yang menjawab pertanyaan tersebut, dan kadang menyampaikan jawaban dalam format yang rapi.

    • Terkadang mereka juga harus mengantisipasi pertanyaan lanjutan dari eksekutif seperti "kenapa angka ini terlalu rendah? Jelas tidak mungkin serendah itu", sehingga perlu meminta data engineer memeriksa bug.
    • Seperti semua LLM lainnya, saya belum yakin apakah ini akan membuat tanggung jawab itu jauh lebih mudah, atau justru menghilangkannya sepenuhnya.
  • Ini benar-benar keren, dan tampak seperti open source meskipun lisensinya bukan lisensi standar.

    • Model aslinya bisa ditemukan di sini: NaturalSQL-6.7B-v0
    • Ini tampak seperti base model yang bagus, tetapi saya penasaran apakah text-to-sql memang use case yang baik untuk model kecil.
    • Kami juga sedang mengembangkan alat di bidang ini, dan berharap bisa memakai gpt-4 karena kami ingin model yang lebih memahami jawaban. Bahkan gpt 3.5 pun tidak cukup untuk produksi.
  • Sangat keren, dan saya penasaran apakah lisensi ini bisa digunakan bersama Vanna: Vanna