6 poin oleh GN⁺ 2024-08-15 | 1 komentar | Bagikan ke WhatsApp
  • Trellis adalah alat ETL (Extract, Transform, Load) berbasis AI untuk data tidak terstruktur
  • Mengubah panggilan telepon, PDF, dan isi chat menjadi format SQL terstruktur berdasarkan skema yang didefinisikan pengguna dengan bahasa alami
  • Membantu tim data dan operasi mengotomatisasi input data manual serta memproses data kompleks dengan kueri SQL

Latar belakang pengembangan Trellis

  • Setelah bertemu di Stanford AI Lab, mereka bekerja sama dengan tim data dari berbagai perusahaan besar dan menemukan masalah data tidak terstruktur
  • 80% data perusahaan terdiri dari data tidak terstruktur, dan sulit diproses dengan platform yang ada
  • Sebagai contoh, sebuah bank komersial besar tidak dapat meningkatkan model risiko kreditnya karena data penting terjebak di dalam PDF dan email
  • Berdasarkan riset AI, mereka mengembangkan solusi ETL berbasis AI yang mengubah data tidak terstruktur menjadi tabel yang sesuai dengan skema

Tantangan teknis

  • Dukungan dokumen kompleks: menggunakan map-reduce berbasis LLM untuk memproses dokumen panjang, dan model visi untuk ekstraksi tabel serta tata letak
  • Routing model: memilih model optimal untuk tiap transformasi guna mengoptimalkan biaya dan kecepatan
  • Validasi data dan jaminan skema: memastikan akurasi melalui tautan referensi dan deteksi anomali

Berbagai kasus penggunaan

  • Layanan keuangan: memproses dokumen kompleks (obligasi, peringkat kredit, dll.) ke dalam format terstruktur untuk mempercepat underwriting dan mengotomatisasi pemrosesan pinjaman
  • Dukungan pelanggan dan operasi back-office: meningkatkan kecepatan onboarding dan memastikan kepatuhan SOP melalui pemetaan dokumen di antara berbagai skema dan sistem ERP
  • Prapemrosesan data dan pengumpulan data: kebutuhan prapemrosesan data dan pengumpulan data RAG dalam pipeline ETL

Ringkasan GN⁺

  • Trellis adalah alat ETL berbasis AI yang mengubah data tidak terstruktur menjadi format SQL terstruktur, dan mengotomatisasi pekerjaan manual tim data serta operasi
  • Menangani tantangan teknis seperti pemrosesan dokumen kompleks, routing model, dan validasi data
  • Dapat digunakan secara berguna di berbagai industri seperti layanan keuangan, dukungan pelanggan, dan prapemrosesan data
  • Akan sangat berguna khususnya bagi perusahaan yang kesulitan menangani data tidak terstruktur
  • Proyek lain dengan fungsi serupa antara lain Alteryx dan Talend

1 komentar

 
GN⁺ 2024-08-15
Komentar Hacker News
  • Sedang mengembangkan paket Python open source dan menyediakan fungsi yang mirip

    • Membagikan contoh demo email Enron
  • Di bank komersial besar, mereka belum bisa mengatasi data yang terkurung di PDF dan email sehingga tidak dapat meningkatkan model risiko kredit

    • Menyelesaikan masalah ini akan menciptakan nilai yang besar
  • Pernah mengerjakan proyek terkait di SoundTrace

    • Harus mengekstrak data audiogram PDF milik klien baru dengan sempurna
    • Melalui pipeline, PDF diproses dengan OCR untuk mengekstrak teks dan tabel, lalu diparsing langsung dengan LLM
    • Grafik audiogram dikirim ke convnet, dan tabel diparsing secara terprogram
    • Hasilnya diverifikasi melalui Claude sonnet, dan jika tidak cocok maka ditinjau secara manual
    • Akurasinya hampir mencapai 100%
  • Pernah bekerja di Instabase, dan kemampuan menangani PDF serta hasil scan dokumen sangat penting

  • Mengucapkan selamat atas peluncuran Trellis, dan edge case harus mendekati 0%

    • Ini adalah layanan yang dibutuhkan semua organisasi, dan jika berhasil akan mendapatkan banyak pelanggan
  • Bertanya tentang persaingan dan perbedaan dengan Roe AI

  • Penasaran bagaimana akurasi data diverifikasi

  • Dalam proyek pribadi, sedang melakukan pekerjaan serupa dengan TypeChat, Zod, dan Unstructured

  • Menggunakan function calling OpenAI untuk mengekstrak field dari ribuan dokumen hasil scan

    • Tingkat perolehan beberapa field kurang baik pada berbagai format dokumen masukan
    • Bereksperimen dengan skema JSON untuk mengekstrak informasi terbaik
    • Untuk dokumen panjang, harus memutuskan apakah akan mengirim seluruh dokumen atau hanya bagian yang relevan
    • Kualitas OCR kurang baik
    • Inovasi utamanya adalah memungkinkan pengguna nonteknis menjalankan #2 secara berulang
  • Mengucapkan selamat atas peluncuran meski belum menyelesaikan masalah besar

    • Pelanggan dengan masalah besar dan anggaran justru yang paling terabaikan
    • Menyediakan solusi khusus pelanggan melalui onboarding/integrasi seperti Palantir
    • Akurasi di atas 99% dan keterlibatan manusia itu efektif
    • Peningkatan dari 95% ke 99% bisa membuat perbedaan besar
    • Harus lebih menekankan "ekstraksi dengan akurasi 99%+" alih-alih "workflow berbasis AI"