Launch HN: Trellis – Alur kerja berbasis AI untuk data tidak terstruktur
(news.ycombinator.com)- Trellis adalah alat ETL (Extract, Transform, Load) berbasis AI untuk data tidak terstruktur
- Mengubah panggilan telepon, PDF, dan isi chat menjadi format SQL terstruktur berdasarkan skema yang didefinisikan pengguna dengan bahasa alami
- Membantu tim data dan operasi mengotomatisasi input data manual serta memproses data kompleks dengan kueri SQL
Latar belakang pengembangan Trellis
- Setelah bertemu di Stanford AI Lab, mereka bekerja sama dengan tim data dari berbagai perusahaan besar dan menemukan masalah data tidak terstruktur
- 80% data perusahaan terdiri dari data tidak terstruktur, dan sulit diproses dengan platform yang ada
- Sebagai contoh, sebuah bank komersial besar tidak dapat meningkatkan model risiko kreditnya karena data penting terjebak di dalam PDF dan email
- Berdasarkan riset AI, mereka mengembangkan solusi ETL berbasis AI yang mengubah data tidak terstruktur menjadi tabel yang sesuai dengan skema
Tantangan teknis
- Dukungan dokumen kompleks: menggunakan map-reduce berbasis LLM untuk memproses dokumen panjang, dan model visi untuk ekstraksi tabel serta tata letak
- Routing model: memilih model optimal untuk tiap transformasi guna mengoptimalkan biaya dan kecepatan
- Validasi data dan jaminan skema: memastikan akurasi melalui tautan referensi dan deteksi anomali
Berbagai kasus penggunaan
- Layanan keuangan: memproses dokumen kompleks (obligasi, peringkat kredit, dll.) ke dalam format terstruktur untuk mempercepat underwriting dan mengotomatisasi pemrosesan pinjaman
- Dukungan pelanggan dan operasi back-office: meningkatkan kecepatan onboarding dan memastikan kepatuhan SOP melalui pemetaan dokumen di antara berbagai skema dan sistem ERP
- Prapemrosesan data dan pengumpulan data: kebutuhan prapemrosesan data dan pengumpulan data RAG dalam pipeline ETL
Ringkasan GN⁺
- Trellis adalah alat ETL berbasis AI yang mengubah data tidak terstruktur menjadi format SQL terstruktur, dan mengotomatisasi pekerjaan manual tim data serta operasi
- Menangani tantangan teknis seperti pemrosesan dokumen kompleks, routing model, dan validasi data
- Dapat digunakan secara berguna di berbagai industri seperti layanan keuangan, dukungan pelanggan, dan prapemrosesan data
- Akan sangat berguna khususnya bagi perusahaan yang kesulitan menangani data tidak terstruktur
- Proyek lain dengan fungsi serupa antara lain Alteryx dan Talend
1 komentar
Komentar Hacker News
Sedang mengembangkan paket Python open source dan menyediakan fungsi yang mirip
Di bank komersial besar, mereka belum bisa mengatasi data yang terkurung di PDF dan email sehingga tidak dapat meningkatkan model risiko kredit
Pernah mengerjakan proyek terkait di SoundTrace
Pernah bekerja di Instabase, dan kemampuan menangani PDF serta hasil scan dokumen sangat penting
Mengucapkan selamat atas peluncuran Trellis, dan edge case harus mendekati 0%
Bertanya tentang persaingan dan perbedaan dengan Roe AI
Penasaran bagaimana akurasi data diverifikasi
Dalam proyek pribadi, sedang melakukan pekerjaan serupa dengan TypeChat, Zod, dan Unstructured
Menggunakan function calling OpenAI untuk mengekstrak field dari ribuan dokumen hasil scan
Mengucapkan selamat atas peluncuran meski belum menyelesaikan masalah besar