Pengenalan LlamaCloud dan LlamaParse

(blog.llamaindex.ai)

9 poin oleh xguru 2024-02-22 | 1 komentar | Bagikan ke WhatsApp

LlamaCloud: layanan parsing, pengumpulan, dan pencarian terkelola generasi baru. Dibuat untuk menyediakan Context-Augmentation berskala produksi bagi aplikasi LLM dan RAG.
- LlamaParse: teknologi untuk mengurai dokumen kompleks yang mengandung objek seperti tabel dan gambar. Terintegrasi dengan LlamaIndex agar Anda dapat membangun pencarian untuk dokumen kompleks dan semi-terstruktur.
- API pengumpulan dan pencarian terkelola: menyediakan API yang memungkinkan data dengan mudah dimuat, diproses, dan disimpan, dan dapat digunakan dari bahasa apa pun. Beroperasi di atas LlamaHub, LlamaParse, dan penyimpanan data terintegrasi.

RAG sangat bergantung pada kualitas data

Inti dari LLM adalah otomatisasi pencarian, sintesis, ekstraksi, dan perencanaan pengetahuan pada sumber data yang tidak terstruktur.
Karena itu muncul stack data baru bernama Retrieval-Augmented Generation (RAG), yang memuat, memproses, dan meng-embed data ke vector database.
Stack RAG berbeda dari stack ETL tradisional karena memengaruhi akurasi sistem LLM secara langsung.
Memulai itu mudah, tetapi membangun RAG berskala produksi tetap sulit
- Tidak menghasilkan hasil yang memuaskan.
- Terlalu banyak parameter yang perlu disetel.
- PDF punya format yang berantakan, sehingga masalahnya semakin besar.
- Sinkronisasi data yang terus diperbarui sangat sulit.
LlamaCloud dan LlamaParse dibangun sebagai pipeline data agar aplikasi RAG dapat masuk ke produksi lebih cepat

LlamaParse

LlamaParse adalah parser mutakhir yang membuat RAG dapat menafsirkan tabel dan grafik yang tertanam di dalam PDF kompleks.
Memungkinkan menjawab pertanyaan tentang dokumen rumit yang sebelumnya tidak mungkin dijawab dengan pendekatan tradisional.

API pengumpulan dan pencarian terkelola

Produk utama lain LlamaCloud ini memungkinkan Anda dengan mudah mendefinisikan pipeline data berkinerja tinggi dan menyediakan data yang bersih ke aplikasi LLM.
Memberikan keuntungan berupa penghematan waktu engineering, peningkatan performa, dan pengurangan kompleksitas sistem.

Mitra dan kolaborator peluncuran

LlamaParse bekerja sama dengan berbagai mitra untuk membangun kemitraan penyimpanan dan komputasi di ekosistem LLM dan AI, termasuk DataStack, MongoDB, Qdrant, dan NVIDIA.

FAQ

LlamaCloud tidak bersaing dengan vector database, tetapi berfokus pada parsing dan pengumpulan data. Terintegrasi dengan lebih dari 40 vector DB populer.
Lapisan pencarian adalah orkestrasi di atas sistem penyimpanan yang sudah ada.

Langkah berikutnya

LlamaParse tersedia sebagai pratinjau publik sejak hari ini, dan LlamaCloud tersedia sebagai pratinjau privat untuk mitra perusahaan yang dipilih secara terbatas

1 komentar

xguru 2024-02-22

Komentar Hacker News

Sebagai bagian dari tim pengembang LlamaParse, saya punya pengalaman membuat beberapa ekstraktor PDF -> teks terstruktur sebelumnya, dan LlamaParse memang memiliki sejumlah perbaikan dibandingkan ekstraktor lain. Ia menggabungkan OCR dan ekstraksi teks dari PDF untuk mengekstrak teks, serta menggabungkan heuristik dan model machine learning untuk merekonstruksi dokumen. Jika dipadukan dengan strategi pencarian rekursif, ia dapat menghasilkan hasil terbaik untuk tanya jawab pada teks yang kompleks.
LlamaParse membangun layanan parsing eksklusif yang sangat unggul dalam mem-parsing PDF dengan tabel kompleks menjadi format Markdown terstruktur dengan baik. Bukankah ini masalah jika proyek yang populer karena kontribusi dan perhatian komunitas open source kemudian, dengan pendanaan VC, pemimpin proyek membuatnya menjadi eksklusif?
Saya tidak mengerti alasan memposting di Medium. Medium sekarang sudah sulit diakses untuk dibaca, dan seharusnya ada postingan blog yang dapat diakses oleh publik.
Saya penasaran bagaimana LlamaParse dibandingkan langsung dengan unstructured.io.
Pengalaman awal dengan LlamaParse tidak begitu mengesankan. Terjadi masalah pengalihan tak berujung saat mendaftar lewat email, dan setelah masuk dengan Google saya kecewa pada parser PDF-nya. Sudah banyak opsi yang tersedia, jadi saya bingung kenapa layanan ini dibutuhkan.
LlamaParse tampaknya berusaha menyelesaikan masalah yang sulit. Banyak klien perusahaan butuh mem-parsing berkas PDF dan mengekstrak data secara akurat. Interfacenya sedikit membingungkan. LlamaParse bisa mengekstrak angka dari tabel, tetapi outputnya tidak disajikan sebagai tabel dan sepertinya akses ke angka itu hanya lewat tanya-jawab.
Bukankah ini mirip dengan apa yang dilakukan AWS Textract? Ia memiliki kemampuan mem-parsing dan melakukan query informasi dari tabel dan formulir. Untuk LI, pencatatan pencarian untuk workflow dan RAG mungkin lebih mudah bagi pengguna, tapi tetap saja saya bertanya mengapa harus menemukan kembali roda.
Jika data bisa diekstrak dari awal dalam format paling tepat dengan LLM, mengapa membangun ini? Mungkin ada manfaatnya dalam jangka pendek karena biaya, tetapi dalam jangka panjang ini adalah masalah yang pada dasarnya bisa diselesaikan dengan LLM.
LlamaParse secara tepat menyelesaikan masalah yang berulang kali saya hadapi terkait RAG. Mendapatkan informasi terstruktur dari data yang tidak terstruktur memang sulit.
Pertanyaan tentang bagaimana harga yang akan ditentukan.

Pengenalan LlamaCloud dan LlamaParse

RAG sangat bergantung pada kualitas data

LlamaParse

API pengumpulan dan pencarian terkelola

Mitra dan kolaborator peluncuran

FAQ

Langkah berikutnya

Bacaan terkait

1 komentar

Komentar Hacker News