- Seluruh SafeDocs diklasifikasikan menggunakan LLMs, model embedding, XGBoost, dan Linear Regressors.
- Dalam proses klasifikasi, dilakukan berbagai eksperimen dan perbandingan performa, serta evaluasi terhadap kinerja beberapa model.
Pengenalan
- Common Crawl (CC) adalah arsip web yang mengarsipkan internet, dengan fokus pada pelestarian internet untuk ilmuwan dan peneliti.
- CC tidak menyimpan seluruh berkas PDF, melainkan hanya 1MB pertama; SafeDocs mengambil kembali berkas PDF dari CC untuk melestarikan PDF aslinya.
- Dataset SafeDocs terdiri dari sekitar 8,4 juta berkas PDF, dan ukurannya mencapai 8TB setelah diekstrak.
- Ada upaya untuk mengklasifikasikan PDF-PDF ini.
Pembuatan dataset
- Menjelaskan proses pengklasifikasian berkas PDF ke dalam berbagai label.
- Terinspirasi oleh blog teknis FineWeb, dibuat subset konten pendidikan, label dihasilkan menggunakan LLM, lalu dilatih model kecil yang dapat mempelajari label tersebut.
- Menghasilkan 100k label, lalu menyesuaikan label yang tidak seimbang dan menyusunnya kembali menjadi 59k label.
Pelatihan model
Ide 1: Model embedding
- Model embedding digunakan untuk mengubah data seperti teks, gambar, dan video menjadi vektor dalam ruang berdimensi n.
- Performa klasifikasi ditingkatkan melalui finetuning.
- Hasil pengujian pada beberapa model menunjukkan bahwa model
Alibaba-large-gte-1.5 memiliki performa terbaik, dengan akurasi 59,14%.
Ide 2: XGBoost
- XGBoost adalah model dengan performa unggul untuk data tabular, yang menyelesaikan masalah klasifikasi dengan melatih banyak pengklasifikasi biner sederhana.
- Dengan metode ini, dicapai akurasi 83,97%.
Ide 3: TFIDF
- TFIDF adalah metode untuk menghitung seberapa penting kata tertentu dalam dokumen, dan model dilatih menggunakan teknik NLP dasar.
- Mencatat akurasi 67,52%.
Ide 4: Kembali ke deep learning
- Menggunakan pengklasifikasi deep learning dengan target akurasi minimal 70%.
- Setelah menghasilkan lebih banyak label dan bereksperimen dengan model
gte-large, dicapai akurasi 69,22%.
Hasil eksperimen
- Pada akhirnya, model embedding XGBoost mencatat akurasi tertinggi, yaitu 85,26%.
- Dari perbandingan performa berbagai model, XGBoost menunjukkan hasil terbaik.
Klasifikasi seluruh korpus
- Model yang dihasilkan digunakan untuk mengklasifikasikan seluruh data PDF, lalu hasilnya divisualisasikan.
- Hasil klasifikasi divisualisasikan menggunakan PCA dan UMAP.
Kesimpulan
- Meskipun performa model deep learning tidak memenuhi harapan, secara keseluruhan tetap dicapai hasil yang bermakna.
- Diperkirakan akan semakin banyak dataset berskala besar yang menggunakan data kompleks seperti PDF.
- Dataset dan kode dibuka untuk memberikan peluang memperoleh hasil yang lebih baik.
Opini GN⁺
- Proyek ini adalah contoh yang baik dalam menguji berbagai pendekatan untuk masalah klasifikasi pada dataset berskala besar.
- Menunjukkan bahwa teknik machine learning tradisional seperti XGBoost masih bisa sangat efektif.
- Ada kemungkinan bahwa untuk meningkatkan performa model deep learning, dibutuhkan lebih banyak data dan sumber daya GPU.
- Diperlukan lebih banyak riset dan eksperimen tentang cara memproses data kompleks seperti PDF.
- Proyek ini dapat menjadi referensi yang sangat berguna bagi orang-orang yang tertarik pada riset dan pengembangan.
Belum ada komentar.