2 poin oleh GN⁺ 2024-08-20 | Belum ada komentar. | Bagikan ke WhatsApp
  • Seluruh SafeDocs diklasifikasikan menggunakan LLMs, model embedding, XGBoost, dan Linear Regressors.
  • Dalam proses klasifikasi, dilakukan berbagai eksperimen dan perbandingan performa, serta evaluasi terhadap kinerja beberapa model.

Pengenalan

  • Common Crawl (CC) adalah arsip web yang mengarsipkan internet, dengan fokus pada pelestarian internet untuk ilmuwan dan peneliti.
  • CC tidak menyimpan seluruh berkas PDF, melainkan hanya 1MB pertama; SafeDocs mengambil kembali berkas PDF dari CC untuk melestarikan PDF aslinya.
  • Dataset SafeDocs terdiri dari sekitar 8,4 juta berkas PDF, dan ukurannya mencapai 8TB setelah diekstrak.
  • Ada upaya untuk mengklasifikasikan PDF-PDF ini.

Pembuatan dataset

  • Menjelaskan proses pengklasifikasian berkas PDF ke dalam berbagai label.
  • Terinspirasi oleh blog teknis FineWeb, dibuat subset konten pendidikan, label dihasilkan menggunakan LLM, lalu dilatih model kecil yang dapat mempelajari label tersebut.
  • Menghasilkan 100k label, lalu menyesuaikan label yang tidak seimbang dan menyusunnya kembali menjadi 59k label.

Pelatihan model

Ide 1: Model embedding

  • Model embedding digunakan untuk mengubah data seperti teks, gambar, dan video menjadi vektor dalam ruang berdimensi n.
  • Performa klasifikasi ditingkatkan melalui finetuning.
  • Hasil pengujian pada beberapa model menunjukkan bahwa model Alibaba-large-gte-1.5 memiliki performa terbaik, dengan akurasi 59,14%.

Ide 2: XGBoost

  • XGBoost adalah model dengan performa unggul untuk data tabular, yang menyelesaikan masalah klasifikasi dengan melatih banyak pengklasifikasi biner sederhana.
  • Dengan metode ini, dicapai akurasi 83,97%.

Ide 3: TFIDF

  • TFIDF adalah metode untuk menghitung seberapa penting kata tertentu dalam dokumen, dan model dilatih menggunakan teknik NLP dasar.
  • Mencatat akurasi 67,52%.

Ide 4: Kembali ke deep learning

  • Menggunakan pengklasifikasi deep learning dengan target akurasi minimal 70%.
  • Setelah menghasilkan lebih banyak label dan bereksperimen dengan model gte-large, dicapai akurasi 69,22%.

Hasil eksperimen

  • Pada akhirnya, model embedding XGBoost mencatat akurasi tertinggi, yaitu 85,26%.
  • Dari perbandingan performa berbagai model, XGBoost menunjukkan hasil terbaik.

Klasifikasi seluruh korpus

  • Model yang dihasilkan digunakan untuk mengklasifikasikan seluruh data PDF, lalu hasilnya divisualisasikan.
  • Hasil klasifikasi divisualisasikan menggunakan PCA dan UMAP.

Kesimpulan

  • Meskipun performa model deep learning tidak memenuhi harapan, secara keseluruhan tetap dicapai hasil yang bermakna.
  • Diperkirakan akan semakin banyak dataset berskala besar yang menggunakan data kompleks seperti PDF.
  • Dataset dan kode dibuka untuk memberikan peluang memperoleh hasil yang lebih baik.

Opini GN⁺

  • Proyek ini adalah contoh yang baik dalam menguji berbagai pendekatan untuk masalah klasifikasi pada dataset berskala besar.
  • Menunjukkan bahwa teknik machine learning tradisional seperti XGBoost masih bisa sangat efektif.
  • Ada kemungkinan bahwa untuk meningkatkan performa model deep learning, dibutuhkan lebih banyak data dan sumber daya GPU.
  • Diperlukan lebih banyak riset dan eksperimen tentang cara memproses data kompleks seperti PDF.
  • Proyek ini dapat menjadi referensi yang sangat berguna bagi orang-orang yang tertarik pada riset dan pengembangan.

Belum ada komentar.

Belum ada komentar.