TabLib - Dataset Token Tabular 867B
(approximatelabs.com)- Dataset berisi 627M (627 juta) tabel dan 867B (867 miliar) token untuk pelatihan LLM
- Mencakup tabel yang diekstrak dari halaman web, Excel, CSV, SQLite, dan lainnya
- Data kontekstual yang kaya seperti nama file, URL sumber, dan teks di sekitar tiap tabel
- Diharapkan dapat membantu membangun pemahaman dan teknik yang lebih baik untuk pekerjaan dengan data berbentuk tabel
- 65 triliun baris dan hingga 8 miliar kolom
- Tabel terbesar memiliki 32 juta baris
- Tabel terlebar memiliki 3 juta kolom
Belum ada komentar.