7 poin oleh xguru 2023-10-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Dataset berisi 627M (627 juta) tabel dan 867B (867 miliar) token untuk pelatihan LLM
    • Mencakup tabel yang diekstrak dari halaman web, Excel, CSV, SQLite, dan lainnya
    • Data kontekstual yang kaya seperti nama file, URL sumber, dan teks di sekitar tiap tabel
  • Diharapkan dapat membantu membangun pemahaman dan teknik yang lebih baik untuk pekerjaan dengan data berbentuk tabel
  • 65 triliun baris dan hingga 8 miliar kolom
  • Tabel terbesar memiliki 32 juta baris
  • Tabel terlebar memiliki 3 juta kolom

Belum ada komentar.

Belum ada komentar.