- Fire-Flyer File System (3FS) adalah sistem file terdistribusi berperforma tinggi yang dirancang untuk menangani beban kerja pelatihan dan inferensi AI
- Memanfaatkan SSD terbaru dan jaringan RDMA untuk menyediakan lapisan penyimpanan bersama serta menyederhanakan pengembangan aplikasi terdistribusi
Fitur utama dan keunggulan
- Performa dan kemudahan penggunaan
- Arsitektur terpisah: Menggabungkan bandwidth jaringan dari ribuan SSD dan ratusan node penyimpanan sehingga sumber daya penyimpanan dapat diakses tanpa bergantung pada lokalitas
- Jaminan konsistensi yang kuat: Menjaga konsistensi dengan menggunakan Chain Replication with Apportioned Queries (CRAQ), sehingga kode aplikasi menjadi lebih sederhana
- Dukungan antarmuka file: Menyediakan layanan metadata tanpa status dengan memanfaatkan penyimpanan key-value transaksional berbasis FoundationDB. Karena menggunakan antarmuka file yang sudah ada, tidak perlu mempelajari API penyimpanan baru
- Dukungan untuk berbagai beban kerja
- Persiapan data: Menata output dari pipeline analisis data ke dalam struktur direktori hierarkis, serta mengelola banyak output antara secara efisien
- Optimasi data loader: Memungkinkan akses acak ke sampel pelatihan dari beberapa node komputasi tanpa perlu melakukan preload atau shuffle dataset terlebih dahulu
- Penyimpanan checkpoint: Mendukung penyimpanan checkpoint paralel berkecepatan tinggi untuk pelatihan skala besar
- Optimasi inferensi berbasis KVCache: Lebih hemat biaya dibanding caching berbasis DRAM, sekaligus menawarkan throughput tinggi dan kapasitas penyimpanan besar
Uji performa
- Uji throughput maksimum
- 180 node penyimpanan (masing-masing dilengkapi 2×200Gbps InfiniBand NIC dan 16 NVMe SSD 14TiB)
- Lebih dari 500 node klien (masing-masing dilengkapi 1×200Gbps InfiniBand NIC)
- Dalam uji beban baca yang dijalankan paralel dengan pekerjaan pelatihan AI, tercatat total throughput 6.6TiB/s
- Uji benchmark GraySort
- 25 node penyimpanan (setiap node memiliki 2 domain NUMA, 2×400Gbps NIC)
- 50 node komputasi (192 core fisik, RAM 2.2TiB, 1×200Gbps NIC)
- Mengurutkan 110.5TiB data (8.192 partisi) hanya dalam 30 menit 14 detik, mencapai throughput rata-rata 3.66TiB/min
- Uji performa KVCache
- Meminimalkan komputasi yang tidak perlu melalui caching vektor key-value dalam proses inferensi large language model (LLM)
- Mencatat peak read throughput 40GiB/s
- Termasuk analisis performa operasi penghapusan (IOPS) saat Garbage Collection (GC) berjalan
- Memiliki karakteristik performa pemrosesan data tinggi, skalabilitas besar, dan pengoperasian sederhana
- Pemrosesan data berperforma tinggi: Memanfaatkan DuckDB untuk pemrosesan data yang cepat
- Dukungan dataset skala besar: Mampu memproses data berskala petabyte (PB)
- Kemudahan operasional: Dapat digunakan dengan mudah tanpa layanan yang berjalan jangka panjang
Belum ada komentar.