- Tesla merilis Tesla Transport Protocol over Ethernet (TTPoE) sebagai open source di HotChips 2024
- Tesla bergabung dengan Ultra Ethernet Consortium (UEC) untuk membagikan protokol ini dan berupaya menstandarkan fabric baru berkecepatan tinggi/latensi rendah untuk AI/ML/pusat data
- TTPoE bersifat nonproprietary, berbiaya rendah, dan berorientasi pada kontrol kemacetan terdistribusi, frame EthernetII standar, serta protokol interkoneksi yang tidak tersentralisasi
- Karakteristik TTPoE
- Seperti TCP, kehilangan paket dan retransmisi diperbolehkan, tetapi pengiriman secara keseluruhan tetap dijamin
- Deployment awal TTPoE dilakukan pada proyek Tesla Dojo v1
- Protokol ini berjalan sepenuhnya di hardware dan diterapkan pada superkomputer multi-exaflops (fp16) berskala sangat besar dengan puluhan ribu endpoint simultan atau lebih
- Protokol ini dapat membangun dan menjalankan link tanpa campur tangan CPU atau OS
- Protokol ini tidak rumit atau terlalu "cerdas", melainkan berlandaskan prinsip-prinsip dasar
- Transport Ethernet pada dasarnya adalah memindahkan data dari A ke B, dan seharusnya hanya dibatasi oleh batasan fisik
- Dalam sistem berskala sangat besar, pengelolaan kemacetan terpusat adalah upaya yang tidak masuk akal, dan setiap endpoint harus tangguh serta mampu mengelola dirinya sendiri
Opini GN⁺
- TTPoE adalah upaya yang menarik untuk mengatasi keterbatasan protokol TCP yang ada di lingkungan komputasi berperforma tinggi
- Tujuan utamanya tampak adalah meminimalkan latensi dan memaksimalkan throughput melalui hardware offloading dan state machine yang disederhanakan
- TTPoE memiliki potensi untuk meningkatkan kecepatan transfer data dan latensi di bidang AI dan ML
- Langkah Tesla merilis protokol ini sebagai open source kemungkinan akan membantu mempercepat inovasi di bidang HPC
- Namun, TTPoE tampaknya akan sulit sepenuhnya menggantikan TCP di jaringan umum, dan lebih merupakan solusi yang dioptimalkan untuk jaringan khusus berkualitas tinggi. Agar TTPoE diadopsi secara luas, standardisasi dan pembangunan ekosistem akan menjadi hal penting
- Protokol dengan fungsi serupa antara lain RoCE (RDMA over Converged Ethernet) dan NVLink
1 komentar
Ada artikel lain yang menjelaskan TTPoE dengan lebih detail.
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
Gambaran umum TTPoE
Mengapa TTPoE diperlukan
Karakteristik TTPoE
Kontrol kemacetan TTPoE
Implementasi perangkat keras TTPoE
Mojo NIC
Ringkasan