Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning
논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …
27 분
2408.14158v2
Distributed Training
PCIe GPU Cluster
All-Reduce, HFReduce
Communication Optimization
Cost Efficiency
Power Efficiency
PyTorch
Large Language Models
System Architecture