기계학습에 최적으로 여겨지는 "NVIDIA H100"의 대체가 될 수 있는 "NVIDIA L40S"의 성능은?

대당 수 천만원 이상에 판매되고 있는 엔비디아 H100은 머신러닝에 최적화되어 인기가 있으며, 페이스북의 마크 저커버그 자선단체는 NVIDIA H100을 1000개 이상 쌓은 고성능 의학 연구용 컴퓨팅 시스템 구축을 시작하고 있다. 블로거 패트릭 케네디 씨는, "NVIDIA L40S"라는 제품이 "NVIDIA H100"의 대체재가 될 수 있다며 그 성능에 대해 이야기하고 있는데....

 


NVIDIA H100은 하이엔드 GPU이며, 수요도 가격도 매우 높고, 머신러닝 수요에 따라 엔비디아는 "L40S"를 판매. 이것은 그래픽 지향의 "L40"의 아종이라고 할 수 있는 존재로, H100의 절반 정도의 가격에 구할 수 있다.

 


케네디 씨에 따르면, 기초적인 모델, 예를 들어 Chat GPT 같은 것을 훈련하고 싶다면, NVIDIA H100 80GB SXM5가 여전히 최적의 GPU라고 하고, 단지, 일단 기초 모델이 훈련되면, 도메인 고유의 데이터나 추론에 근거해 모델을 커스터마이즈 하는 것은 저비용 제품에서도 가능하다고 하는 구조.

하이엔드 추론에 사용되는 GPU는, NVIDIA H100, NVIDIA A100, 그리고 새로운 NVIDIA L40S의 3가지가 현재의 주류. L40S는 다른 두 가지와는 완전히 다른 것으로, 원래 비주얼라이제이션용 GPU인 L40을 기반으로 AI용 조정을 한 것이다.



케네디 씨에 따르면, L40S는 AI의 훈련과 추론용으로 대폭 개선된 GPU이지만, 메모리 용량, 대역폭 등이 필요한 경우에는 적합하지 않다고 하는데, 스펙상으로는 A100보다 메모리가 크게 적어 보이지만, NVIDIA Transformer Engine과 FP8을 지원하기 때문에, 데이터 크기를 대폭 줄이는 FP8을 사용하면 적은 메모리로 작동한다는 것.

대규모 언어 모델의 하나, LLaMA 7B로 추론했을 때의 결과가 아래와 같다. 

 

파랑이 H100, 검정이 L40S. 케네디씨는 "H100이 더 빠른데 왜 L40S인가?라고 말하면, 특히 FP8을 사용했을 경우는 48GB의 메모리로 충분하고, FP16을 사용한 SXM 버전이라도 A100보다 뛰어나지 않기 때문이라고 대답합니다. 반면 일반적으로 H100 PCIe는 L40S의 2.0~2.7배 속도이지만, 가격도 2.6배입니다. 또 L40S는 H100보다 훨씬 빨리 구할 수 있는 것도 이유 중 하나"라고 말한다.