NVIDIA Datacenter GPU

NVIDIA 데이터센터 GPU는 AI, 고성능 컴퓨팅, 대규모 데이터 분석 등 복잡한 연산 작업을
빠르고 효율적으로 처리하는 엔터프라이즈용 가속 솔루션입니다.

항목	H200 NVL	H100 NVL	L40s	L40	L4
이미지
기능	대규모 언어 모델(LLM) 학습 및 고성능 컴퓨팅(HPC)		워크스테이션 최적화 및 GDDR6 기반
CUDA 병렬 프로세싱 코어	16,896	14,952	18,176	18,176	7,680
NVIDIA 텐서 코어	528	456	568	568	240
NVIDIA RT 코어	-	-	142	142	60
GPU 메모리	141GB	94GB	48GB GDDR6 ECC	48GB GDDR6 ECC	24GB GDDR6
메모리 대역폭	4.8TB/s	3.9TB/s	864GB/s	864GB/s	300GB/s
FP64 성능	60 TFLOPS	60 TFLOPS	1,414 GFLOPS	-	489.6 GFLOPS
FP32 (싱글) 성능	60TOPS	60 TFLOPS	90.52 TF	91.6 TF	30.3 TF
FP16 성능	1,671 TFLOPS	1,671 TFLOPS	90.52 TF	733 TF	242 TF
INT8 성능	3,341 TFLOPS	3,341 TFLOPS	-	-	485 TOPS
최대 전력 소비	Up to 600W	350~400W	700W	350W	250W
그래픽 버스	PCIe 5.0 x16	PCIe 5.0 x16	PCIe 4.0 x16	PCIe 4.0 x16	PCIe 4.0 x16
폼 팩터	듀얼 슬롯 PCIe	듀얼 슬롯 PCIe	4.4"(H) x 10.5"(L) 듀얼 슬롯	4.4"(H) x 10.5"(L) 듀얼 슬롯	싱글슬롯 low-profile, PCIe

NVIDIA DGX Spark

내 책상 위의 Grace Blackwell AI 슈퍼컴퓨터

NVIDIA GB10 Grace Blackwell Superchip으로 구동되는 NVIDIA DGX™ Spark는 전력 효율적인 소형 폼팩터에서 1000 AI TOPS(최고 성능의 AI) 성능을 제공합니다. NVIDIA AI 소프트웨어 스택이 사전 설치되어 있고 128GB 메모리를 탑재하여 개발자는 DeepSeek, Meta, Google 등의 최신 추론 AI 모델을 최대 2,000억 개의 매개변수로 로컬에서 프로토타입을 제작하고, 미세 조정하고, 추론하고, 데이터 센터 또는 클라우드에 원활하게 배포할 수 있습니다.

기능

NVIDIA GPU, CPU, 네트워킹 및 AI 소프트웨어 기술

NVIDIA GB10 슈퍼칩

NVIDIA Grace Blackwell 아키텍처를
바탕으로 최대 1000 AI TOPS의 AI 성능을
FP4 정밀도로 경험해 보세요.

128GB의 일관된 통합 시스템 메모리

대용량 통합 시스템 메모리와 함께
최대 2,000억 개의 매개변수가 있는 AI
모델을 통해 AI 개발 및 테스트
워크로드를 실행해 보세요.

NVIDIA ConnectX 네트워킹

고성능 NVIDIA ConnectX 네트워킹으로
2기와 DGX Spark 시스템을 함께 연결하면
최대 4,050억 개의 매개변수가 있는
AI 모델을 처리할 수 있습니다.

NVIDIA AI Software Stack

도구, 프레임워크, 라이브러리, 사전 학습된
모델을 포함한 전체 스택 솔루션을 사용하여
생성형 AI 워크로드를 처리합니다.

사양

아키텍처	NVIDIA Grace Blackwell
GPU	블랙웰 아키텍처
CPU	20코어 Arm, 10 Cortex-X925 + 10 Cortex-A725 Arm
CUDA 코어	블랙웰 세대
텐서 코어	5세대
텐서 성능	1000 AI TOPS
시스템 메모리	128GB LPDDR5x, 통합 시스템 메모리
메모리 인터페이스	256비트
메모리 대역폭	273GB/초
저장	자체 암호화 기능이 있는 1 또는 4TB NVME.M2
USB	4x USB 4 TypeC (최대 40Gb/s)
이더넷	1x RJ-45 커넥터 10GbE

NIC	ConnectX-7 스마트 NIC
Wi-Fi	Wi-Fi 7
블루투스	BT 5.3 w/LE
오디오 출력	HDMI 멀티채널 오디오 출력
전력 소비	170와트
디스플레이 커넥터	1x HDMI 2.1a
NVENC \| NVDEC	1x \| 1x
OS	엔비디아 DGX™ OS
시스템 사이즈	150mm 길이 × 150mm 너비 × 50.5mm 높이
시스템 무게	1.2kg

NVIDIA H200 NVL

주요 엔터프라이즈 서버를 위한 AI 가속 극대화

NVIDIA H200 NVL은 유연한 구성이 필요한 저전력 공랭식 엔터프라이즈 랙 설계에 이상적이며, 더 크고 빠른 HBM3e 메모리와 최대 4개의 GPU를 위한 NVIDIA NVLink™ 연결을 통해 주류 엔터프라이즈 서버의 AI 가속을 지원합니다. 이전 세대 GPU보다 1.5배 향상된 메모리와 1.2배 향상된 대역폭을 갖춘 H200 NVL은 몇 시간 내에 LLM을 미세 조정하고 최대 1.8배 빠른 LLM 추론 성능을 제공합니다.

사양

항목	H200 SXM¹	H200 NVL¹
FP64	34 TFLOPS	30 TFLOPS
FP64 Tensor 코어	67 TFLOPS	60 TFLOPS
FP32	67 TFLOPS	60 TFLOPS
TF32 Tensor 코어²	989 TFLOPS	835 TFLOPS
BFLOAT16 Tensor 코어²	1,979 TFLOPS	1,671 TFLOPS
FP16 Tensor 코어²	1,979 TFLOPS	1,671 TFLOPS
FP8 Tensor 코어²	3,958 TFLOPS	3,341 TFLOPS
INT8 Tensor 코어²	3,958 TFLOPS	3,341 TFLOPS
GPU 메모리	141GB	141GB
GPU 메모리 대역폭	4.8TB/s	4.8TB/s
디코더	7 NVDEC / PEG	7 NVDEC / 7 JPEG
컨피덴셜 컴퓨팅	지원	지원됨
최대 열 설계 전력(TDP)	최대 700W(구성 가능)	최대 600W(구성 가능)
멀티 인스턴스 GPU(MIG)	최대 7개의 MIG, 각 18GB	각각 최대 7개의 MIGs @16.5GB
폼 팩터	SXM	PCIe 듀얼 슬롯(공랭식)
인터커넥트	NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s	2방향 또는 4방향 NVIDIA NVLink 브리지: GPU당 900GB/s PCIe Gen5: 128GB/s
서버 옵션	GPU가 4개 또는 8개의 NVIDIA HGX™ H200 파트너 및 NVIDIA-Certified System™	NVIDIA MGX™ H200 NVL 파트너 및 최대 8개 GPU를 갖춘 NVIDIA 인증 시스템
NVIDIA AI Enterprise	추가 가능	포함 항목

1. 예비 사양으로 변경될 수 있습니다.
2. 텐서성 포함

NVIDIA H100 NVL

대규모 언어 모델 추론을 강화

NVIDIA H100 NVL은 주류 PCIe 기반 서버 시스템에서 대용량 언어 모델 추론을 강화합니다. 향상된 기본 성능, 더 크고 빠른 HBM3 메모리, 그리고 브리지를 통한 NVIDIA NVLink™ 연결을 통해 H100 NVL을 탑재한 주류 시스템은 Llama 2 70B에서 NVIDIA A100 Tensor Core 시스템보다 최대 5배 높은 성능을 발휘합니다.

사양

항목	H100 SXM¹	H100 NVL¹
FP64	34 TFLOPS	30 TFLOPS
FP64 Tensor 코어	67 TFLOPS	60 TFLOPS
FP32	67 TFLOPS	60 TFLOPS
TF32 Tensor 코어²	989 TFLOPS	835 TFLOPS
BFLOAT16 Tensor 코어²	1,979 TFLOPS	1,671 TFLOPS
FP16 Tensor 코어²	1,979 TFLOPS	1,671 TFLOPS
FP8 Tensor 코어²	3,958 TFLOPS	3,341 TFLOPS
INT8 Tensor 코어²	3,958 TOPS	3,341 TOPS
GPU 메모리	80GB	94GB
GPU 메모리 대역폭	3.35TB/s	3.9TB/s
디코더	7 NVDEC / 7 JPEG	7 NVDEC / 7 JPEG
컨피덴셜 컴퓨팅	지원	지원됨
최대 열 설계 전력(TDP)	최대 700W(구성 가능)	350~400W(구성 가능)
멀티 인스턴스 GPU(MIG)	최대 7개의 MIG, 각 10GB	최대 7개의 MIG, 각 12GB
폼 팩터	SXM	PCIe 듀얼 슬롯(공랭식)
인터커넥트	NVIDIA NVLink™: 900GB/s PCIe Gen5: 128GB/s	NVIDIA NVLink: 600GB/s PCIe Gen5: 128GB/s
서버 옵션	GPU가 4개 또는 8개의 NVIDIA HGX H100 파트너 및 NVIDIA-Certified Systems™ GPU가 8개인 NVIDIA DGX H100	GPU가 1~8개인 파트너 인증 시스템 및 NVIDIA-Certified System™
NVIDIA AI Enterprise	추가 가능	포함 항목

* 최소성 포함
1. 예비 사양으로 변경될 수 있습니다.

NVIDIA L40s

데이터센터를 위한 독보적인 AI 및 그래픽 성능

생성적 AI의 폭발적인 성장은 모든 산업 분야에 걸쳐 혁신적인 변화를 주도하고 있으며, 기업들은 더 많은 컴퓨팅 리소스를 대규모로 구축해야 할 필요성을 느끼고 있습니다. 성능, 효율성, 그리고 ROI 향상에 대한 압박이 거세지면서, 현대 데이터 센터는 끊임없이 증가하는 복잡하고 다양한 워크로드에 대해 가속화된 컴퓨팅, 그래픽 및 비디오 처리 기능을 제공하는 범용 컴퓨팅 솔루션을 필요로 합니다.
Ada Lovelace 아키텍처 기반의 NVIDIA L40S GPU는 데이터 센터를 위한 가장 강력한 범용 GPU로, LLM 추론 및 학습, 그래픽 및 비디오 애플리케이션에 획기적인 다중 워크로드 가속을 제공합니다. 멀티모달 생성적 AI를 위한 최고의 플랫폼인 L40S GPU는 추론, 학습, 그래픽 및 비디오 워크플로에 대한 엔드 투 엔드 가속을 제공하여 차세대 AI 지원 오디오, 음성, 2D, 비디오 및 3D 애플리케이션을 구동합니다.

사양

항목	NVIDIA L40s
FP32	91.6테라플롭스
TF32 Tensor 코어	366테라플롭스^*
FP16	733테라플롭스^*
FP8	1,466테라플롭스^*
RT 코어 성능	212테라플롭스
최대 소비 전력	350W

* 최소성 포함

NVIDIA L40

데이터 센터 워크로드를 위한 강력한 시각 컴퓨팅, AI 및 신경 그래픽

가상 워크스테이션부터 대규모 모델링 및 시뮬레이션에 이르기까지, 최신 시각 컴퓨팅 및 과학 애플리케이션은 복잡성과 양적으로 증가하고 있습니다. 기업은 점점 더 복잡해지는 워크로드의 다양한 컴퓨팅 요구를 충족하기 위해 극한의 성능과 확장성을 제공하면서도 다재다능한 기능을 갖춘 데이터 센터 솔루션을 필요로 합니다. NVIDIA Ada Lovelace GPU 아키텍처 기반의 NVIDIA L40 GPU는 데이터 센터에 전례 없는 시각 컴퓨팅 성능을 제공하고, 혁신적인 신경망 그래픽, 컴퓨팅 및 AI 기능을 제공하여 가장 까다로운 시각 컴퓨팅 워크로드를 가속화합니다.
L40은 실시간 레이 트레이싱 기능을 향상시키는 142개의 3세대 RT 코어와 FP8 데이터 형식을 지원하는 568개의 4세대 텐서 코어를 탑재하여 1페타플롭 이상의 추론 성능을 제공합니다. 이러한 새로운 기능은 최신 CUDA® 코어 및 48GB 그래픽 메모리와 결합되어 고성능 가상 워크스테이션 인스턴스부터 NVIDIA Omniverse™의 대규모 디지털 트윈에 이르기까지 시각 컴퓨팅 워크로드를 가속화합니다. 동일한 전력으로 이전 세대보다 최대 2배 향상된 성능을 제공하는 NVIDIA L40은 현대 데이터 센터에 필요한 시각적 컴퓨팅 성능과 성능을 제공하는 데 독보적으로 적합합니다.

L40s 주요 특징

데이터센터 성능을 위한 3가지 핵심

차세대 그래픽

NVIDIA L40은 데이터센터의 비주얼 컴퓨팅 워크로드를 위해 최고 수준의 렌더 성능을 제공합니다. 3세대 RT 코어 및 업계 최고의 GDDR6 메모리 48GB는 이제 실시간 레이 트레이싱 성능을 지원하며, 고성능 크리에이티브 워크플로우를 가속화합니다.

강력한 컴퓨팅 및 AI

NVIDIA L40에는 추론, 추론 전처리, 데이터 사이언스 및 그래픽 애플리케이션을 위한 최신 4세대 Tensor 코어가 탑재되어 AI 기능을 지원합니다. 복잡한 컴퓨팅 워크로드에 필수적인 성능을 제공합니다.

데이터센터 지원

NVIDIA L40은 연중무휴 운영되는 엔터프라이즈 데이터센터를 위한 고신뢰성 설계로, 듀얼 슬롯 전력 효율 최적화 디자인에 패키지된 고성능 워크로드용 솔루션입니다. 다양한 NVIDIA-Certified Systems™에서 제공됩니다.

사양

GPU 아키텍처	NVIDIA Ada Lovelace 아키텍처
GPU 메모리	48GB GDDR6(ECC 포함)
디스플레이 커넥터	DP 1.4a 4개
최대 소비 전력	300W
폼 팩터	4.4”(H) x 10.5”(L) 듀얼 슬롯
열처리	수동
vGPU 소프트웨어 지원^*	NVIDIA vPC/vApp NVIDIA RTX 가상 워크스테이션(WKS)
NVENC \| NVDEC	3x \| 3x (AV1 인코딩 및 디코딩 포함)
RoT(Root of Trust)를 통한 안전한 부팅	YES
NEBS 지원	YES / 레벨 3
전원 커넥터	PCIe CEM5 16핀 1개

NVIDIA L4 Tensor Core GPU

효율적인 비디오, AI, 그래픽을 위한 획기적인 가속기

NVIDIA L4 Tensor Core GPU는 기업, 클라우드 및 엣지 환경에서 비디오, AI, 가상 워크스테이션 및 그래픽 애플리케이션에 대한 범용 가속 및 에너지 효율성을 제공합니다. NVIDIA의 AI 플랫폼과 풀스택 접근 방식을 통해 L4는 광범위한 AI 애플리케이션에서 대규모 비디오 및 추론에 최적화되어 최상의 개인화된 경험을 제공합니다. 주류 시장에서 가장 효율적인 NVIDIA 가속기인 L4가 탑재된 서버는 CPU 솔루션보다 최대 120배 더 높은 AI 비디오 성능을 제공하는 동시에 이전 세대 대비 2.5배 더 향상된 생성적 AI 성능과 4배 이상 향상된 그래픽 성능을 제공합니다. L4의 다재다능함과 에너지 효율적인 단일 슬롯, 로우 프로파일 폼팩터는 엣지, 클라우드 및 엔터프라이즈 환경에 이상적입니다.

사양

항목	L4
FP32	30.3테라플롭스
TF32 Tensor 코어	120테라플롭스^*
FP16 Tensor 코어	242테라플롭스^*
BFLOAT16 Tensor 코어	242테라플롭스^*
FP8 Tensor 코어	485테라플롭스^*
INT8 Tensor 코어	485 TOPs^*
GPU 메모리	24기가바이트
GPU 메모리 대역폭	300GB/초
NVENC \| NVDEC \| JPEG Decoder	2 \| 4 \| 4
최대 열 설계 전력(TDP)	72와트
폼 팩터	1슬롯 로우 프로파일, PCIe
인터커넥트	PCIe Gen4 ×16 64GB/초
서버 옵션	1~8개의 GPU를 갖춘 파트너 및 NVIDIA-Certified 시스템

* 최소성으로 표시됩니다. 사양은 최소성 없이 1/2 더 낮습니다.