NVIDIA cuDNN

NVIDIAÂ® CUDAÂ® æ·±åº¦ç¥ç»ç½ç»åºï¼cuDNNï¼æ¯ä¸æ¬¾ GPU å éçæ·±åº¦ç¥ç»ç½ç»åºç¡ç®ååºãcuDNN ä¸ºæ åæä½ï¼å¦åååååå·ç§¯ãæ³¨æåãç©éµä¹æ³ï¼matmulï¼ãæ± ååå½ä¸åï¼æä¾é«åº¦ä¼åçå®ç°ã

ä¸è½½ cuDNN

ä¸è½½ cuDNN åºä¸è½½ cuDNN åç«¯

( GitHub)

cuDNN ä¹å¯ä»¥éè¿ä¸æ¹çåç®¡çå¨ä¹ä¸è¿è¡ä¸è½½ã

ä½¿ç¨ conda å¿«éå®è£

conda install nvidia::cudnn cuda-version=12

å®è£ cuDNN åº

ä½¿ç¨ Docker å¿«éæå

docker pull nvidia/cuda:12.8.1-cudnn-devel-ubuntu22.04

å®è£ cuDNN åº

ä½¿ç¨ pip å¿«éå®è£

pip install nvidia-cudnn

å®è£ cuDNN åº

pip install nvidia-cudnn-frontend

å®è£ cuDNN åç«¯ API

cuDNN çå·¥ä½åç

å éå¦ä¹ ï¼cuDNN æä¾äºéå¯¹ Tensor Core ä¼åçåæ ¸ï¼å¨è®¡ç®å¯éåæä½ä¸å®ç°æä½³æ§è½ï¼å¹¶ä¸ºä¸åé®é¢è§æ¨¡æéåéçåæ ¸æä¾å¯åå¼ç®æ³ã
èåæ¯æï¼cuDNN æ¯æå°è®¡ç®å¯éååååå¯éåæä½è¿è¡èåãå¸¸è§çéç¨èåæ¨¡å¼éå¸¸éè¿è¿è¡æ¶åæ ¸çæå®ç°ï¼ç¹æ®çèåæ¨¡å¼åä½¿ç¨é¢ç¼åçä¼ååæ ¸ã
è¡¨è¾¾æ§ç®åå¾ APIï¼ç¨æ·å¯ä»¥å°è®¡ç®å®ä¹ä¸ºå¼ éä¸çæä½å¾ãcuDNN åºæ¢æç´æ¥ç C APIï¼ä¹æå¼æºç C++ åç«¯ä»¥æåä½¿ç¨ä¾¿å©æ§ãå¤§å¤æ°ç¨æ·éæ©åç«¯ä½ä¸ºä½¿ç¨ cuDNN çå¥å£ã

cuDNN API ä»£ç ç¤ºä¾

è¯¥ä»£ç ä½¿ç¨ cuDNN ä¸ PyTorch éæï¼å®ç°äºå¸¦æåç½®çæ¹éç©éµä¹æ³ã

import torch
import cudnn

# Prepare sample input data. nvmath-python accepts input tensors from pytorch, cupy, and
# numpy.
b, m, n, k = 1, 1024, 1024, 512
A = torch.randn(b, m, k, dtype=torch.float32, device="cuda")
B = torch.randn(b, k, n, dtype=torch.float32, device="cuda")
bias = torch.randn(b, m, 1, dtype=torch.float32, device="cuda")

result = torch.empty(b, m, n, dtype=torch.float32, device="cuda")

# Use the stateful Graph object in order to perform multiple matrix multiplications
# without replanning. The cudnn API allows us to fine-tune our operations by, for
# example, selecting a mixed-precision compute type.
graph = cudnn.pygraph(
   intermediate_data_type=cudnn.data_type.FLOAT,
   compute_data_type=cudnn.data_type.FLOAT,
)

a_cudnn_tensor    = graph.tensor_like(A)
b_cudnn_tensor    = graph.tensor_like(B)
bias_cudnn_tensor = graph.tensor_like(bias)

c_cudnn_tensor = graph.matmul(name="matmul", A=a_cudnn_tensor, B=b_cudnn_tensor)
d_cudnn_tensor = graph.bias(name="bias", input=c_cudnn_tensor, bias=bias_cudnn_tensor)

# Build the matrix multiplication. Building returns a sequence of algorithms that can be
# configured. Each algorithm is a JIT generated function that can be executed on the GPU.

graph.build([cudnn.heur_mode.A])
workspace = torch.empty(graph.get_workspace_size(), device="cuda", dtype=torch.uint8)

# Execute the matrix multiplication.
graph.execute(
   {
       a_cudnn_tensor: A,
       b_cudnn_tensor: B,
       bias_cudnn_tensor: bias,
       d_cudnn_tensor: result,
   },
   workspace
)

cuDNN Graph API æè¿°çæä½å¾ç¤ºä¾

åè¿è¡ ConvolutionFwdï¼å·ç§¯ååï¼ï¼éåæ§è¡åå«ä¸¤ä¸ªæä½çæåæ ç¯å¾ï¼DAGï¼ã

ææ¡£

å®æ´æåè¯´æäº cuDNN åç«¯ååç«¯çå®è£ä¸ä½¿ç¨ã

éè¯»ææ¡£

åç«¯ç¤ºä¾

ç¤ºä¾å±ç¤ºäº Python å C++ åç«¯ API çä½¿ç¨æ¹æ³ã

æ¥çç¤ºä¾

ææ°çæ¬åå®¢

äºè§£å¦ä½å¨ cuDNN 9 ä¸ä½¿ç¨ç¼©æ¾ç¹ç§¯æ³¨æåï¼SDPAï¼å é transformerã

éè¯»åå®¢

NVIDIA Blackwell ä¸ç cuDNN

äºè§£ cuDNN éå¯¹ NVIDIA Blackwell å¾®ç¼©æ¾æ ¼å¼çå¨æ°ï¼æ´æ° API ä»¥åå¦ä½ä½¿ç¨è¿äº API è¿è¡ç¼ç¨ã

è§çä¼è®®

ä¸»è¦ç¹æ§

æ·±åº¦ç¥ç»ç½ç»

æ·±åº¦å¦ä¹ ç¥ç»ç½ç»å¹¿æ³åºç¨äºè®¡ç®æºè§è§ãå¯¹è¯å¼ AI ä»¥åæ¨èç³»ç»ï¼å¹¶æ¨å¨äºè¯¸å¦æºè½é©¾é©¶ä¸æºè½è¯é³å©æççªç ´æ§è¿å±ãNVIDIA ç GPU å éæ·±åº¦å¦ä¹ æ¡æ¶æ¾èç¼©çäºè¿äºææ¯çè®ç»æ¶é´ï¼å°æ°å¤©çè®ç»è¿ç¨ç¼©çå°æ°å°æ¶ã

cuDNN ä¸ºäºç«¯ãåµå¥å¼è®¾å¤åæºè½é©¾é©¶æ±½è½¦ä¸çæ·±åº¦ç¥ç»ç½ç»æä¾é«æ§è½ãä½å»¶è¿çæ¨çåºç¡åºã

å é attention è®ç»ï¼é¢å¡«ãå·ç§¯åç©éµä¹æ³ï¼matmulï¼çè®¡ç®å¯éåæä½
ä¼åå¦ attention è§£ç ãæ± åãsoftmaxãå½ä¸åãæ¿æ´»ãéç¹æä½ãå¼ éåæ¢çååå¯éåæä½
æ¯æè®¡ç®å¯éåä¸ååå¯éåæä½çèå
æä¾è¿è¡æ¶èåå¼æï¼å¯ä¸ºå¸¸è§èåæ¨¡å¼å¨è¿è¡æ¶çæåæ ¸
éå¯¹å¦èå attention çéè¦ä¸ç¨æ¨¡å¼è¿è¡ä¼å
æ ¹æ®å·ä½é®é¢è§æ¨¡åºç¨å¯åå¼ç®æ³ï¼éæ©åéçå®ç°

cuDNN Graph API ä¸èå

cuDNN Graph API è®¾è®¡ç¨äºè¡¨è¾¾æ·±åº¦å¦ä¹ ä¸çå¸¸è§è®¡ç®æ¨¡å¼ãcuDNN å¾å°æä½è¡¨ç¤ºä¸ºèç¹ãå¼ éè¡¨ç¤ºä¸ºè¾¹ï¼è¿ä¸å¸åæ·±åº¦å¦ä¹ æ¡æ¶ä¸çæ°æ®æµå¾ç±»ä¼¼ã

éè¿ Python/C++ åç«¯ APIï¼æ¨èï¼ä»¥ååºå± C åç«¯ APIï¼ç¨äºæ§ç¨ä¾æä¸éå Python/C++ çç¹æ®åºæ¯ï¼ï¼åå¯ä¾¿æ·å°è®¿é® cuDNN Graph APIã

æ¯æå°åååéå¶çæä½çµæ´»å°èåå°ç©éµä¹æ³ï¼matmulï¼åå·ç§¯çè¾å¥ä¸è¾åºä¸
æä¾å¦ attention ä¸å·ç§¯å½ä¸åçæ¨¡å¼çä¸ç¨èå
æ¯æåååååä¼ æ
éå¯¹ä¸åé®é¢è§æ¨¡ï¼æä¾æä½³å®ç°çå¯åå¼é¢æµ
å¼æº Python/C++ åç«¯ API
æ¯æåºååä¸ååºåå

cuDNN å éæ¡æ¶

cuDNN å éäºå¹¿æ³ä½¿ç¨çæ·±åº¦å¦ä¹ æ¡æ¶ï¼åæ¬ PyTorchãJAXãCaffe2ãChainerãKerasãMATLABãMxNetãPaddlePaddle å TensorFlowã

ç¸å³åºä¸è½¯ä»¶

NVIDIA NeMoâ¢

NeMo æ¯ä¸ä¸ªç«¯å°ç«¯çäºåçæ¡æ¶ï¼å¼åèå¯ç¨å¶æå»ºãèªå®ä¹å¹¶é¨ç½²æ¥ææ°åäº¿åæ°ççæå¼ AI æ¨¡åã

äºè§£è¯¦æ

NVIDIA TensorRTâ¢

TensorRT æ¯ç¨äºé«æ§è½æ·±åº¦å¦ä¹ æ¨ççè½¯ä»¶å¼åå·¥å·åã

äºè§£è¯¦æ

NVIDIA ä¼åæ¡æ¶

æ·±åº¦å¦ä¹ æ¡æ¶éè¿é«çº§ç¼ç¨æ¥å£ä¸ºè®¾è®¡ãè®ç»åéªè¯æ·±åº¦ç¥ç»ç½ç»æä¾æå»ºæ¨¡åã

äºè§£è¯¦æ

NVIDIA éåéä¿¡åº

NCCL æ¯ä¸ºé«å¸¦å®½ãä½å»¶è¿ãGPU å éç½ç»è®¾è®¡çéä¿¡åºã

äºè§£è¯¦æ

æ´å¤èµæº

å å¥ç¤¾åº

å å¥ NVIDIA å¼åèè®¡å

å éæ¨çååå¬å¸

éå¾· AI

NVIDIA è®¤ä¸ºå¯ä¿¡ç AI æ¯å±åçè´£ä»»ï¼å¹¶å·²å»ºç«ç¸å³æ¿çä¸å®è·µï¼å©åå¹¿æ³ç AI åºç¨å¼åãå½æ ¹æ®æä»¬çæå¡æ¡æ¬¾ä¸è½½æä½¿ç¨æ¨¡åæ¶ï¼å¼åèåºä¸å¶æ¯æçæ¨¡åå¢éåä½ï¼ç¡®ä¿æç¨æ¨¡åç¬¦åç¸å³è¡ä¸ååºç¨åºæ¯è¦æ±ï¼å¹¶é¢é²äº§åè¢«è¯¯ç¨çé£é©ã

å¦éæ¥åå®å¨æ¼æ´æ NVIDIA AI ç¸å³é®é¢ï¼è¯·è®¿é®å®æ¹æ¸ éã

ç«å³å¼å§ä½¿ç¨ cuDNN

ä¸è½½ cuDNN åºä¸è½½ cuDNN åç«¯

( GitHub)