NVIDIA TensorRT

NVIDIAÂ® TensorRTâ¢ æ¯ä¸ä¸ªå·¥å·çæç³»ç»ï¼å¯ä¾å¼åèå®ç°é«æ§è½æ·±åº¦å¦ä¹ æ¨çãTensorRT åæ¬æ¨çç¼è¯å¨ãè¿è¡æ¶åæ¨¡åä¼åï¼å¯ä¸ºçäº§åºç¨æä¾ä½å»¶è¿åé«ååéãTensorRT çæç³»ç»åæ¬ TensorRT ç¼è¯å¨ãTensorRT-LLMãTensorRT Model Optimizer å TensorRT Cloudã

ç«å³ä¸è½½ ææ¡£
è®ºå

TensorRT çå·¥ä½åç

ä¸ä»ä½¿ç¨ CPU çå¹³å°ç¸æ¯ï¼æ¨çéåº¦æé«äº 36 åã

éè¯» TensorRT å¥é¨åå®¢

äºè§£å¦ä½åºç¨ TensorRT ä¼åå¹¶å° PyTorch æ¨¡åé¨ç½²å° GPUã

éè¯»åå®¢

è§ç GTC å¤§ä¼ä¸ç TensorRT ç¹æä¼è®®

æ¥ç GTC å¨çº¿ç è®¨ä¼ç²¾éåè¡¨ï¼è¯¦ç»äºè§£ TensorRT åå¶åè½ã

è§çä¼è®®

è·åå®æ´çå¼åèæå

è¯·åéæ¤å¼åèå API åèåæ¥æåï¼äºè§£å¦ä½å¼å§ä½¿ç¨ TensorRTã

éè¯»æå

æµè§ AI åºç¡æ¶æåæ§è½

æ¥ççµåä¹¦

ä¸»è¦ç¹æ§

å¤§è¯è¨æ¨¡åæ¨ç

NVIDIA TensorRT-LLMÂ æ¯ä¸ä¸ªå¼æºåºï¼å¯éè¿ç®åç Python API å¨ NVIDIA AI å¹³å°ä¸å éåä¼åå¤§è¯è¨æ¨¡å (LLM) çæ¨çæ§è½ã

å¼åèå¯å¨æ°æ®ä¸å¿æå·¥ä½ç«ä¸ç NVIDIA GPU ä¸å é LLM æ§è½ï¼åæ¬åç Windows ä¸ç NVIDIA RTXâ¢ ç³»ç» â å·æç¸åçæ ç¼å·¥ä½æµã

å¨äºç«¯ç¼è¯

NVIDIA TensorRT Cloud æ¯ä¸é¡¹ä»¥å¼åèä¸ºä¸å¿çæå¡ï¼å¯éå¯¹ç»å®çéå¶æ¡ä»¶å KPI çæè¶ä¼åå¼æãé´äº LLM åæ¨çååé/ å»¶è¿è¦æ±ï¼å¼åèå¯ä»¥ä½¿ç¨å½ä»¤è¡çé¢è°ç¨ TensorRT Cloud æå¡ï¼ä¸ºç®æ GPU è¶ä¼å TensorRT-LLM å¼æãäºæå¡å°èªå¨ç¡®å®æ»¡è¶³è¦æ±çæä½³å¼æéç½®ãå¼åèè¿å¯ä»¥å¨åç§ NVIDIA RTXãGeForceãQuadroÂ® æ TeslaÂ® çº§ GPU ä¸ä½¿ç¨ ONNX æ¨¡åæå»ºç»ä¼åç TensorRT å¼æãTensorRT Cloud é¢åç¹å®åä½ä¼ä¼´æä¾æéè®¿é®æéãç³è¯·éè¦è·å¾æ¹åæè½è®¿é®ã

ä¼åç¥ç»ç½ç»

NVIDIA TensorRT æ¨¡åä¼åå¨Â æ¯åè¿æ¨¡åä¼åææ¯ (åæ¬éåãç¨çåè¸é¦) çç»ä¸åºãå®ä¸º TensorRT-LLM å TensorRT çä¸æ¸¸é¨ç½²æ¡æ¶åç¼©æ·±åº¦å¦ä¹ æ¨¡åï¼ä»¥é«æä¼å NVIDIA GPU ä¸çæ¨çã

ä¸»è¦æ¡æ¶éæ

TensorRT ç´æ¥éæå°Â PyTorchä»¥å Hugging Face åªéä¸è¡ä»£ç å³å¯å°æ¨çéåº¦æé« 6 åãTensorRT æä¾äºä¸ä¸ª ONNX è§£æå¨æ¥å¯¼å¥ONNXÂ å°çé¨æ¡æ¶ä¸çæ¨¡åå¯¼å¥ TensorRTãMATLABÂ éè¿ GPU Coder ä¸ TensorRT éæï¼èªå¨ä¸º NVIDIA Jetsonâ¢ãNVIDIA DRIVEÂ® åæ°æ®ä¸å¿å¹³å°çæé«æ§è½æ¨çå¼æã

ä½¿ç¨ Triton è¿è¡é¨ç½²ãè¿è¡åæ©å±

å éæ¯ä¸ªæ¨çå¹³å°

TensorRT å¯ä»¥éå¯¹è¾¹ç¼ãç¬è®°æ¬çµèåå°å¼æºä»¥åæ°æ®ä¸å¿çåºç¨ä¼åæ¨¡åãå®ä¸ºä¸»è¦ç NVIDIA è§£å³æ¹æ¡ (ä¾å¦ NVIDIA TAOãNVIDIA DRIVEãNVIDIA Claraâ¢ å NVIDIA JetPackâ¢) æä¾æ¯æï¼å¹¶ä¸ç¹å®åºç¨ç SDK (ä¾å¦ NVIDIA NIMâ¢ãNVIDIA DeepStreamãNVIDIAÂ® RivaãNVIDIA Merlinâ¢ãNVIDIA Maxineâ¢ãNVIDIA Morpheus å NVIDIA Broadcast Engine) éæã

TensorRT ä¸ºå¼åèæä¾äºå¨çäº§ç¯å¢ä¸é¨ç½²æºè½è§é¢åæãè¯é³ AIãæ¨èç³»ç»ãè§é¢ä¼è®®ãåºäº AI çç½ç»å®å¨åæµå¼ä¼ è¾åºç¨çç»ä¸è·¯å¾ã

å¼å§ä½¿ç¨ TensorRT

ä¸è½½ TensorRT

ä¸è½½ SDK

ä¸è½½å®¹å¨

ææ¡£

ä¸è½½ TRT-LLM

TensorRT-LLM å¯å¨Â GitHubÂ ä¸è½½ã

ä¸è½½ (GitHub)

ææ¡£

ä¸è½½ TensorRT Model Optimizer

TensorRT Model Optimizer (æ¨¡åä¼åå¨) å¯å¨ NVIDIA PyPI ä¸åè´¹ä½¿ç¨ï¼å¹¶å¨ GitHub ä¸æä¾ç¤ºä¾åæ¹æ³ã

ä¸è½½ (GitHub)

ææ¡£

å¼å§ä½¿ç¨ TensorRT æ¡æ¶

TensorRT æ¡æ¶å° TensorRT ç¼è¯å¨åè½æ·»å å° PyTorch çæ¡æ¶ä¸ã

ä¸è½½ ONNX å Torch-TensorRT

ONYXï¼

ææ¡£

Torch-TensorRTï¼

ä¸è½½å®¹å¨

ææ¡£

ä½éªæ£æï¼ä½¿ç¨ TensorRT è¿è¡ Pythonic æ¨ç

ææ¡£

ç¤ºä¾

è´¡ç®

é¨ç½²

ç³è¯· 90 å¤©è®¸å¯è¯

åºè²çæ¨çæ§è½

å¨è¡ä¸æ åç MLPerf æ¨çåºåæµè¯ä¸ï¼NVIDIA å¨æææ¨çæ§è½æµè¯ä¸åæèäº TensorRTãTensorRT-LLM å¯å éç¨äºçæå¼ AI çææ°å¤§è¯è¨æ¨¡åï¼æä¾é«è¾¾ 8 åçæ§è½æåã5.3 åç TCO æåä»¥åè¿ 6 åçè½èéä½ã

æ¥çææåºåæµè¯

GPT-J 6B æ¨çæ§è½æå 8 å

TensorRT-LLM on H100 has 8X increase in GPT-J 6B inference performance

Llama2 æ¨çæ§è½æå 4 å

TensorRT-LLM on H100 has 4X Higher Llama2 Inference Performance

æ»ä½æ¥æææ¬

è¶ä½è¶å¥½

TensorRT-LLM has lower total cost of ownership than GPT-J 6B and Llama 2 70B

è½æºä½¿ç¨

è¶ä½è¶å¥½

TensorRT-LLM has lower energy use than GPT-J 6B and Llama 2 70B

å¥é¨å¥ä»¶

TensorRT åå¦èæå

æ¥çå¿«éå¥é¨æå
æ¥çå¿«éå¥é¨ç¬è®°æ¬
éè¯»åå®¢ï¼ä½¿ç¨ NVIDIA TensorRT å éæ·±åº¦å¦ä¹ æ¨ç
éè¯»åå®¢ï¼ä½¿ç¨ TensorRT å Triton ä¼ååæå¡æ¨¡å
è§çè§é¢ï¼å¼å§ä½¿ç¨ NVIDIA TensorRT

TensorRT-LLM æ°ææå

æ¥çå¿«éå¥é¨æå
æ¥çå¿«éå¥é¨ç¬è®°æ¬
éè¯»åå®¢ï¼ä½¿ç¨ NVIDIA TensorRT å éæ·±åº¦å¦ä¹ æ¨ç
éè¯»åå®¢ï¼ä½¿ç¨ TensorRT å Triton ä¼ååæå¡æ¨¡å
è§çè§é¢ï¼å¼å§ä½¿ç¨ NVIDIA TensorRT

TensorRT æ¨¡åä¼åå¨æ°ææå

Torch-TensorRT åå¦èæå

è§çè§é¢ï¼å¼å§ä½¿ç¨ NVIDIA Torch-TensorRT
éè¯»åå®¢ï¼å¨ PyTorch ä¸å°æ¨çéåº¦æåé«è¾¾ 6 å

TensorRT Pythonic åç«¯æ°ææåï¼Tripy

TensorRT çæç³»ç»

å¹¿æ³åºç¨äºåè¡åä¸

NVIDIA TensorRT is widely adopted by top companies across industries

æ´å¤èµæº

æ¢ç´¢ç¤¾åº

è·åå¹è®åè®¤è¯

éè¯»çé¨æ¡ä¾ååå®¢

éå¾· AI

ç«å³ä¸è½½

NVIDIA TensorRT

TensorRT çå·¥ä½åç

é è¯» TensorRT å ¥é¨åå®¢

è§ç GTC å¤§ä¼ä¸ç TensorRT ç¹æ­ä¼è®®

è·åå®æ´çå¼åè æå

æµè§ AI åºç¡æ¶æåæ§è½

ä¸»è¦ç¹æ§

å¤§è¯­è¨æ¨¡åæ¨ç

å¨äºç«¯ç¼è¯

ä¼åç¥ç»ç½ç»

ä¸»è¦æ¡æ¶éæ

ä½¿ç¨ Triton è¿è¡é¨ç½²ãè¿è¡åæ©å±

å éæ¯ä¸ªæ¨çå¹³å°

å¼å§ä½¿ç¨ TensorRT

ä¸è½½ TensorRT

ä¸è½½ TRT-LLM

ä¸è½½ TensorRT Model Optimizer

å¼å§ä½¿ç¨ TensorRT æ¡æ¶

ä¸è½½ ONNX å Torch-TensorRT

ä½éªæ£æï¼ä½¿ç¨ TensorRT è¿è¡ Pythonic æ¨ç

é¨ç½²

åºè²çæ¨çæ§è½

GPT-J 6B æ¨çæ§è½æå 8 å

Llama2 æ¨çæ§è½æå 4 å

æ»ä½æ¥æææ¬

è½æºä½¿ç¨

å ¥é¨å¥ä»¶

TensorRT åå­¦è æå

TensorRT-LLM æ°ææå

TensorRT æ¨¡åä¼åå¨æ°ææå

Torch-TensorRT åå­¦è æå

TensorRT Pythonic åç«¯æ°ææåï¼Tripy

TensorRT çæç³»ç»

æ´å¤èµæº

æ¢ç´¢ç¤¾åº

è·åå¹è®­åè®¤è¯

é è¯»ç­é¨æ¡ä¾ååå®¢

éå¾· AI

TensorRT çå·¥ä½åç

éè¯» TensorRT å¥é¨åå®¢

è§ç GTC å¤§ä¼ä¸ç TensorRT ç¹æä¼è®®

è·åå®æ´çå¼åèæå

æµè§ AI åºç¡æ¶æåæ§è½

ä¸»è¦ç¹æ§

å¤§è¯è¨æ¨¡åæ¨ç

å¨äºç«¯ç¼è¯

ä¼åç¥ç»ç½ç»

ä¸»è¦æ¡æ¶éæ

ä½¿ç¨ Triton è¿è¡é¨ç½²ãè¿è¡åæ©å±

å éæ¯ä¸ªæ¨çå¹³å°

å¼å§ä½¿ç¨ TensorRT

ä¸è½½ TensorRT

ä¸è½½ TRT-LLM

ä¸è½½ TensorRT Model Optimizer

å¼å§ä½¿ç¨ TensorRT æ¡æ¶

ä¸è½½ ONNX å Torch-TensorRT

ä½éªæ£æï¼ä½¿ç¨ TensorRT è¿è¡ Pythonic æ¨ç

é¨ç½²

åºè²çæ¨çæ§è½

GPT-J 6B æ¨çæ§è½æå 8 å

Llama2 æ¨çæ§è½æå 4 å

æ»ä½æ¥æææ¬

è½æºä½¿ç¨

å¥é¨å¥ä»¶

TensorRT åå¦èæå

TensorRT-LLM æ°ææå

TensorRT æ¨¡åä¼åå¨æ°ææå

Torch-TensorRT åå¦èæå

TensorRT Pythonic åç«¯æ°ææåï¼Tripy

TensorRT çæç³»ç»

æ´å¤èµæº

æ¢ç´¢ç¤¾åº

è·åå¹è®åè®¤è¯

éè¯»çé¨æ¡ä¾ååå®¢

éå¾· AI