NVIDIA TensorRT
NVIDIA® TensorRT⢠æ¯ä¸ä¸ªå·¥å ·çæç³»ç»ï¼å¯ä¾å¼åè å®ç°é«æ§è½æ·±åº¦å¦ä¹ æ¨çãTensorRT å æ¬æ¨çç¼è¯å¨ãè¿è¡æ¶å模åä¼åï¼å¯ä¸ºç产åºç¨æä¾ä½å»¶è¿åé«ååéãTensorRT çæç³»ç»å æ¬ TensorRT ç¼è¯å¨ãTensorRT-LLMãTensorRT Model Optimizer å TensorRT Cloudã
TensorRT çå·¥ä½åç
ä¸ä»
ä½¿ç¨ CPU çå¹³å°ç¸æ¯ï¼æ¨çé度æé«äº 36 åã
TensorRT åºäº NVIDIA® CUDA® å¹¶è¡ç¼ç¨æ¨¡åæå»ºï¼å
å«ç¨äºä¼å卿æä¸»è¦æ¡æ¶ä¸è®ç»çç¥ç»ç½ç»æ¨¡åçåºï¼å¯¹è¿äºæ¨¡åè¿è¡é«ç²¾åº¦æ ¡æ£ä»¥è·å¾è¾ä½ç精度ï¼å¹¶å°å
¶é¨ç½²å°è¶
å¤§è§æ¨¡æ°æ®ä¸å¿ãå·¥ä½ç«ãç¬è®°æ¬çµèåè¾¹ç¼è®¾å¤ãTensorRT 使ç¨éåãå±åå¼ éèå以åå
æ ¸è°ä¼çææ¯æ¥ä¼åæ¨çã
TensorRT 为使ç¨éåæç¥è®ç»ææ¯è®ç»ç模åæä¾è®ç»åéå忝æï¼ä»¥ä¼å深度å¦ä¹ æ¨çç FP8ãFP4 åæ´æ°æ ¼å¼ãæ¨ç精度çéä½å¯æ¾èéä½å»¶è¿ï¼æ»¡è¶³è®¸å¤å®æ¶æå¡ä»¥åèªä¸»ååµå
¥å¼åºç¨ç¨åºçéæ±ã
é
读 TensorRT å
¥é¨å客
äºè§£å¦ä½åºç¨ TensorRT ä¼åå¹¶å° PyTorch 模åé¨ç½²å° GPUã
è§ç GTC 大ä¼ä¸ç TensorRT ç¹æä¼è®®
æ¥ç GTC å¨çº¿ç 讨ä¼ç²¾éå表ï¼è¯¦ç»äºè§£ TensorRT åå
¶åè½ã
è·å宿´çå¼åè
æå
请åé
æ¤å¼åè
å API åè忥æåï¼äºè§£å¦ä½å¼å§ä½¿ç¨ TensorRTã
æµè§ AI åºç¡æ¶æåæ§è½
é
读æä»¬ççµå书ï¼äºè§£å¦ä½é使¯ä¸ªä»¤ççææ¬ï¼å¹¶å
åå©ç¨æ¨ç AI 模åã
主è¦ç¹æ§
大è¯è¨æ¨¡åæ¨ç
NVIDIA TensorRT-LLM æ¯ä¸ä¸ªå¼æºåºï¼å¯éè¿ç®åç Python API å¨ NVIDIA AI å¹³å°ä¸å éåä¼å大è¯è¨æ¨¡å (LLM) çæ¨çæ§è½ã
å¼åè
å¯å¨æ°æ®ä¸å¿æå·¥ä½ç«ä¸ç NVIDIA GPU ä¸å é LLM æ§è½ï¼å
æ¬åç Windows ä¸ç NVIDIA RTXâ¢ ç³»ç» â å
·æç¸åçæ ç¼å·¥ä½æµã
å¨äºç«¯ç¼è¯
NVIDIA TensorRT Cloud æ¯ä¸é¡¹ä»¥å¼åè 为ä¸å¿çæå¡ï¼å¯é对ç»å®çéå¶æ¡ä»¶å KPI çæè¶ ä¼å弿ãé´äº LLM 忍çååé/ å»¶è¿è¦æ±ï¼å¼åè å¯ä»¥ä½¿ç¨å½ä»¤è¡çé¢è°ç¨ TensorRT Cloud æå¡ï¼ä¸ºç®æ GPU è¶ ä¼å TensorRT-LLM 弿ãäºæå¡å°èªå¨ç¡®å®æ»¡è¶³è¦æ±çæä½³å¼æé ç½®ãå¼åè è¿å¯ä»¥å¨åç§ NVIDIA RTXãGeForceãQuadro® æ Tesla® 级 GPU ä¸ä½¿ç¨ ONNX 模åæå»ºç»ä¼åç TensorRT 弿ãTensorRT Cloud é¢åç¹å®åä½ä¼ä¼´æä¾æéè®¿é®æéãç³è¯·éè¦è·å¾æ¹åæè½è®¿é®ã
ä¼åç¥ç»ç½ç»
NVIDIA TensorRT 模åä¼åå¨Â æ¯å è¿æ¨¡åä¼åææ¯ (å æ¬éåãç¨çåè¸é¦) çç»ä¸åºãå®ä¸º TensorRT-LLM å TensorRT ç䏿¸¸é¨ç½²æ¡æ¶å缩深度å¦ä¹ 模åï¼ä»¥é«æä¼å NVIDIA GPU ä¸çæ¨çã
ä¸»è¦æ¡æ¶éæ
TensorRT ç´æ¥éæå°Â PyTorch以å Hugging Face åªéä¸è¡ä»£ç å³å¯å°æ¨çé度æé« 6 åãTensorRT æä¾äºä¸ä¸ª ONNX è§£æå¨æ¥å¯¼å ¥ONNX å°ç鍿¡æ¶ä¸ç模åå¯¼å ¥ TensorRTãMATLAB éè¿ GPU Coder ä¸ TensorRT éæï¼èªå¨ä¸º NVIDIA Jetsonâ¢ãNVIDIA DRIVE® åæ°æ®ä¸å¿å¹³å°çæé«æ§è½æ¨ç弿ã
ä½¿ç¨ Triton è¿è¡é¨ç½²ãè¿è¡åæ©å±
ä½¿ç¨ TensorRT ä¼åçæ¨¡åè¿è¡é¨ç½²ãè¿è¡åæ©å±NVIDIA Triton* å° TensorRT ä½ä¸ºåç«¯çæ¨çæå¡è½¯ä»¶ãä½¿ç¨ Triton çä¼å¿å æ¬å¨ææ¹å¤çã并忍¡åæ§è¡ã模åéæä»¥åæµå¼ä¼ è¾é³é¢åè§é¢è¾å ¥çé«ååéã
å éæ¯ä¸ªæ¨çå¹³å°
TensorRT å¯ä»¥é对边ç¼ãç¬è®°æ¬çµèåå°å¼æºä»¥åæ°æ®ä¸å¿çåºç¨ä¼å模åãå®ä¸ºä¸»è¦ç NVIDIA è§£å³æ¹æ¡ (ä¾å¦ NVIDIA TAOãNVIDIA DRIVEãNVIDIA Clara⢠å NVIDIA JetPackâ¢) æä¾æ¯æï¼å¹¶ä¸ç¹å®åºç¨ç SDK (ä¾å¦ NVIDIA NIMâ¢ãNVIDIA DeepStreamãNVIDIA® RivaãNVIDIA Merlinâ¢ãNVIDIA Maxineâ¢ãNVIDIA Morpheus å NVIDIA Broadcast Engine) éæã
TensorRT 为å¼åè
æä¾äºå¨ç产ç¯å¢ä¸é¨ç½²æºè½è§é¢åæãè¯é³ AIãæ¨èç³»ç»ãè§é¢ä¼è®®ãåºäº AI çç½ç»å®å
¨åæµå¼ä¼ è¾åºç¨çç»ä¸è·¯å¾ã
å¼å§ä½¿ç¨ TensorRT
TensorRT æ¯ä¸ä¸ªç¨äºé«æ§è½æ·±åº¦å¦ä¹ æ¨çç API çæç³»ç»ã
ä¸è½½ TensorRT
TensorRT æ¨çåºæä¾éç¨ AI ç¼è¯å¨åæ¨çè¿è¡æ¶ï¼å¯ä¸ºç产åºç¨æä¾ä½å»¶è¿åé«ååéã
ä¸è½½ TensorRT Model Optimizer
TensorRT Model Optimizer (模åä¼åå¨) å¯å¨ NVIDIA PyPI ä¸å 费使ç¨ï¼å¹¶å¨ GitHub 䏿ä¾ç¤ºä¾åæ¹æ³ã
å¼å§ä½¿ç¨ TensorRT æ¡æ¶
TensorRT æ¡æ¶å° TensorRT ç¼è¯å¨åè½æ·»å å° PyTorch çæ¡æ¶ä¸ã
ä¸è½½ ONNX å Torch-TensorRT
TensorRT æ¨çåºæä¾éç¨ AI ç¼è¯å¨åæ¨çè¿è¡æ¶ï¼å¯ä¸ºç产åºç¨æä¾ä½å»¶è¿åé«ååéã
ONYXï¼
Torch-TensorRTï¼
ä½éªæ£æï¼ä½¿ç¨ TensorRT è¿è¡ Pythonic æ¨ç
éè¿ Tripy ä½éªé«æ§è½æ¨çååºè²çæç¨æ§ãéè¿ç´è§ç APIã峿¶æ¨¡å¼çè½»æ¾è°è¯ãæ¸ æ°çéè¯¯æ¶æ¯å䏿µçææ¡£æ¥ç®å深度å¦ä¹ é¨ç½²ã
é¨ç½²
è·åå
费许å¯è¯ï¼ä½¿ç¨ç°æåºç¡æ¶æå¨ç产ç¯å¢ä¸è¯ç¨ NVIDIA AI Enterprise 90 天ã
åºè²çæ¨çæ§è½
å¨è¡ä¸æ åç MLPerf æ¨çåºåæµè¯ä¸ï¼NVIDIA å¨æææ¨çæ§è½æµè¯ä¸åæèäº TensorRTãTensorRT-LLM å¯å éç¨äºçæå¼ AI çææ°å¤§è¯è¨æ¨¡åï¼æä¾é«è¾¾ 8 åçæ§è½æåã5.3 åç TCO æå以åè¿ 6 åçè½èéä½ã
GPT-J 6B æ¨çæ§è½æå 8 å
Llama2 æ¨çæ§è½æå 4 å
æ»ä½æ¥æææ¬
è½æºä½¿ç¨
å ¥é¨å¥ä»¶
TensorRT åå¦è
æå
é 读å客ï¼ä½¿ç¨ NVIDIA TensorRT å éæ·±åº¦å¦ä¹ æ¨ç
é 读å客ï¼ä½¿ç¨ TensorRT å Triton ä¼ååæå¡æ¨¡å
è§çè§é¢ï¼å¼å§ä½¿ç¨ NVIDIA TensorRT
TensorRT-LLM æ°ææå
é 读å客ï¼ä½¿ç¨ NVIDIA TensorRT å éæ·±åº¦å¦ä¹ æ¨ç
é 读å客ï¼ä½¿ç¨ TensorRT å Triton ä¼ååæå¡æ¨¡å
è§çè§é¢ï¼å¼å§ä½¿ç¨ NVIDIA TensorRT
TensorRT 模åä¼å卿°ææå
Torch-TensorRT åå¦è
æå
è§çè§é¢ï¼å¼å§ä½¿ç¨ NVIDIA Torch-TensorRT
é 读å客ï¼å¨ PyTorch ä¸å°æ¨çé度æåé«è¾¾ 6 å
ä¸è½½ Notebookï¼ä½¿ç¨ SSD è¿è¡ç©ä½æ£æµ( Jupyter Notebook)
TensorRT Pythonic åç«¯æ°ææåï¼Tripy
TensorRT çæç³»ç»
广æ³åºç¨äºåè¡åä¸

æ´å¤èµæº
éå¾· AI
NVIDIA 认为å¯ä¿¡ AI æ¯ä¸é¡¹å
±åè´£ä»»ï¼æä»¬å·²å¶å®ç¸å
³æ¿çåå®è·µï¼ä»¥æ¯æå¼ååç§ AI åºç¨ãæ ¹æ®æä»¬çæå¡æ¡æ¬¾ä¸è½½æä½¿ç¨æ¶ï¼å¼åè
åºä¸å
¶æ¯æç模åå¢éåä½ï¼ç¡®ä¿æ¤æ¨¡å满足ç¸å
³è¡ä¸åç¨ä¾çè¦æ±ï¼å¹¶è§£å³ä¸å¯é¢è§çäº§åæ»¥ç¨é®é¢ã
æå
³æ¤æ¨¡åéå¾·å ç´ çæ´å¤è¯¦ç»ä¿¡æ¯ï¼è¯·åé
模åå¡ å¯è§£éæ§ãåå·®ãå®å
¨æ§åéç§åå¡ã请å¨è¿éæ¥åå®å
¨æ¼æ´æ NVIDIA AI é®é¢ã
ç«å³å¼å§ä½¿ç¨ TensorRTï¼å¹¶ä½¿ç¨åéçæ¨çå·¥å ·ä¸ºä»»ä½å¹³å°ä¸çä»»ä½åºç¨å¼å AIã
