绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
使用TensorRT为深度学习模型推理加速
Tensor RT 2019/07/17 19:00:00
课程讲师
刘士君 NVIDIA 高级解决方案架构师

毕业于清华大学,曾担任过微软云平台布道师、及人工智能解决方案工程师,有丰富的物联网、大数据、深度学习的项目开发经验。

刘士君
NVIDIA 高级解决方案架构师

毕业于清华大学,曾担任过微软云平台布道师、及人工智能解决方案工程师,有丰富的物联网、大数据、深度学习的项目开发经验。

课程提纲
  • 影响AI推理性能的因素
  • TensorRT加速神经网络推理原理
  • 将网络模型导入TensorRT的不同方法
  • 使用TensorRT为语音识别模型DeepSpeech 2推理加速
课程简介

一个深度神经网络从构建到实际应用会经过训练(Training)和推理(Inference)两个阶段。其中,神经网络模型的训练需要大量的数据和算力提供支持,并且在训练的过程中需要不断的对模型进行调优和多次重复的计算,以使得模型具备良好的鲁棒性;而推理则是向训练好的模型输入新的数据,从而对某一事物做出尽可能准确的判断和猜测,跟模型的训练效果密不可分。

推理一般是在特定场景、有限算力的情况下进行的,可能是在云端数据中心,也可能是在智能手机、智能音箱等终端设备上,因此会对算力和时延具有很高的要求。如果将训练好的神经网络直接部署到推理端,很有可能出现算力不足无法运行,或者推理时间较长等问题,因此我们需要对训练好的神经网络进行一定的优化。

神经网络模型的优化可以从不同的维度来进行,比如模型压缩、不同网络层合并、稀疏化、采用低精度数据类型,甚至还需要根据硬件特性对网络模型进行一定的优化等。但是,通常神经网络模型的规模都比较大,手动调整显然是不现实的,那么如何快速有效的解决这个问题呢?

如果你还没有具体的解决方案,NVIDIA TensorRT或许是一个不错的选择。TensorRT是一种高性能神经网络推理引擎,主要是用来在部署神经网络到推理端之前,对神经网络进行优化加速,来提高程序的吞吐量以及降低延迟。TensorRT会从权重参数类型、动态Tensor Memory、多流执行、内核调用、网络层融合等不同维度对神经网络模型进行优化,并且支持Caffe、TensorFlow、ONNX等主流的深度学习框架。

尽管如此,在实际开发过程中我们还是会遇到为特定需求而自定义的网络层,超出了TensorRT的支持范围,这时候该怎么办呢?别担心,可以试试TensorRT的高级特性——插件(Plugin),开发者可以通过自定义插件的形式告诉TensorRT需要做什么操作,然后插入到神经网络的合适位置即可获得TensorRT的支持。

看了这么多,你是不是已经心动了呢?别着急,智东西公开课推出AI推理公开课NVIDIA专场,帮你解决AI推理优化难题。本次AI推理公开课NVIDIA专场共两讲,将完全由NVIDIA高级解决方案架构师刘士君进行讲解。讲解采取的是PPT课件+语音的直播讲解形式。

7月17日晚7点,第一讲将开讲,主题为《使用TensorRT为深度学习模型推理加速》,刘士君老师将从影响AI推理性能的因素、TensorRT的基本加速原理、网络导入方法到具体的语音识别模型推理加速案例进行深入讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...