绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智东西公开课服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智东西公开课
大规模音频理解与合成解决方案及应用
高性能计算与 AI 2020/03/12 19:00:00
课程讲师
司徒文畅 字节跳动智能语音方向工程负责人

2011年毕业于清华大学电子系,超过5年语音工程实践经验,现任字节跳动人工智能实验室智能语音方向工程负责人、服务架构师,致力于打造工业级智能语音解决方案以及极致语音应用体验。

司徒文畅
字节跳动智能语音方向工程负责人

2011年毕业于清华大学电子系,超过5年语音工程实践经验,现任字节跳动人工智能实验室智能语音方向工程负责人、服务架构师,致力于打造工业级智能语音解决方案以及极致语音应用体验。

课程提纲
  • 音频理解与合成的关键技术及应用
  • 音频理解与合成分布式训练平台及加速方案
  • 音频理解与合成在线推理框架及应用加速
课程简介

人工智能发展到现在,大家对语音技术已经不陌生了。其中,音频理解与合成在我们日常生活中具有广泛的应用,比如视频字幕生成、视频配音、有声新闻、有声小说等,极大的丰富了我们的生活。

音频理解是指通过语音识别、事件检测、语种识别、声纹识别、关键词检测等技术从音频数据中解析出多维度信息(音频的类型、内容等);音频合成则是包括TTS、音色转换等技术,能从文本或者原始语音生成不同风格的音频。借助这两种技术,音频内容创作人员可以实现一键生成字幕和一键配音,极大提升效率。

伴随短视频和音频类应用兴起,用户请求量、音频数据正呈几何级别增长,为大规模数据模型训练以及高并发低延迟的推理带来诸多挑战:模型训练的速度、规模影响模型效果迭代的效率,在线推理的性能则直接影响用户的体验。那么,大规模音频理解和合成的训练和推理应如何构建和加速?

字节跳动人工智能实验室在训练和推理中部署了大量NVIDIA Tesla系列GPU,包含面向AI训练的V100和面向推理加速的P4、T4等,为大规模音频理解与合成的训练和推理提供强有力的支撑,使其可以广泛应用于抖音、今日头条等大流量场景。

3月12日,智东西公开课推出语音理解与合成公开课NVIDIA&字节跳动联合专场,并邀请到字节跳动智能语音方向工程负责人司徒文畅主讲,主题为《大规模音频理解与合成解决方案及应用》。

司徒文畅老师将从音频理解与合成的关键技术、应用、分布式训练和在线推理加速等方面为我们带来系统讲解。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...