订阅成功
扫码关注智东西Plus
接受订阅信息更新提醒
基于DL的中文语音识别系统ASRT开源

2月11日消息,一套基于深度学习实现的语音识别系统ASRT(全称Auto Speech Recognition Tool),由AI柠檬博主开发并在GitHub上开源(GPL 3.0 协议)。本项目声学模型通过采用卷积神经网络和连接性时序分类方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。基于该模型,作者在Windows平台上实现了一个基于ASRT的语音识别应用软件,同样已在GitHub上开源。

订阅
订阅语音识别最新消息
相关快讯
  • 10月17日 18:14
    语音识别专家Daniel Povey将入职小米

    10月17日消息,据AI科技大本营报道,语音识别界专家Daniel Povey发布推特,宣布自己2019年末将要入职小米,目前正在签订合同阶段,入职后,他将带领一支团队研发下一代PyTorch-y Kaldi。小米公司内部知情人士确认了该消息,表示还在走最后流程,具体职位信息不便透露,但很快就会对外公布官方消息。

    据悉,Daniel Povey教授此前因为与霍普金斯校内的抗议学生发生冲突,因而被霍普金斯校方解雇。被解雇后,Daniel很快收到了 Facebook的offer,但因不满公司对其个人进行的独立调查,随后表示将来中国公司任职。

  • 09月17日 19:26
    微软推新研究 改进语音识别建模技术

    9月17日消息,在即将出版的Interspeech 2019年论文Layer Trajectory BLSTM中,微软AI研究人员Eric Sun,李金钰和Yifan Gong通过重新设计语音识别建模单元,成功推进了语音识别建模技术。具体来说,该研究改进了当前的语音识别技术模型,即双向LSTM(BLSTM),通过添加层轨迹来接管传感器(目标)分类,使BLSTM可以专注于时间建模。

    来源:机器之心
  • 08月19日 19:14
    谷歌开源Android语音识别转录工具

    8月19日消息,近日,谷歌开源了Android语音识别转录工具——Live Transcribe的语音引擎,源代码现在可以在GitHub上获得。谷歌希望通过这一方式,能够让任何开发者为长篇对话提供字幕,进一步为安卓语音识别转录工具的实时转录功能提供动力。

    来源:智东西
  • 07月25日 11:19
    探境科技AI语音识别芯片音旋风611量产

    7月25日消息,近日,探境科技宣布通用型AI语音识别芯片音旋风611量产,进入批量供货。这款芯片适用于各种需要语音进行控制的应用场景。据探境科技称,该款芯片内嵌领先的NPU架构,配合单麦克风即可实现5-10m远距离的语音识别,不需要依赖云和网络,可在本地完成推理运算。

    来源:智东西
  • 06月12日 10:30
    Facebook推出一种自动语音识别新方法

    6月12日消息,Facebook近日介绍了一种自动语音识别的新方法,它共同训练声学和语言模型。这些模型通常是单独训练的,然后使用波束搜索解码器在推理中组合。通过在训练时利用语言模型,这种称为可微分束搜索解码器(DBD)的端到端技术简化了声学模型。DBD 使整个系统更轻量级,整个推理过程更加高效。

    来源:智东西
  • 04月02日 11:44
    Alexa研究人员推双麦克语音识别系统

    4月2日消息,据外媒报道,Alexa的研究人员开发了一种比7麦克风阵列更好的双麦克风阵列语音识别系统。研究人员称,他们已经开发出一种新型声学建模框架,在实验中,该模型比7麦克风系统语音识别错误率降低了9.5%。他们在两篇论文(“Frequency Domain Multi-Channel Acoustic Modeling for Distant Speech Recognition,” “Multi-Geometry Spatial Acoustic Modeling for Distant Speech Recognition”)中描述了该技术,论文将于下月的声学语音和信号处理国际会议上发表。

    来源:智东西
  • 18年12月25日 06:56
    Facebook开源全卷积语音识别工具包

    近日,Facebook AI研究院(FAIR)的语音团队发表论文《wav2letter++: The Fastest Open-source Speech Recognition System》,开源首个全卷积语音识别工具包wav2letter++。该工具包完全由C++写成,使用ArrayFire张量库和flashlight机器学习库。研究人员将wav2letter++和其他主流开源语音识别系统进行比较。在某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1~64个GPU,训练时间是线性变化的。

    来源:机器之心
  • 18年10月29日 14:35
    云从科技宣布刷新语音识别世界纪录

    智东西10月29日消息,云从科技宣布在语音识别技术上取得突破,在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,错词率(Worderrorrate,WER)降到了2.97%,将Librispeech的WER指标提升了25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原有记录。据了解,云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段,此次语音识别突破属于智能感知中的一环。

    来源:智东西
  • 18年09月08日 06:58
    科大讯飞获国际语音识别大赛4项冠军

    9月7日,国际多通道语音分离和识别大赛(CHiME)组委会揭晓了最新一届CHiME-5的比赛结果,科大讯飞团队包揽大赛四个项目的冠军,包括单麦克风阵列任务、分布式麦克风阵列任务(Rank A)和两种麦克风阵列对应的两个端到端的语音识别任务(Rank B)。

    CHiME始办于2011年,由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等发起,希望针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案。

    来源:科大讯飞
  • 18年06月08日 06:07
    阿里开源语音识别模型 被谷歌论文引用

    近日,阿里巴巴达摩院机器智能实验室语音识别团队,推出了新一代语音识别模型——DFSMN,不仅被谷歌等国外巨头在论文中重点引用,更将全球语音识别准确率纪录提高至96.04%(基于世界最大的免费语音识别数据库LibriSpeech)。该团队同时宣布,即日起向全世界企业与个人开源DFSMN模型,使全球开发者都能共享这一成果,全球语音识别准确率也有望总体提高10%。

    来源:智东西
加载更多 ···