订阅成功
扫码关注智东西Plus
接受订阅信息更新提醒
基于DL的中文语音识别系统ASRT开源

2月11日消息,一套基于深度学习实现的语音识别系统ASRT(全称Auto Speech Recognition Tool),由AI柠檬博主开发并在GitHub上开源(GPL 3.0 协议)。本项目声学模型通过采用卷积神经网络和连接性时序分类方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。基于该模型,作者在Windows平台上实现了一个基于ASRT的语音识别应用软件,同样已在GitHub上开源。

订阅
订阅语音识别最新消息
相关快讯
  • 06月12日 10:30
    Facebook推出一种自动语音识别新方法

    6月12日消息,Facebook近日介绍了一种自动语音识别的新方法,它共同训练声学和语言模型。这些模型通常是单独训练的,然后使用波束搜索解码器在推理中组合。通过在训练时利用语言模型,这种称为可微分束搜索解码器(DBD)的端到端技术简化了声学模型。DBD 使整个系统更轻量级,整个推理过程更加高效。

    来源:智东西
  • 04月02日 11:44
    Alexa研究人员推双麦克语音识别系统

    4月2日消息,据外媒报道,Alexa的研究人员开发了一种比7麦克风阵列更好的双麦克风阵列语音识别系统。研究人员称,他们已经开发出一种新型声学建模框架,在实验中,该模型比7麦克风系统语音识别错误率降低了9.5%。他们在两篇论文(“Frequency Domain Multi-Channel Acoustic Modeling for Distant Speech Recognition,” “Multi-Geometry Spatial Acoustic Modeling for Distant Speech Recognition”)中描述了该技术,论文将于下月的声学语音和信号处理国际会议上发表。

    来源:智东西
  • 18年12月25日 06:56
    Facebook开源全卷积语音识别工具包

    近日,Facebook AI研究院(FAIR)的语音团队发表论文《wav2letter++: The Fastest Open-source Speech Recognition System》,开源首个全卷积语音识别工具包wav2letter++。该工具包完全由C++写成,使用ArrayFire张量库和flashlight机器学习库。研究人员将wav2letter++和其他主流开源语音识别系统进行比较。在某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1~64个GPU,训练时间是线性变化的。

    来源:机器之心
  • 18年10月29日 14:35
    云从科技宣布刷新语音识别世界纪录

    智东西10月29日消息,云从科技宣布在语音识别技术上取得突破,在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,错词率(Worderrorrate,WER)降到了2.97%,将Librispeech的WER指标提升了25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原有记录。据了解,云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段,此次语音识别突破属于智能感知中的一环。

    来源:智东西
  • 18年09月08日 06:58
    科大讯飞获国际语音识别大赛4项冠军

    9月7日,国际多通道语音分离和识别大赛(CHiME)组委会揭晓了最新一届CHiME-5的比赛结果,科大讯飞团队包揽大赛四个项目的冠军,包括单麦克风阵列任务、分布式麦克风阵列任务(Rank A)和两种麦克风阵列对应的两个端到端的语音识别任务(Rank B)。

    CHiME始办于2011年,由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等发起,希望针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案。

    来源:科大讯飞
  • 18年06月08日 06:07
    阿里开源语音识别模型 被谷歌论文引用

    近日,阿里巴巴达摩院机器智能实验室语音识别团队,推出了新一代语音识别模型——DFSMN,不仅被谷歌等国外巨头在论文中重点引用,更将全球语音识别准确率纪录提高至96.04%(基于世界最大的免费语音识别数据库LibriSpeech)。该团队同时宣布,即日起向全世界企业与个人开源DFSMN模型,使全球开发者都能共享这一成果,全球语音识别准确率也有望总体提高10%。

    来源:智东西
  • 18年05月29日 07:10
    高通宣称其语音识别系统准确率高达95%

    近日,在美国波士顿举行的Re-Work深度学习峰会上,高通的人工智能研究人员克里斯-洛特(Chris Lott)展示了其团队在语音识别计划方面的新进展。这种语音识别系统在智能手机或其他便携式设备上运行,包含两个神经网络:循环神经网络(RNN)和卷积神经网络(CNN)。循环神经网络利用其内存来处理输入信息,而卷积神经网络则模仿人类大脑中神经元之间的联系方式。洛特称,这种语音识别系统识别单词和短语的准确率达到了95%。

    来源:腾讯科技
  • 18年05月02日 14:55
    阿里研发高工业噪声环境下语音识别技术

    据媒体报道,近日,阿里巴巴机器智能技术实验室表示,其正研发在高工业噪声环境下的语音识别及传输技术,即可将语音交流转换为文字。对此,阿里巴巴AI语音工程师许先生表示,他们研究的语音交互技术已实现在85分贝工业噪声下,将一米处正常音量语音转换为文字。而据《职业性噪声聋诊断标准》等相关标准,噪声大于等于85分贝便可认定为噪声作业环境,工人需有所防护。

    来源:cnbeta
没有更多了