音视频AI助手通义听悟升级:6小时超长视频自由问,能润色口语会做脑图

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西3月19日报道,阿里大模型产品“通义听悟”今日发布多项新功能。音视频问答助手“小悟”上线,在业界首次实现单记录、跨记录、多语言自由问,支持对单个最长6小时、一次性上百条音视频的内容理解问答。用户可对超长音视频随心提问,让AI总结任意知识点。

此外,针对学习科研场景对AI工具的强烈需求,通义听悟推出“高校公益计划”,向所有中国大陆高校师生直接赠送价值数千元的500小时音视频转写时长。

一、超长音视频自由提问,AI秒速总结知识点、润色口语、做脑图

音视频承载了密集的信息内容,但因涉及多模态理解、自然语言处理、搜索等多项复杂技术,长期以来内容查找难、回顾难、提炼难。

阿里通义听悟产品负责人杨帆谈道,通义听悟为这一需求而生。“作为一款工作学习AI助手,通义听悟希望让高知识附加值的音视频被轻松阅读、整理和分享。”

通义听悟接入通义千问大模型,融合了十多项AI功能,包括转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等,并支持标重点、记笔记。

本次升级,通义听悟上新了六大功能点。其中包括音视频问答助手“小悟”,关键信息可以直接“问”出来。

音视频AI助手通义听悟升级:6小时超长视频自由问,能润色口语会做脑图

小悟通过多语言Query处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,在业内首次实现对超长音视频的单记录、跨记录、多语言自由问答,支持内容问答的音视频时长和文件数均突破业界上限。

用户可在单一记录页呼唤小悟,对最高6小时、6G大小的音视频提问任何相关话题,或直接要求小悟整理金句、梳理结论、写会议纪要,也可以在首页针对所有记录提问,支持一次性扫描理解上百条音视频内容。

如果花式对英文视频用中文提问,小悟能直接给出中文回答,省去翻译。小悟还会智能推荐问题。

针对用户需求,通义听悟上线了一键AI改写、思维导图生成等新能力。一键AI改写将口语转为书面表达,尤其适合整理采访;思维导图自动生成,最多支持五级Xmind脑图,适合播客摘要。

音视频AI助手通义听悟升级:6小时超长视频自由问,能润色口语会做脑图

产品细节体验同样进一步升级,包括笔记支持一键插入视频时间戳及截图、音视频文件语种自动识别等。

二、推出“高校公益计划”,邮箱认证即可得500小时免费时长

学生和科研群体对AI新工具有普遍需求,但目前音视频AI转写工具普遍收费,或仅提供如每月1小时的少量免费时长。

通义听悟推出“高校公益计划”,推动AI算力普惠。所有中国大陆高校师生通过后缀edu.cn的教育邮箱进行认证后,均可直接获赠500小时转写时长,存储空间从20G拓展至200G。

按目前市面上语音厂商9.9元每小时的折扣价,这一教育福利价值数千元。

通义听悟能听、能看、能读,还能实现速览加精。杨帆介绍说,调研中发现约一半用户是学生,他们活跃度相当高,后台每天收到大量私信“求时长”。

有的同学上课、开组会“无时无刻不听悟”;有的用通义听悟两倍速上网课备考;有的每天在“发现”栏目中阅读数十档播客节目,“获取最前沿新鲜的观点内容”。

结语:累计已有上百万用户,每天处理字符数约20亿字

作为国内首个开放公测的大模型产品,去年6月发布以来,通义听悟累计已有上百万用户,包括学生、老师、白领、记者、律师、金融分析师等群体,活跃用户日均转写音视频3次以上,平台每天处理字符数约20亿字。

如今,通义听悟多项功能上新,为用户快速整理音视频纪要、完成内容查找等常见任务提供了进一步提高生产力的好用利器。