三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘

智东西5月31日报道,今晚,三六零集团旗下智能硬件及物联网事业群360智慧生活发布360智脑-视觉大模型,以及4款AI硬件设备,并宣布360智慧生活将进军SMB(中小型企业)市场。360智脑-视觉大模型拥有开放目标检测OVD、图像标题生成、视觉问答VQA三大主要能力。

360集团在视觉感知能力基础上,融合千亿参数“360智脑大模型,基于十亿级互联网图文数据进行清洗训练,并针对安防场景百万级行业数据进行微调,最终打造出了视觉及多模态大模型360智脑视觉大模型。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

360集团创始人周鸿祎认为,今天的AIoT要刷新旧的AIoT概念。过去的AIoT只是垂直人工智能,智能硬件为完成特定的任务去搭载特定的算法,而大型语言模型的出现,让人工智能第一次对人类世界的知识有了充分的理解,“经过大模型赋能的AIoT才是‘真AI’”。

一、大模型开启真AIoT时代,多模态+物联网是下一个风口

周鸿祎针对目前大模型与AIoT行业分享了几个观点。

首先,大语言模型的出现标志着通用人工智能的到来。人类的语言基本上定义了人类所有的知识,大模型的出现让人工智能第一次对人类世界的知识有了充分的理解,使得人工智能从原来的图像识别、计算机视觉等感知层面,达到了认知层面。

大语言模型并不是只能解决语言问题,它是在理解了世界上知识的基础上,去解决计算机的听觉、视觉等,这一技术未来可能在机器人控制、汽车自动驾驶领域发挥作用。

周鸿祎举了一个例子,现在真正的自动驾驶没有实现一个很简单的原因就是,摄像头的识别都是在感知层面不是认知层面。人工智能不能模拟人在认知层面的反应和工作,就导致真正的自动驾驶无法实现。

因此,他认为,大模型驱动的智能硬件才是“真AI”。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

其次,大语言模型将带来一场新工业革命。此前,大数据并不能直接被利用,需要对其进行数据建模、分析,才能成为领导者决策的依据。而大模型则可以直接向用户提供问答、文本生成、自由交流讨论的能力。大数据就像工业化时代的石油,大语言模型就像发电厂,通过燃烧石油,把电力输送到千家万户。

此前,人工智能离人们的日常工作、生活很遥远,以GPT为代表的大模型,让人工智能到了PC、iPhone时刻,能为各行各业提供通用的办公、问答能力。

他也谈道,所有的行业、软件都值得用大模型重塑一次。而智能硬件如何和大语言模型相结合,也是这场工业革命中下一个关键环节。

第三个观点是,从语言到图像,多模态是大模型发展的必经之路。周鸿祎认为,目前国内同行做的大模型产品能力表现离GPT-3.5很近,离拥有多模态处理能力的GPT-4很远,如果GPT-4是100分,国内众多同行的水平在70分左右。

他说,大模型的发展之路必然是多模态,也就是能输入、输出图像、视频、音频等。不过,现在一个完整的多模态大模型还没有出现。

最后,多模态大模型和物联网的结合可能成为下一个风口。

有人可能担忧人类的文本知识快不够了,但周鸿祎认为,多模态大模型的能力本身就是大模型训练的过程,大语言模型自身具备了多模态能力,就可以通过摄像头学习可了解这个世界,同时大模型的认知能力能使摄像头从看见、看明白到看懂。

从大模型与物联网结合的角度来看,智能硬件能从感知AI到认知AI,更好理解人类指令、执行人类指令可能成为下一个风口。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

二、视觉大模型三项能力,现场演示视觉问答

AI算法的应用已经在我们的生活中无处不在,但在安防行业AI算法仍有很多应用局限。360视觉云业务线总经理孙浩称,原因在于算法的使用场景不通用、数据不通用,因此算法的落地往往和开盲盒一样,不能在细分场景中取得很好的效果。

大模型的泛化能力能弥补传统算法的局限,并且随着模型和数据规模的扩大一定程度上能突破现有模型的精度局限,再加上大模型具备自监督学习功能,基于少量数据标注和行业微调就能快速落地于细分场景。

孙浩认为,多模态大模型已经进入“寒武纪”时代,也就是虽然整体成熟度不足,但已经发生了一些革命性的变化。

当前360智脑-视觉大模型的能力是借助了大语言模型的认知、推理、决策能力,将视觉感知能力与360智脑大语言模型相结合,针对有实际需求的安防场景做行业数据微调。

视觉大模型的主要能力包括开放目标检测OVD、图像标题生成、视觉问答VQA。

1、开放目标检测:自然语言输入快速完成数据标注

一些安防巡店场景下,摄像头会出现被遮挡、发生偏移、镜头对向室外等人为干扰现象,因此,360研发人员通过对墙上固定的logo进行单独数据标注、训练,以此来确保摄像头画面没有被人为干扰。但因为不同商家的logo颜色、大小都不同,这部分标注、训练的成本很高。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

基于开放目标检测OVD功能,用户就可以输入“蓝色中文文字loge”等自然语言描述,摄像头就可以进行相应识别。

其次,车辆检测中,停车场需要统计每天的停车数量,但一些摄像头受安装位置影响,可能出现多个摄像头图像重叠,从而影响识别精度,或者客户有其它如“特定车型数量”需求,这些对于传统算法的挑战较高。

OVD开放目标检测就可以基于自然语言,快速检测“红色小汽车”等。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

2、图生文:根据生成标题快速提取有效信息

图生文能力也就是让大模型像人一样理解图片的内容。

在演示案例中可以看到,大模型能理解画面的实际内容,并推断出图片中店铺大概提供的服务。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

在安防场景有一个很基础的应用就是图像生成标题,因为用户在检索时会发现图片和文本相似的场景,无法高效检索信息。视觉大模型就可以快速标注、提炼出图片中的主要信息,如“一个老年男子躺在棕色地板上”等就可以有效提取出来。

3、视觉问答:一键输出巡检项目打分表

例如店铺巡检场景中,视觉问答的交互可以更加自然,巡检人员通过语言描述把想要检查的项目表述出来,大模型就可以分析图片再进行打分。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

孙浩现场演示了图生文能力。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

此外,视觉大模型还有一些较好的应用场景,如物品看护,通过分割区域,OVD可以在云端检测每个区域的分割形状有没有发生变化,以此来推断看护的物品是否完好。设备巡检场景,就可以通过深度估计来分析设备有没有发生偏移等。

三、大小模型相辅相成,端边云协同

除大模型外,小模型在安防场景落地中也有至关重要的作用。孙浩谈道,安防场景需要大小模型协同、端边云协同。大模型的训练、推理成本高,小模型则实时性强、节省宽带等成本。

因此,大模型和小模型需要整体协同,训练过程中端侧小模型可以帮助大模型快速收敛,大模型可以基于知识蒸馏将能力快速传递给小模型,能提升小模型快速生成、标记样本的能力。同时,360的AI LAB能解决边、端算法的场景化适配问题推理框架。

在设备端,AI能力实现算法运行容器化,能动态匹配场景规则,在云端,360打通了云端AI的分发和调度,使得端侧的数据能到云端进行二次处理和分析。

基于此,360智慧生活上线了算法商店,成立了To B的360炫视品牌,通过360视觉云和360炫视的组合,其业务场景从家庭、个人向SMB拓展。

其中,360视觉云就是以场景化AI为核心的智能安防SaaS平台,并且360智慧生活针对中小微企业管理的需求补充了很多模块。并且,家庭用户和中小微企业用户的设备能实现无缝切换、并行使用。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

四、4款AI硬件发布,均支持AI技能商店算法

此次,360智慧生活发布了4款硬件新品。

在一些大的院子鱼塘中,用户需要安装多台设备才能拥有比较大的视野。360双目拼接全景摄像机支持水平170度大广角,400万超清画质,并搭载了补光灯来实现智能全彩显示。为了防止画面畸变,研发人员在X轴、Y轴均进行了算法调优。

AI户外枪球一体机拥有上下两个不同景深、焦距的镜头,可以达到高达6倍的混合变焦视角。枪机是固定角度有更大视野,当枪机侦测到有人后,球机会自动追踪,进一步识别更细节的特征。

360户外球机6Pro拥有400万超清画质,能针对户外场景实现突出人声,处理背景噪声。

智能NVR则拥有4K超清解码能力,支持16路录像,支持本地10T能力,云端特性,1.4T边缘算力,并内置人形车辆检测算法,

这4款硬件设备支持用户到AI技能商店下载所需算法并到本地侧运行。

三六零发布视觉大模型!周鸿祎:多模态大模型+物联网是下一个风口

结语:智能硬件+大模型或成下一个风口

此前,周鸿祎就在全员信中提到,让公司的所有产品经理和工程师以大模型能力重塑全线产品。此次,也是360智慧生活在大模型应用落地上的最新成果。

在大模型浪潮下,众多玩家开始将大模型融入自己的硬件产品中,让其智能化水平再次提升。周鸿祎也认为,未来大模型将成为物联网的大脑,物联网设备就相当于大模型的感知端,让大模型进化出“眼睛和耳朵”,大模型还有可能操控物联网设备,进化出嘴巴、手和脚,从而拥有行动力,最终实现从感知到认知,从理解到执行。