32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

纵观人类的发展历史,每一次重大变革,都会使一些组织或行业产出成指数级增长。改良蒸汽机促进了工业时代的到来,而计算机的发明则引领了信息时代的到来,两个时代的技术革命都使生产力实现了革命性提高 。

在国家层面,早就提出:加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。2020年3月4日,在强调加快新型基础设施建设进度的中央会议上,人工智能更是作为重点领域被再次提及和关注。

本期的智能内参,我们推荐方证证券公司的研究报告《 人工智能发展报告白皮书 》,从人工智能技术的新发展、面临的挑战、核心支撑技术、应用场景等多方面解析人工智能的最新发展情况。如果想收藏本文的报告,可以在智东西(公众号:zhidxcom)回复关键词“nc470”获取。

本期内参来源:新华三

原标题:

新华三人工智能发展报告白皮书

作者: 杨新安  等

一、 人工智能商业化加速将深刻改变人类社会

1、 从学术研究走向商业应用

人工智能最早可追溯到上世纪的四五十年代,被誉为“人工智能之父”的艾伦·图灵,在其论文《计算机器与智能》中,提出了非常著名的图灵测试,即被测试的机器是否能够表现出与人类等价或无法区分的智能。

人工智能概念正式提出是在1956年,在美国达特茅斯学院举办的夏季学术研讨会上,约翰·麦卡锡、马文·闵斯基、克劳德·香农等学者参与讨论“让机器像人一样认知、思考和学习”,这次会议上首次使用了“人工智能”这一术语。因此,业内也一般都认为1956年是人工智能元年。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

人工智能发展的三次浪潮

在过去的六十多年里,人工智能发展跌宕起伏,经历了三次大的浪潮:

第一次浪潮(20世纪50~80年代): 人工智能的起步阶段,期间提出了人工智能的概念,取得了一些突破性的研究成果,如机器定理证明、跳棋程序、LISP编程语言、首个聊天机器人等,但当时的算法理论、计算机的性能等因素,无法支持人工智能应用的推广。

第二次浪潮(20世纪80~90年代): 这阶段主要以专家系统和日本的第五代计算机为代表。专家系统促使人工智能从理论研究走向实际应用,并在医疗、气象、地质等领域取得成功。但随着人工智能应用范围的扩大,专家系统的缺点也逐渐显现:应用领域狭窄、推理方法单一、缺乏常识性知识等,人工智能的发展又进入了停滞状态。在这阶段也出现了神经网
络算法,但是由于当时计算机的性能限制,最终也没有较好的落地效果。

第三次浪潮(2000年~现在): 随着信息技术蓬勃发展,为人工智能的发展提供了基础条件。这阶段人工智能的理论算法也在不断的沉淀,以统计机器学习为代表的算法,在互联网、工业等诸多领域取得了较好的应用效果。2006年,多伦多大学Hinton教授提出了深度学习的概念,对多层神经网络模型的一些问题给出了解决方案。标志性事件是在2012年,Hinton课题组参加ImageNet图像识别大赛,以大幅领先对手的成绩取得了冠军,使深度学习引起了学术界和工业界的轰动。

近几年,以深度学习为代表的人工智能算法,在图像分类和识别、语音识别、自然语言处理等领域取得了巨大的进步。究其原因,一方面计算机的性能得到了极大的提升,新型人工智能芯片、云计算技术都为大规模神经网络计算提供了基础平台;另一方面是互联网、大数据技术的发展,积累了大量的数据资源。算法、算力和数据三者的结合,直接促成了这次浪潮,将人工智能再次推向繁荣期。

根据人工智能的研究领域、周边技术和涉及的产业,可以将人工智能的技术体系分为三个层次,如图2所示,具体包括:基础层、技术层和应用层。

应用层: 人工智能技术与行业深度结合,针对具体的场景来实现智能化的方案,目前主要的应用行业领域包括安防、金融、医疗、交通、教育、制造、互联网、电力等,未来将会拓展到更多的领域。当前,人工智能产品种类也比较多,比如机器人方面,包括家用机器人(扫地、陪伴、教育等用途)、工业机器人等;再如自动驾驶汽车,其中就使用到了大量的人工智能技术,包括通过计算机视觉技术来识别车道线、交通标志、信号灯等,进一步利用人工智能算法进行决策分析,做出正确的动作指令。未来将会有更多的人工智能产品进入生产生活当中。

技术层: 产业界和学术界都比较关注的层面。底层包括各种机器学习/深度学习的开源框架等。以学术界为代表,对人工智能的底层理论算法的研究,包括近年来比较主流的深度神经网络算法、传统机器学习算法,正是因为这些基础理论取得突破,才使得当下人工智能技术在产业化方面取得突飞猛进的发展。应用算法层主要的研究领域包括计算机视觉、语音识别、自然语言处理、决策规划等,涉及感知、认知、决策不同的智能方向。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

人工智能技术体系层级

在每个研究领域中,又有很多细分技术研究领域,比如计算机视觉领域,包括图像识别、目标跟踪、视频理解、行为分析、图像超分、多维特征识别等等。技术层是人工智能中最为令人关注的,也是最具挑战的,其优劣直接决定了行业应用落地的成效。

基础层: 作为人工智能产业的底座支撑,包括硬件、软件和数据的技术支持。硬件主要是为人工智能应用提供强大的算力支撑,包括计算资源如GPU、FPGA、ASIC等加速芯片,网络资源,存储资源,以及各种传感器件;系统平台包括操作系统、云计算平台、大数据平台等;数据资源是人工智能技术(尤其是深度学习)获得长足发展不可或缺的组成部分,犹如为发动机提供充足的“燃料”。

2016年,谷歌AlphaGo以4:1的成绩战胜了人类顶尖围棋选手李世石,让人工智能走进了大众的视野。人工智能如今已不再停留在学术研究阶段,开始大规模的应用到商业环境中。

人工智能技术只有在实践中解决了具体的问题,才能产生价值。因此合适的商业场景是人工智能技术落地的关键。当前人工智能技术主要是以深度学习方法为主,通过大规模数据驱动的机制,挖掘数据中蕴含的潜在规律。这种方法,机器并没有真正的推理和思考的能力,并没有人类所具有的高阶智能,一般只能解决特定领域内的问题。

目前取得较好成效的主要在单任务、单领域的视觉感知方面上,有些已经做到了非常极致,甚至超越人类,比如图像识别技术在安防、交通流量监测、闸机身份验证等特定场景中,可以代替人工完成这些重复性的工作,取得了很好的效果。但在认知方面目前效果不尽人意,还达不到像视觉感知领域的效果。随着谷歌BERT等算法的突破,对于自然语言语义的理解和认知方面,也渐有起色。

由于目前人工智能算法机制对数据集的重度依赖,需要有足够的数据,而数据都是在行业场景中积累产生的,比如医疗影像数据、金融交易数据等。因此,将人工智能技术与行业场景结合才能发挥人工智能的价值。并且只有在场景历练通过不断的反馈机制,使数据形成闭环,才能持续不断迭代优化和提升算法精准度。

2、 对人类社会产生深远影响

人工智能对企业变革影响巨大,在未来15年内,人工智能和自动化技术将取代40-50%岗位,同时也带来效率的提升。

例如,在工业制造领域,AI技术将深度赋能工业机器,将会带来生产效率和质量的极大提升。采用AI视觉检测替代工人来识别工件缺陷,带来的益处:

识别精度,基于图像数字化,可以达到微米级的精度;

无情绪影响,可以长时间保持稳定工作;

检测速度,毫秒级就能完成检测任务。

随着人工智能技术的普及,人们的居住、健康、出行、教育、娱乐等多方面的生活方式都将从中受益。

智能家居将会是人工智能技术应用的一个重要突破口。未来,智慧家居助理会统筹管理所有智能家居设备,使其协同工作,根据不同的活动场景,为人们营造更加舒适和安全的居住环境。人们不再是通过双手去操作使用各种电器,而是通过更加自然的方式与智慧家居助理交流,轻松地让各种电器完成任务。

医疗也将是人工智能大展身手的领域。AI技术的推广,可以很大程度缓解当下的医疗资源紧缺、医护人员工作强度大等问题,使更多的民众受益。另外,通过健康穿戴设备,监测人们的生理数据,对人们的日常健康状况进行检测管理,做到疾病的提前预防。

人工智能在粮食保障、能源利用、气象预测、环境污染、自然资源保护等领域上应用,可有效改善人类生存环境,促进人与自然和谐共生。

农业是人类赖以生存的基础,为人类提供每天所需的食物。据《2019年全球粮食危机报告》显示,全球仍有1亿多人处于重度饥饿状态。自然灾害和气候变化是导致粮食不安全的部分关键因素。人工智能在一定程度上可以改善农业所面临的问题。例如2019年底在全球较大范围内发生的非洲蝗虫自然灾害,造成部分地区粮食大幅减产。

有些机构组织开始着手研究如何利用人工智能技术结合卫星遥感地理信息,对类似的自然灾害进行预警,减少农业损失。另外,利用人工智能技术对小地域范围内实时、精准的气象预测,可以指导农业实施过程,在什么时间适合进行播种、施肥、灌溉、采摘等。人工智能还可以用于筛选优良种子,达到粮食增产的目的。

3、 人工智能面临的挑战

正因为人工智能技术能够对人类社会产生巨大效益,国家政策、资本等方面也大力支持,企业积极布局人工智能战略,增加研发投入、加快商业落地。人工智能产业一片向好的景象。但在繁荣的背后,人工智能也面临诸多挑战。据《IDC中国人工智能软件及应用市场半年度研究报告,2019H1》显示,面临的挑战主要有缺乏人工智能技术人员、缺乏高质量数据集、应用场景、成本等多个方面。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

《IDC中国人工智能软件及应用市场半年度研究报告,2019H1》市场调研

面对这些挑战,我们应该理性对待,寻找合适的解决方法,打造有利于人工智能健康发展的良好环境。

场景化落地面临的挑战 。 目前,人工智能商业落地效果比较好的是安防、金融等行业领域,在其他领域的部分场景中,落地效果并不是太理想。究其原因,一方面是安防、金融等落地效果好的领域,都是有良好的数字化基础的,多年来积累了大量有价值的数据,利用人工智能技术来挖掘数据价值自然是水到渠成。

另一方面,是对当前人工智能算法所能解决问题的边界没有厘清,与用户期望的有偏差,用户期待的效果,可能当前AI算法还达不到成熟标准,而AI算法能解决问题的场景,还有待进一步挖掘。对此,建议各行业领域的企业,在实施人工智能应用落地过程中,优先完成数字化改造,积累行业数据,然后再实施合理的智能化业务。

技术方面的挑战 。 在人工智能技术层面上,也面临一定程度的风险,主要表现在数据和算法上。 首先, 当前算法严重依赖有标注的数据 。 数据在人工智能商业化落地中有着不可替代的作用,目前人工智能算法以有监督的深度学习为主,即需要标注数据对学习结果进行反馈,在大量数据训练下,算法才能取得预期的效果。算法从大量数据中进行学习,挖掘数据中蕴含的规律。数据决定了人工智能模型精度的上限,而算法则是不断逼近这个上限 。

其次, 高质量数据需求导致数据成本高昂 。 为了提高数据的质量,原始数据需要经过数据采集、清洗、信息抽取、标注等处理环节。得益于大数据技术的快速发展,当前采集、存储海量数据已经不再是难事。在时间和成本上,数据标注成了制约环节。目前数据标注主要是人工标记为主,机器自动化标注为辅助。但是人工标注数据的效率并不能完全满足算法的需求,研究提升机器自动化标注的精度,是提高效率的重要思路,也是数据标注的一个重要趋势。

数据噪声、数据污染会带来人工智能安全问题 。 人工智能训练模型时用到的训练数据,如果数据本身有较大的噪声,或者数据受到人为破坏,都可能会导致模型决策出现错误。由于一些客观因素,训练数据中不可避免含有噪声,如果算法模型处理的不得当,可能会导致模型漏洞,模型不够健壮,给黑客有了可乘之机。另外,也存在黑客故意在训练数据中植入恶意数据样本,引起数据分布的改变,导致训练出来的模型决策出现偏差,进而按照黑客的意图来执行。从数据源角度进行攻击,会产生严重的后果。例如在无人驾驶车辆上,会诱使车辆违反交通规则导致事故。

当前深度学习算法有一定局限性 。 深度学习算法通过构建大规模多层次的神经网络模型,从大量数据中学习经验规则,从而达到拟合复杂的函数来解决实际问题。深度学习模型的学习能力强,效果也非常好,但在实际应用过程中依然面临资源消耗、可解释性、安全等方面的挑战。

深度学习训练的时候需要处理大量的数据,模型单元也会做大量的计算,所以会耗费大量的存储和计算资源,成本高昂。即使是在模型推理阶段,计算量相对较小,但在边缘、端侧部署深度学习模型,仍然需要对模型经过压缩、剪枝等出来,来进一步降低计算量。目前国内很多企业在研究端侧的AI芯片,提升边缘侧的计算能力,相信未来计算力的问题会得到解决。

人工智能模型的可解释性,是指人类能够理解机器做出决策原因的程度。由于深度神经网络模型异常复杂,参数量巨大,导致模型成为“黑箱”,我们很难获知模型预测结果的准确原因,也不知道模型会在什么时候或条件下会出错。这就导致了在一些如医疗、无人驾驶等关键场合中,使用深度学习都比较谨慎。当然在学术界,也在积极研究可解释性的人工智能,包括如何改善用户理解、信任与管理人工智能系统。

深度神经网络非常容易受到对抗样本的攻击的。一些图像或语音的对抗样本,仅有很轻微的扰动,以至于人类无法察觉这种扰动。但对于模型却很容易觉察并放大这个扰动,进而处理后输出错误的结果。这个问题对于在一些关键场合下危害非常大。对抗与攻击也是深度学习研究领域的一个热点,已经有很多防范攻击的方法来降低风险。

4、 社会规范方面的挑战

人工智能技术是一把双刃剑,一方面能推动社会进步和经济发展,另一方面也会带来法律、隐私保护、伦理等的风险。人工智能技术的运作效率极高,如果被不法分子利用了,发起网络攻击或者窃取机密信息,将会产生巨大的危害。另外,深度学习依赖于数据,在数据采集过程中,不可避免的会收集到用户的一些隐私数据,涉及个人的生活习惯、健康等数据,如果这些数据不加以监管被乱用,势必会造成隐私侵犯。针对这方面风险,国家也在研究应对措施。在《新一代人工智能发展规划》中明确指出,到2025年,我国初步建立人工智能法律法规、伦理规范和政策体系,形成人工智能安全评估和管控能力。在2019年6月,《新一代人工智能治理原则——发展负责任的人工智能》发布,提出了人工智能治理的框架和行动指南。

相信随着技术上的进步,法律、社会规范的出台,人工智能将会朝着安全可靠、公平、保护隐私等正向发展,促进人类福祉。

二、 人工智能产业化落地ICT技术是关键支撑

1、 算力突破推动算法创新,促成第三次AI浪潮

在2012年,Hinton课题组参加ImageNet图像识别大赛,其AlexNet模型以大幅领先对手的成绩取得了当年的冠军,使得深度学习算法一时间轰动整个学术界和工业界。

深度学习算法本质上也是神经网络,早在上世纪80年代就已经诞生。AlexNet模型使用了比以前更加深层的网络,参数量高达千万级,使用了大规模的图像样本进行训练,当然也有一些细节上的算法创新。当时支撑AlexNet模型的实现,是基于两块英伟达GTX 580的GPU,完成了当时CPU难以短时间完成的任务。从此,业内普遍认同了两方面的事实:一方面是神经网络的模型规模增大有助于提升识别效果;另一方面,GPU卡可以提供非常高效的算力,用来支撑大规模神经网络模型的训练。

近几年,业内各厂家意识到算力的重要性,分别推出多种加速卡如GPU、谷歌的TPU等,用于加速人工智能计算,直接推动了人工智能算法飞跃式的创新。从2012年到2018年期间,以计算机视觉为主的感知类智能取得了突飞猛进的发展,有些领域如多维特征识别等,其识别率远远超越了人类水平。

在2018年末,谷歌发布的BERT模型,在11项不同的NLP测试取得最佳成绩,直接推动了NLP认知类智能的突破。在这惊人成绩的背后,是强大算力提供的支撑。跟据作者描述,BERT-Large模型是在33亿词量的数据集上训练的,拥有3亿多的参数。试想一下,如果没有能支撑这么大计算量的算力资源,也许很难验证算法的效果,算法创新也就更加不易。

另外,数据的爆发式增长,对算力的依赖也十分强烈。根据IDC报告显示,“数据总量正在以指数形式增长。从2003年的5EB,到2013年的4.4ZB,在2020年将达到44ZB”。面对海量的数据,使用人工智能算法挖掘其中的价值,也必须有强大的算力支撑才能实现,这也直接关系到人工智能应用的创新和发展。

当前这种以深度学习训练算法为主的时期,对算力和数据的需求是惊人的。OpenAI对近年来的模型训练和算力需求做过一个分析总结,自2012年以来,最大规模的AI训练运行中使用的计算量呈指数增长,且翻倍时间为3.4个月,远快于芯片工艺的摩尔定律。

为了支撑巨大的算力需求,一种行之有效的方法就是采用异构计算集群。在人工智能领域中,异构计算是指联合了通用的CPU和面向AI运算加速的GPU/FPGA/ASIC等不同计算体系结构处理器的计算系统。另外,单颗芯片的计算能力是有限的,且随着摩尔定律失效,仅从芯片角度来提升算力相对来说比较困难。

业界一般采用计算集群的方式来扩展算力,通过把成千上万颗计算芯片,整合在一个系统中,为人工智能模型的训练和推理应用提供支持。目前,鉴于GPU的通用性、性能和生态等因素,面向人工智能的异构计算集群,仍然以CPU+GPU的方式为主流,但在一些特定应用场景中,CPU+FPGA/ASIC的方式也有一定的优势。

另外,异构计算集群实现算力的扩展,不单是硬件设备上堆砌。由于人工智能特有的计算模式,设计面向人工智能计算的集群需要区别传统通用计算集群,如在进行模型训练的时候,集群计算节点间需要大量且频繁的周期性数据同步等,都是需要考虑的因素。为了提升性能,需要考虑系统软件和计算框架层面上的优化,如何合理的调度AI任务来最大化地利用计算资源。同时也还需要考虑高性能的网络和存储,来保障集群整体性能。

提升算力的另一条途径,就是从芯片层面去实现。相对于传统程序,AI计算有着明显的特征,导致传统处理器无法满足:当前很大一部分AI应用,处理的是视频、语音、图像等非结构化数据,计算量巨大且多数为矩阵运算,非常适合并行处理;另外,深度学习模型参数量非常多,对存储单元访问的带宽和时延直接决定了其计算的性能。

为此,一方面可以通过不断的改进优化现有计算体系芯片的计算能力,从早期的CPU,到专用于并行加速计算的GPU,以及在特定场景应用的FPGA和ASIC芯片,都是在朝着适应AI计算模式的方向优化,加速AI运算过程。这种方式是目前AI计算加速的主流方式。另一方面可以采用新型计算架构,如类脑芯片、量子计算等,从根本上颠覆现有计算模式。2019年8月,清华大学类脑计算研究中心研制的Tianjic芯片登上了《自然》杂志,展示了类脑芯片的潜力,是未来AI芯片的一个重要方向。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

AI加速芯片及应用场景

不同的计算场景对算力的需求特点是有差异的:

在云端/数据中心的训练场景中,更多的关注算力的性能、精度、扩展性、通用性、可编程、能耗效率等;

在云端/数据中心的推理场景中,对算力考量的侧重于吞吐率、延时、扩展性、能耗效率等;

在边缘端的推理场景中,考虑更多的是延时、能效、成本等。

随着市场的强劲需求和国家政策的引导,国内研发AI芯片呈“井喷”趋势,众多厂家加入到了造芯行列当中。针对不同的人工智能应用场景,各个厂家都在打造各具特色的芯片。尤其是随着物联网的普及,端侧应用场景更加繁杂,AI芯片百家争鸣的态势,有助于解决AI多样化的算力需求。

2、 大规模AI训练场景,对网络和存储提出挑战

数据、算法、算力是人们常说的AI发展三要素,必然在AI中起着至关重要的作用。那么除了这些,是否还有其他因素关系其发展呢?我们试想,AI是一辆火车,数据、算法、算力、好比其燃料、发动机,有更多,更好质量的燃料,才能让火车跑的更远,更先进的发动机才能使火车跑的更快。不过,在实际火车运营中,仅仅这些是不够的。

火车要在铁轨上运行,也就是有了更好的路,火车才能四通八达、通畅无阻。AI面对实际应用也是如此,其爆棚的数据量和超高的算力要求都不是一台普通的服务器能够完成的,需要大规模的集群,集群中服务器、存储设备间的互联网络就是AI中的“路”,而这些当前的“路”是不能满足大规模AI训练场景需求的。除了“路”之外,火车是用来运输货物或者人,那车厢本身的存储容量以及装卸车的速度也是火车运营的重要指标。对应到AI应用中就是存储容量及数据读写访问技术。

大规模AI训练场景对网络之“路”要求很高,有多方面原因。

首先,AI相关业务通常包含大量的图像、视频等非结构化数据,数据量上有一个指数级的增长,需要保证这些海量非结构化数据顺畅、快速通过才能使AI系统平稳运行。

其次,AI运算相比以往运算更加复杂,一次智能化业务背后要几百个模型计算,每次计算并非一台服务器能完成的,需要庞大算力和复杂的异构计算,背后实现往往是通过大规模集群并行处理的,那么集群中的服务器快速通信就成为完成一次计算任务的关键要素之一。

第三,AI业务很多需要实时学习,算法在框架层和应用层需要保持高精度一致。这些要求都是现存以太网所不具备的,其中千分之一的网络丢包对AI的影响都是巨大的。这个如同以前的马车走土路,压过一块小石头,或许就是有个小颠簸,不会发生什么大问题,但是如果铁轨上有一块小石头,可能就会造成火车的出轨,后果不堪设想。

当前铺设的这条网络“路”主要技术有TCP/IP及以太网,这是最常用的网络传输技术,其优点是应用范围广,成本低,兼容性好,缺点也很大,网络利用率低,传输速率不稳定等。InfiniBand是一个用于高性能计算的网络标准,服务器间、 服务器与存储设备间、存储设备之间均可以使用其进行传输。它的优点就是传输性能好,可惜在大规模应用中支持不好,而且需要特定网卡和交换机的支持,成本相对高昂。还有诸如Intel提出的Omni-Path等技术,都是为了优化网络性能,不过均存在各种兼容、成本等问题。

要满足AI的大规模训练需求,我们需要一种综合的网络解决方案,既能广泛大规模使用,价格低廉、成本可控,又能够完成高性能AI计算的需求。这首先要保证网络达到90%以上的带宽有效利用率的同时,网络中无丢包,并确保低时延。通过RoCEv2、Lossless无损网络流控技术综合方案可以实现上述需求。RoCEv2即RoCE(RDMAover Converged Ethernet,基于以太网的远程直接内存访问)的第二个版本,较第一个版本支持跨IP子网的通信能力。该技术主要解决两大问题:

1、 通过远程直接的内存访问绕过操作系统内的多次内存拷贝,远程节点的CPU无需介入,降低CPU负载,数据直达对端应用buffer。测试显示数据从CPU到网卡出口时间通过RoCEv2技术可以有效提升8倍,RoCEv2在提高网络吞吐量的同时极大的降低了数据包传输延时。如图5所示,传统TCP/IP与RDMA方式的数据移动对比。

2、 RoCEv2是RDMA在以太网上传输的实现,部署时仅两端点需要采用专用的网卡硬件,中途路径采用原有以太网线路及设备即可,相较InfiniBand等技术大大降低了成本。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

传统TCP/IP与RDMA方式数据移动对比

RoCEv2解决了成本、延时、吞吐等问题,这样还是不够的,上面提到面对大规模AI计算,网络中是不能出现丢包。这就需要Lossless无损网络流控技术来保证。如图6所示,无损网络解决方案部署参考。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

无损网络部署参考

其实现包括如下几个方面:

1、需要支持PFC流控能力,当某一优先级报文发送速率超过接收速率时,通过向上一跳发Pause帧通知上一跳设备暂停发送本优先级报文,实现不丢包机制;

2、开启快速ECN能力,向服务端快速进行通告反压,保证流量将要出现丢包时,快速通知发送端进行降速;

3、用户可选择开通ETS将网络中的流量优先级分成不同的优先级组,为每组分配一定带宽,如果一个组未消耗完为其分配的带宽其他组可以使用这些未使用的带宽,达到资源的合理分配及充分使用;

4、交换机与服务器网卡之间,通过开启LLDP协议的DCBX TLV,其报文中携带ETS/PFC配置状态,实现全网的DCBX能力通告和协商,保证网络无丢包。

5、通常的一个训练模型需要千万甚至上亿的文件数量,面对这样的海量数据访问,传统分布式文件存储架构(如HDFS,MooseFS等)就显得相形见绌了;

6、 很多的训练模型都依赖于图片、音视频片段,为了进行更有效的特征分析,即便是大文件也会被切片成小文件。有些特征文件小到几十、几百字节,也有很多都在几KB到几MB之间。而传统分布式存储是针对大文件设计的,集群容量是其首要考虑的问题,面对AI训练场景,80%以上是小文件,首要解决的是文件系统支持海量小文件的问题;

7、 业务部门数据组织存储的不确定性,导致系统管理员不知道数据怎么存储的,很可能将大量文件放在同一个目录节点上,这样在AI进行训练时,会同时读取一批数据,数据所在目录的元数据节点成为“热点”被大量访问,从而导致训练性能出现问题。

这几个问题就如同过去的绿皮车时代,车次少,乘客少,停车时间还长,那么上下车就没什么特别要求,大家慢慢上,慢慢下,反正时间很充裕。而现代高铁时代,车次多,有的地方甚至十五分钟左右一班车,车厢长了,乘客还都满员,每站停车时间几分钟,有些甚至1分钟,这样就要求有合理的上下车次序和分流等手段进行优化。

针对AI对存储访问的特殊应用需求,同样需要针对性的进行优化。如将单点MDS(Metadata server,元数据服务器)进行横向扩展,形成MDS集群。MDS集群可以缓解CPU、内存压力,同时存储更多的元数据信息,并提高海量文件并发访问性能。

这点像火车乘车进站以前的一个两个检票口,现在扩充到十个左右,减轻一两个检票口的压力,同时能够一起进出更多的乘客。针对小文件,可进行小文件内联、聚合,客户端读缓存等优化手段。这点可以理解为,老人小孩的,一家人一起提前检票进站。而“热点”访问问题,可采用目录镜像扩展或增加虚拟子目录的方式。同样映射到坐火车场景,可以理解为乘车时点餐服务。以前是大家都到餐车排队购买,现在是将二维码都贴到每个座位上,自己使用手机扫码就可以点餐,到时乘务员会按照座位把餐送来。

综上,我们可以看到,真正的AI时代,不仅仅是其三要素数据、算法、算力技术发展就能满足的,同时对AI的运行环境也提出了更多挑战。当前是把AI效能发挥最大的一系列技术共同发展的时代,而非仅AI技术本身,相关技术要合力前行。无论是网络还是存储技术应走到更前面,在全球产业智能化转型中充当开路者的重要角色,为AI提供更顺畅的运行环境。

3、 云边端协同,满足多样化的AI应用场景

云计算的核心依靠云端超强的计算能力来完成计算要求很高的任务。进入云计算时代,由于云计算在成本、效益、规模、自动化和集中性等方面给企业带来的好处,大量人工智能服务完全部署在云上或者在很大程度上依赖于云。与此同时,随着物联网等技术的不断发展、数据的不断增加,如何在数据从生成到决策再到执行的整个过程中,保持尽可能小的延迟,就显得尤为关键。在一个只有“云”的世界中,数据可能要传输几千甚至上万公里,较大的延迟是在所难免的。

对于一些时延敏感的人工智能应用场景,如自动驾驶汽车,对实时性要求极高,纯粹依靠云端的能力是难以满足的。另外,一些数据敏感的场景中,将数据上传到云端进行智能计算,也会面临一定程度的风险。云端服务在这些人工智能场景中的应用效果大打折扣,而边缘计算则可以有效解决这一问题。

边缘计算作为云计算的延伸拓展,是一种分布式处理和存储的体系结构,它更接近数据的源头。它是将计算任务从数据中心迁移到靠近数据源的边缘设备上,因此它更擅长处理实时性、安全性要求较高的计算任务。基于边缘计算的方式,大大降低了网络延迟,处理数据更加快速,支持企业更快更好的做出决策。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

边缘计算模型

在人工智能应用场景中,将一些重量级的AI训练任务,或者对时延不敏感的任务,放置在云上进行,而将一些轻量级、或者对时延敏感、或者对数据安全有要求的AI计算任务,下沉到边缘设备或者终端设备中执行,通过边缘、终端和云端协同来实现快速决策、实时响应。在万物智联时代,只有云、边、端紧密协同工作,才能更好地满足各种AI应用场景的需求,从而最大化AI的价值。

云边端协同工作将成为人工智能应用部署的重要方式,可以满足云端AI短板,即时延或数据安全等方面,为支持更多有严苛要求的AI应用场景铺平道路,提升应用效果。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

云边协同的智能安防应用

在智慧安防场景中,传统方式下需要将大量摄像终端采集到的视频数据,通过网络直接传输至云端或服务器进行存储和处理,不仅加重了网络的负载,也难以满足业务低时延快速响应的需求。通过增加边缘计算节点,将摄像采集终端采集的数据汇聚到边缘节点,从而有效降低网络传输压力和业务端到端时延。

此外,智慧安防与人工智能相结合,在边缘计算节点上搭载AI人工智能视频分析模块,面向智能安防、智慧安防、轨迹跟踪、多维特征识别等AI典型业务场景,以低时延、大带宽、快速响应等特性弥补当前基于云端AI的视频分析中产生的时延大、用户体验较差的问题,实现本地分析、快速处理、实时响应。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

云边协同的智能水利应用

在智慧水利场景中,5G、智慧安防、边缘云和AI分析紧密结合,可以智能的识别出水利业务中的异常场景(河道漂浮物、钓鱼、游泳、非法采砂等),做到无人值守,实时告警。采用边缘计算(MEC)的网络结构在河道附近部署无线摄像头,在运营商本地机房部署MEC平台。实时性要求高的业务部署在边缘云,其他业务部署在中心云,实现云边协同。视频流经MEC分流后,将流量进行本地化分流,在本地完成AI智能分析,实施将告警信息上送中心云。在本地进行业务流量的分流和处理,不仅提高了响应速度,而且减轻对运营商核心网络的数据传输压力。

在智能家庭场景中,边缘计算节点通过各种异构接口就近汇聚、存储和处理边缘节点上的各类异构数据,执行AI任务,对敏感数据就地处理,不出本地,有力地保护数据隐私,同时将处理后的非敏感数据统一上传到云平台。用户不仅仅可以通过网络连接边缘计算节点,对家庭终端进行智能控制,还可以通过访问云端,对过往非敏感数据进行访问。

在智慧交通场景中,汽车作为边缘计算节点,通过集成的采集装置采集实时数据,并与路侧边缘节点进行交互。边缘计算节点进行视频的就地处理和识别,将识别的车辆和位置信息通过5G等通信手段回传到云计算中心。云计算中心通过大数据和人工智能算法,为边缘节点、交通信号系统和车辆下发合理的调度指令,从而提高交通系统的运行效率,最大限度的减少道路拥堵。

4、人工智能应用普及,安全备受关注

人工智能技术发展迅速,目前在各行各业的应用已经日益普及,但人工智能系统和技术自身的安全风险也越来越成为不能回避和不可忽视的风险,甚至在某些场景下还会带来很大的问题。

32页新华三人工智能发展白皮书:AI芯片“井喷”式发展【附下载】| 智东西内参

人工智能系统自身面临的安全风险

目前人工智能在智能手机、办公设备、智能家居上的应用越来越多,很多人家里都有了智能音箱,另外不少电视、冰箱、电饭煲、空调、窗帘等都具备了人工智能的功能,人们使用语音或者手势就可以指挥它们帮人们完成查询天气预报、查找信息,甚至烧饭做菜,调节室内环境等。由于这些智能设备为了随时响应主人的召唤,需要实时在线,加上其日益强大和不断升级的语音、图像和视频的感知、认知能力,有可能对主人家里每个人的一举一动了如指掌,用户在享受了人工智能带来的便捷服务的同时也带来了自己和家庭隐私泄露的隐患。

人工智能平台和模型泄密风险主要有:模型窃取攻击和用户数据窃取攻击。 指的是攻击者基于反复查询并分析人工智能系统的输入、输出参数和其它外部信息,从而推测和猜测出系统的模型参数、训练参数和训练数据等信息。目前很多云服务商提供了AI即服务(AIaaS),由AI服务商负责模型训练、识别等服务,对公众开放,用户可使用开放接口进行各种人工智能识别等操作。但通过反复调用AIaaS的识别接口,有经验的攻击者就可能通过多次返回的信息从而还原出AI模型的各种参数等关键特性,从而把AI模型窃取到。或者即使不能完全窃取到原模型,也可以通过窃取到的信息构建机器学习的对抗样本或模型,从而对人工智能系统进行下一步更深层次的攻击。

在用户提供训练数据的情况下,攻击者可能通过反复查询训练好的机器学习模型,获取到用户的隐私数据。

当前的人工智能模型和算法非常依赖于输入数据的真实性、完整性和全面性。从攻击者视角,恶意的数据注入是进行对抗样本攻击的重要手段。数据真实性风险主要体现在训练数据真实性和判断数据真实性两个方面。

攻击者在训练数据中掺入的恶意数据,可能会大大影响机器学习模型训练的有效性,降低人工智能模型的推理能力。例如,研究者发现,只需要在训练样本中掺杂少量的恶意样本(药饵攻击),就能很大程度感染AI模型的准确率。通过加入药饵数据,在人工智能健康数据库应用中,攻击者可以使模型对超过一半的患者的用药量建议阐述超过四分之三的变化量。

在机器模型的判断阶段,对被判断数据样本加入少量噪音,即可能大幅改变判断结果的准确性,甚至出现风马牛不相及的结果。比如著名人工智能科学家Ian Goodfellow曾发布论文,通过图像生动阐述了基于判读数据投毒的对抗样本攻击概念,一张原本是熊猫的图片,在加入了少量干扰白噪声后,人眼看还是熊猫,但机器学习模型直接将其识别为长臂猿,且可信度高达99.3%。

包括TPU等AI专用芯片,GPU,CPU,FPGA,还有大到AI计算服务器集群,小到我们的智能手机、终端,都可能存在软硬件设计缺陷、安全漏洞、后门。例如处理器硬件的安全风险,可能很多人并不陌生,如2018年全球最大处理器生产商英特尔爆出的Meltdown漏洞,该漏洞被认为是史上最严重的处理器漏洞之一,本质上是英特尔处理器的预测执行技术设计缺陷,但由于预测执行读取的数据防护不当,破坏了位于用户和操作系统之间的基本隔离,从而可能允许恶意代码访问主机任意内存,进而窃取其他应用程序以及操作系统内核的敏感信息。这个漏洞“熔化”了由硬件来实现的安全边界。允许低权限用户级别的应用程序“越界”访问系统级的内存,从而造成数据泄露。

而且漏洞修复会不可避免地造成处理器性能的降低。另外,研究人员发现,在芯片制造过程中也可植入后门,或者硬件木马。攻击者只需要通过短时间在处理器上运行一系列看上去非常安全的命令,就能够地触发处理器的某个隐藏逻辑,从而获得操作系统的高级权限。而更加让人担心的是,这种非常微小的硬件后门基本无法通过任何硬件检测和安全分析手段检测出来,并且可能只需要芯片工厂中的某位普通员工就能完成此项任务。至于软件设计、编码过程中由于不小心、不遵守设计和编程规范等,无心埋入的软件Bug,甚至别有用心的软件后门的植入,一直都是软件开发和应用全生命周期中需要解决的重大课题,在人工智能软件系统中也不例外。而且由于人工智能系统的黑盒性和不可解释性,使得软件后门更难以被检测。

腾讯安全平台部预研团队曾发现某著名人工智能系统框架存在自身安全风险,可被黑客利用,生成恶意模型文件,对使用该框架和平台的人工智能研究者进行攻击,受害者自身的人工智能应用可能被窃取或恶意篡改、破坏。该漏洞危害面较大,一方面攻击成本低,不需要太高深的人工智能技术能力,普通攻击者即可实施攻击;另一方面迷惑性强,使用该平台的大部分人工智能研究者可能毫无防备;同时因为利用了该框架自身的跨平台机制,其在PC端和移动端版本均会受到影响。

人工智能架构、操作模式和运作流程设计的不合理。比较典型的例子有,去年某著名快递企业的快递柜,被人发现使用用户的照片就可以轻松通过其多维特征识别系统的安全验证,从而取走物品;目前还有一些企业的无接触考勤系统也未能基于三维特征来进行识别,也存在类似问题,这种由于各种原因导致的架构或工作流程设计缺陷使得人工智能系统的安全性存在漏洞,容易被不法分子利用。

另外,AI模型的可检测性、可验证性、可解释性普遍不足,在目前AI应用优势领域的语音、图像、棋类竞技类场景,可解释性差可能问题不大,因为结果一般是可以快速取得并且显而易见的,只要AI系统识别的结果是好的,人们可以忍受它继续以黑盒形式存在。但对于有些场景,不可解释性则会带来一些法律上或者业务逻辑上的关键风险。例如在银行给用户发放贷款前的AI评估系统中,如果AI模型无法给出做出相应判断的依据和来龙去脉,那就无法获得用户的充分信任,如果连其深层次的判断原理和规则都无法得知,该系统也就很难说是一个安全的系统。

综上可见,人工智能技术是一把双刃剑,用好了可以造福人类,而如果用不好,甚至被恶意利用,也会给个人、企业、社会甚至国家的安全带来危害。未来我们需要更多地从基础技术到顶层设计上,从AI应用的全流程上考虑,对人工智能系统和技术进行端到端的安全设计和优化,以使人工智能技术能朝向构建信任和理解,尊重人权和隐私的方式进一步蓬勃发展。

智东西认为近几年来,随着数字化基础设施的不断完善,再加上以深度学习为代表的算法上的突破,人工智能技术日渐成熟,已经在安防、金融、客服、工业制造等领域,取代了大量重复性高、繁琐枯燥或者大量使用人工并不经济的工作,不仅降低成本,而且生产效率提升也十分显著。 随着5G商用落地,高带宽、低延迟、大接入的特性将会进一步拓宽人工智能应用场景的边界,未来3-5年,为人工智能技术在产业智能化的爆发奠定坚实的基础。