为何都要开发AI芯片?
去年3月,谷歌AlphaGo人机围棋大赛让人工智能跃入大众视野。软银集团创始人孙正义曾表示2040年会有100亿的机器人,我们每个人都会拥有一到两个机器人,我们的生活乃至各行各业都会被人工智能的时代所颠覆。但是,如今人工智能的硬件水平还没有成熟到可以大规模产业化的程度。大体上看,目前限制人工智能发展的核心因素有两个,一是算法上还没有达到完善的程度,大家对智能计算的过程理解不够。二是硬件性能不够,人脑是由千亿个神经元,百万亿突触构成的复杂网络,现在主流的神经网络算法(如AlexNet和VGG)也有百万、千万的神经元和突触,而现有芯片和这种神经网络算法还存在数量级的差距。举例来说,谷歌目前需要使用上万个CPU运行7天来训练一个识别猫脸的深度学习神经网络;科大讯飞曾经采用大量CPU来支持大规模数据预处理,运行GMMHMM等经典模型的训练,但在千小时数据量下效果也不理想。
因此,这就需要重新设计一颗专门服务于人工智能的处理器芯片。所以我们看到,在有众多技术人员执着于算法研发的同时,也有很多厂商选择开发出性能足够强的硬件,来满足人工智能对计算资源的需求。在硬件选择上,CPU、GPU、FPGA、DSP、ASIC都成为了大家的选择方案,而不同的选择方向所表现出来的就是,国内外众多厂商推出的五花八门、服务于人工智能的芯片。随着人工智能潮流的演进以及英特尔、英伟达等巨头关于人工智能战略的快速推进,人工智能芯片大战的格局正在形成。
英特尔和英伟达:强者之争
在人工智能硬件的话语权争夺上最响亮的莫过于CPU巨头英特尔和GPU巨头英伟达。2015年12月,英特尔以167亿美元收购了Altera,这成为英特尔历史上最大金额的收购案。2016年4月,英特尔收购了意大利半导体制造商Yogitech,这家公司制造了专为机器人和无人驾驶汽车开发的芯片。2016年8月,英特尔又以4亿美元的价格收购了一家AI初创企业Nervana;2016年,英特尔宣布开发用于深度学习的处理器XeonPhi家族新成员KnightsMill。而英特尔的竞争对手英伟达因为在人工智能领域有着不错的优势,成为了资本市场的宠儿。曾经以游戏GPU芯片见长的英伟达,股价从徘徊在30美元迅速飙升至现在的100多美元。除了股价的连连上涨,目前谷歌、微软、百度等互联网巨头都在使用英伟达的GPU芯片,让服务器学习海量的照片、视频、声音文档以及社交媒体上的信息,来改善搜索和自动化照片标记等各种各样的软件功能。
因此,英特尔和英伟达这两个强者之间的芯片之争的焦点主要在于,CPU和GPU谁更适合应用在人工智能领域?去年展示KnightsMill特性之后,英特尔还将其与英伟达的MaxwellGPU的性能功耗对比做过论战。
其实,KnightsMill和英伟达的GPGPU都是在人工智能硬件中扮演加速器的角色,这和众核芯片与GPGPU在超算中扮演的角色颇有类似之处。据悉,英特尔的众核芯片双精浮点性能为3TFlops,性能功耗比为12GFlops/W。英特尔宣称:“四片KnightsLandingXeonPhi芯片比四片GPU快2.3倍”、“使用英特尔优化版的Caffe深度学习框架时,XeonPhi芯片比标准Caffe实现快30倍。”言下之意就是英特尔的众核芯片在深度学习上比英伟达的GPU更为高效。当然,英伟达宣称英特尔提供的测试结果有取巧的成分:“如果英特尔使用更新一点的CaffeAlexNet实现结果,它就会发现4块上代英伟达MaxwellGPU实际上比4块英特尔XeonPhi服务器集群快30%”。英伟达还以其DGX-1系统举例说明DGX-1可以与21个XeonPhi服务器集群相媲美,甚至还略有胜出。
虽然英特尔和英伟达都宣传自家的产品有优势,但就目前情况来看,双方实际上都还没有完全战胜对方。不过,本质上英特尔的众核芯片和英伟达的GPGPU依旧是以CPU向量扩展和GPU架构这类传统架构去处理深度学习应用,其优势在于可以拿非常成熟的技术去抢占新兴市场。虽然短期来看英特尔和英伟达的芯片可以凭借在集成度和制造工艺上的优势和技术成熟度占据先机。但是长远来看,由于CPU、GPU并非针对深度学习的专业芯片,和谷歌这类专门针对人工智能开发的处理器相比,在运算效率和性能功耗比上可能会处于劣势。
去年4月6日,英伟达发布了一款支持深度学习的新型芯片TeslaP100以及可用于深度学习的计算机DGX-1。
时至今日,英伟达的人工智能硬件布局已经颇有建树。
频繁收购AI公司之后,英特尔算是补齐了人工智能技术的短板。
除了收购AI公司,英特尔自家的XeonPhi系列处理器也非常适合用于深度学习领域。如果认为英特尔在人工智能领域只有XeonPhi众核芯片的话就未免太小瞧它了。英特尔在收购Altera之后,Altera也推出了可以用于深度学习和科学计算的FPGA。CPU+FPGA被认为是为人工智能硬件提供了一个新的选择。不过这是否能压倒英伟达呢?目前来看,两者之间的竞争还在继续。
谷歌TPU:稳中前进
去年5月,谷歌CEO桑达尔·皮查伊在GoogleI/O开发者大会上公布了之前打败九段棋手李世石的秘密武器—TPU(TensorProcessingUnit),这是一款为机器学习而定制的芯片。今年4月6日,谷歌首次公布了该芯片的技术细节。
谷歌表示,按照摩尔定律的发展轨迹,现在的TPU的计算能力相当于传统CPU七年之后才能达到的计算水平。目前,TPU已经服务于谷歌的AI系统RankBrain、街景StreetView、AlphaGO等应用服务。不过,根据谷歌的论文显示,TPU其实是定制的ASIC芯片,核心是一个64K的8位矩阵乘单元阵列和片上28MB的软件管理存储器,峰值计算能力为每秒92TOP/S,具有相对比较小的芯片面积和相对较低的功耗。
当然,谷歌公布TPU技术细节时也不忘与英特尔和英伟达的产品对比。根据谷歌发布的技术论文,TPU相比类似的服务器级英特尔HaswellCPU和英伟达K80GPU,TPU在AI运算测试中的平均速度要快15~30倍。重要的是,TPU的每瓦性能要比普通的GPU高出25~80倍。实际上,谷歌TPU在和英特尔、英伟达产品的对比中同样略有取巧—拿相对老旧的英特尔Haswell和英伟达K80GPU来做对比。
尽管谷歌在强调TPU的优势之时并没有说明很多细节,但该篇论文透露出一个重要的细节—TPU采用了传统脉动阵列机的结构。脉动阵列架构是一种非常老的技术,早在上世纪80年代初,中科院计算所的夏培肃院士和李国杰院士就曾将脉动阵列架构用于石油勘探。也许正是因为脉动阵列架构是非常经典的老技术,因而经过反复验证后比较成熟,谷歌才会采用。
一直以来,谷歌都被冠以“最为成功的互联网公司”的美名,但在这些绝佳的赞誉背后,其实每一天都是其庞大的服务器网络在小心翼翼地支撑着这个科技巨头的稳定运行。为了适应人工智能时代的游戏规则,谷歌也不得不做出改变来开发机器学习专用处理器TPU。对于TPU,尽管谷歌表示并不会对外出售,但不可否认的是,它的出现加快了全球人工智能芯片大战的进程。
正如20年前多媒体应用及3D游戏蓬勃发展倒逼显卡硬件升级一样,互联网大数据的兴起对人工智能芯片提出了新的需求。
谷歌TPU支撑了AlphaGo强大快速的运算力,但谷歌此前一直未曾披露其细节。国家队:锋芒毕露
在人工智能芯片领域,除了英伟达、英特尔、谷歌等国际巨头的争战之外,还有一股力量不容忽视,那就是正在崛起的中国芯片行业。早在2013年,国内的寒武纪科技公司便成功研制了全球首个深度学习处理器;2014年,寒武纪科技发表了全球首个多核深度学习处理器架构;今年4月7日,寒武纪深度学习处理器获得了中科院为期18个月,共计1000万元的专项资金支持,用于项目研发及其产业化。而在此之前,寒武纪科技公司和中科院计算所已经研发了世界上首款深度学习处理器芯片“DaDianNao”、“DianNao”。
目前,寒武纪原型芯片的具体数据并没有公开,从学术论文的角度来看,DianNao主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02mm2。DianNao的深度学习平均性能超过主流CPU核芯的100倍,但是面积和功耗仅为1/10,效能提升可达3个数量级。此外,DianNao的平均性能与主流GPGPU相当,但面积和功耗仅为主流GPGPU的百分之一。
而DaDianNao则是在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm工艺下,DaDianNao的主频为606MHz,面积67.7mm2,功耗约16W。单芯片深度学习性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64颗芯片组成的高效能计算系统较主流GPU系统的性能提升甚至可达450倍,但总能耗仅为1/150。可以看出,寒武纪这种针对深度学习而开发的专用芯片具有非常大的性能优势。
除了寒武纪科技公司,国内传统芯片企业也在布局人工智能芯片领域。比如中星微电子在去年6月20日率先推出“全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片”,并取名“星光智能一号”。据称,这款基于深度学习的芯片运用在人脸识别上最高能达到98%的准确率,超过人眼的识别率,而且该芯片已于去年3月6日实现量产,出货量为十几万件。
很长时间以来,中国的芯片行业都是处于旁观者的角色,但在现在的人工智能芯片时代,以寒武纪科技公司为代表的中国企业也取得了不错的成绩,可以说如今中国芯片行业有了很大的进步。
写在最后
综合来看,无论是英特尔的众核处理器,还是英伟达的GPGPU,本质上都是以CPU向量扩展和GPU架构这类传统架构去处理深度学习应用;而FPGA虽然会在新兴领域取得一定成绩,但却有可能缺乏性价比,而且在新兴领域发展壮大后,容易转为专用芯片;谷歌TPU选择了脉动阵列机这个非常经典但却相对保守的技术路线无疑也是在稳中求进,也许很有潜力。
其实,国外大公司之所以会选择相对保守的技术路线,原因就在于它们在CPU、GPU、FPGA等方面已经取得技术优势地位,这些技术成就使其在面临剧烈变革时,过去的技术成果反而会成为其难以抛弃的包袱。相比之下,国内公司在上述领域和国外有着不小的差距,反而使科研团队可以轻装上阵,比如中国的寒武纪、中星微电子则做出了彻底的突破,找出了具有自我特色的通用智能处理器之路。
当然,对于国内公司来说,它们在市场推广能力上可能无法和西方国际巨头相比。对于这些中国公司而言,如何将优秀的技术转变为优秀的产品并将之推广出去,为市场所广泛接受才是问题。只有真正将产品产业化,并让市场接受之后,国内的企业才能真正和国际巨头在智能芯片这种基础支撑性的产品上展开直接竞争。
寒武纪DianNao结构
据悉,深层神经网络学习技术使得机器的识别错误率下降了25%,但这一进步需要更强大的数据处理能力,为此谷歌开发了TPU。
或许在未来的人工智能时代,GPU不会替代CPU,TPU也不会取代GPU,AI芯片市场还可能出现更大的需求和繁荣。