本篇文章2308字,读完约6分钟
(movidius myriad 2,图像来源:movidius)
编者按:本文的作者是Inmeji公司的首席执行官朱·,该公司推出了基于手机摄像头的手势交互产品“手形简历”。
背景:在科学和技术领域有另一个大的收获。芯片巨头英特尔收购了硅谷计算机视觉领域的初创公司movidius。该公司的主要产品是低功耗的视觉处理器:万千系列vpu。今年8月,英特尔还斥资3.5亿美元收购了一家专门从事深度学习的公司nervana。此次收购将使英特尔获得用于深度学习的知识产权和特定产品,从而满足人工智能开发和数据中心对芯片的强劲需求。
为了解释为什么英特尔在短时间内做出了如此大的改变,让我们来看看2016年的cvpr。
(计算机视觉和模式识别国际会议。涵盖的问题包括但不限于对象识别和检测、图像的高级语义理解、人脸、优化方法、对应关系求解、摄像机定位和3D地图构建(slam)。Cvpr是最大的计算机视觉年度聚会。2016年,它收到了2,145份提交材料和643份论文,接受率为29.9%,有3,600名参与者。(
据不完全统计,在这次世界顶级计算机视觉会议上,超过70%的文章都与深度学习有关。在图像分类、目标检测和语义分割等领域,深度学习的效果大大优于传统算法。据微软亚洲研究院称,即使在传统方法如三维视觉和底层图像处理相对主流的领域,许多学者也基于深度学习给出了自己的解决方案。
以手势识别为例,传统的识别方案大多基于彩色空,如rgb、hsv和ycrbr。然而,这些算法不能消除类皮肤物体和黑色皮肤对识别精度的影响。也有一些算法,如hog+svm分类识别方法,不能提高暗光和背光条件下的识别精度。然而,在深度学习的帮助下,例如通过r-cnn训练大量标记的手势图像数据,所得到的模型在处理复杂背景和黑暗环境下的手势识别时要比传统方案好得多。
一方面,深度学习可以在空之前带来计算机视觉领域的进步,但另一方面,这种方法对硬件和数据的要求也在空.之前通过r-cnn网络训练一组手势需要大约10万张预先标记的图片。同时,在学习图像的过程中,对gpu也有很高的计算要求,训练时间不可低估。即使在高性能平台上获得了r-cnn或更快的r-cnn的网络模型,当识别算法在一些低计算能力的平台(移动电话和平板电脑)上运行时,也不能考虑实时性和高识别率。例如,yolo目标识别算法在高性能平台上可以达到45 fps,但其map仅为63.4左右。速度更快、地图更好的r-cnn只有7 fps。
目前,如果你想在低gpu性能的设备上运行深度学习算法,比如手机,这仍然是一个很大的挑战。只有通过优化算法,它才能在主流的android和ios平台上运行。例如,在单目手势识别领域,来自以色列的vision、Superreality Company和来自中国的hand cv可以在全球范围内提供商业解决方案,其中Superreality Company的解决方案更依赖于手势轮廓的识别,而hand cv的解决方案结合了彩色空房间、轮廓和yolo深度学习方案。因此,通过机器学习解决计算机视觉问题的想法已经逐渐转移到手机等移动平台上。
然后,由于深度学习如此明显地提高了识别精度,就像iphone 5s加入m7协处理器一样,在计算机视觉领域的一些移动设备上需要一种特殊的低功耗处理芯片。它不仅能分担中央处理器和图形处理器的任务,而且能更有效地处理深层学习问题。它可以从芯片层面优化卷积神经网络的训练特征,从而促进基于移动设备深度学习的计算机视觉算法的普及。
正如背景描述中提到的,英特尔已经在为这个方向做准备。与此同时,上游芯片供应商英伟达(nvidia)也在去年年底发布了捷森tx1 gpu模块,主要针对人工智能市场。
(jetson tx1 gpu模块包括一个256核gpu,浮点运算达到teraflop级,基于maxwell架构,64位arm a57芯片组,4gb lpddr4 ram内存(每秒带宽速度为25.6gb),15gb本地存储模块,802.11 2×2交流wi-fi解决方案和1gb以太网端口。它还配备了jetson linux软件开发工具包。jetson tx1 gpu模块的面积只有50*87毫米,只有信用卡的大小。虽然外形尺寸很小,但jetson tx1 gpu的性能不可低估。(
捷森tx1 gpu模块的首批客户包括微软、亚马逊、谷歌、ibm等技术巨头,他们将在自己的无人机或机器人设备上搭载该模块,以便顺利运行人工智能应用。下面展示了一个将芯片和深度学习相结合的应用产品:凯斯普勒无人机。
(凯斯普无人机:视频)
计算机视觉领域中一些看似不可逾越的鸿沟很容易被深度学习所跨越,而深度学习的缺点自然需要高计算性能,随着硬件的成熟,这些缺点将得到解决。随着人工智能技术的发展和人们对它的重视,计算机视觉的应用场景不再局限于工业领域,而是逐渐进入大众市场,如道路标志和行车记录仪的车道分析、基于手机的移动虚拟现实的手势识别等。这些功能的高质量实现需要在有限的cpu和gpu性能下运行深度学习算法。然后,一个特殊的cv处理芯片将成为整个芯片制造业的下一个绿洲,这就是为什么英特尔将在短时间内收购生产视觉处理器的movidius和深度学习公司nervana。同时,由于手机、平板电脑、无人机等设备对功耗的敏感特性,这种专门处理cv内容的芯片有必要以低功耗运行。
因此,在计算机视觉领域遇到的问题可以通过深度学习得到更好的解决,而在移动平台上运行的深度学习问题最终将通过低功耗的cv处理芯片得到解决,真正的人工智能离我们越来越近。