中国创投地图2
上QQ阅读APP看书,第一时间看更新

1.3 人工智能中的3D行为识别及其商业化

■ 熊效李(皓图智能科技创始人兼CEO)

我于1997~2000年在微软工作,后来去硅谷创业,开办了一家做压缩芯片的公司,2008年这家公司被收购。回国后我又创办了一家VR公司,于2013年被收购。2014年我创办了皓图智能科技,研究“3D行为识别”。

从1997年到2008年,我一直在视频领域工作,2004年开始进入3D领域,那时电脑芯片开始加入图形处理器(Graphics Processing Unit, GPU),我是交互式网络电视(IPTV)芯片负责GPU的设计师。所以在3D行业里,我们有13年的经验积累,而从创办VR公司到现在,在行为视频领域,我们有近十年的经验积累。

 

视频领域的两个派别:2D派与3D派

 

人类在视频领域能够发展到何种地步?这个问题的答案有很大的想象空间。人眼能够判断物体的前后关系,但不具备精确测量距离的能力,只能靠叠加关系来了解整个三维空间。现在视觉领域里有两个派别,一个派别使用2D信息,比如2D人脸识别,另一个派别使用3D信息,比如3D行为识别。

人类希望用立体视觉观察世界。只有X轴和Y轴组成坐标系的空间,即二维空间,包含的信息量很少,所以人们需要的是对三维空间的观察和理解。用2D摄像头拍摄三维空间所呈现出的画面,其实是一种变形空间,我们的世界是三维世界,只有对三维世界进行三维采集、三维分割,才能观察到并理解真实的空间,进而解决真实的空间中存在的问题。因此,我对使用2D信息的派别持悲观态度。举个例子,一个人经过正在拍摄的摄像头时可能在低头,也可能在做其他动作,有时这个人被摄像头拍摄到的角度很特殊,面部只露出一部分,在这种情况下摄像头很难利用2D信息进行人脸识别。

 

3D行为识别:一种与众不同的识别方法

 

皓图的技术为什么叫“3D行为识别”?在判定一个人的行为时,皓图没有使用常规方法,而是通过加入3D技术,使用了一种全三维的方法,这种方法也可以被称为数学空间、几何空间方法。到目前为止,公司80%的精力都放在从数学层面上描述这个世界。

3D行为识别的研发具有一定难度。以前皓图做线下消费行为识别的项目时就觉得非常难,因为动态识别需要对人的动作进行跟踪,而跟踪是一件很不容易的事情,凭借单个摄像头进行跟踪并不现实。在把整个三维空间全部矢量化后,这项工作就变得简单一些了。首先把空间和人矢量化,某人进入一个场景后,设备会对他进行轨迹跟踪,然后对他全身的骨骼动作进行精确的分析和判断,他的手指做了什么运动,碰到了哪些地方,所有轨迹设备都可以进行跟踪和识别。这项技术不属于机器学习的范畴,而属于几何计算的范畴。

目前皓图的3D识别技术每秒需要处理3.4G数据,虽然数据量很大,但海量数据也带来了更多信息。面对一个面积一万平方米、能容纳十万人的场景,皓图的算法依然能够完成行为识别。现在,皓图在技术上已经可以做到在任意复杂的环境里面100%跟踪并识别任意多人,可以记录每个人进出监控区域的时间,并重现其运动轨迹。不管这些人是抬头还是低头,即便只能看到半个耳朵或一只手,皓图同样可以实现对这些人的识别与跟踪。体积很小的物体也可以被精确跟踪,动态轨迹可以精确到厘米。

皓图智能目前主要针对两类行为进行识别,一类是异常行为的识别,另一类是日常状态的识别。异常行为目前皓图只能识别出三种:倒地、撞墙、打架。可能很多人觉得识别“倒地”这个动作很简单,很多公司都可以做出来。其实到目前为止,几乎没有哪家公司检测倒地行为可以实现100%的准确率,能够达到40%的准确率就很不错了。但皓图检测的准确率是100%,因为皓图依靠的是对每个人骨骼特征和轨迹的分析和判断,并且掌握了地面的平面方程,因此可以做到精确计算。当某人倒地时,他身上每一个肢体部位的速度都能被皓图完全掌握。可能有些人会对100%的准确率持怀疑态度,实际上这个准确率不需要测试,因为这就是数学的特点,在几何空间内,数据完全可以被计算出来。

 

3D行为识别的落地

 

目前皓图的技术已经落地,主要场景在监狱和派出所。在一个可以容纳12人的监舍里,安装四台设备,警察就能够完全掌握监舍内所有犯人的行为轨迹,完成异常行为的识别和提示,比如犯人在卫生间里停留的时间超过一个标准,机器会自动报警。

我对人工智能的发展持悲观态度。人工智能需要和一些垂直领域进行联合,比如在语音识别领域,除了识别讲话内容,机器能否把讲话者的微表情或是肢体动作识别出来?能否把微表情或是动作同样转换为文字?这种技术的研发可能需要十年甚至更长时间,研发难度非常大。

 

熊效李 皓图智能科技创始人兼CEO,电子科技大学特聘教授,国家“千人计划”专家。毕业于美国伯克利大学,曾在美国Microsoft、WISchip/Micronas等多家跨国公司担任高级管理职位。