顶旺备用网开户_顶旺备用网开户A轮融资,机器之心专访山世光

中国围棋网2017年10月13日 01时10分58秒
62

原标题:中科视拓获数千万pre-A轮融资,机器之心专访山世光

机器之心原创

作者:邱陆陆


10 月10日,中科视拓对外公布,获得安赐资本领投的数千万元 pre-A 轮融资。这是去年秋天中科视拓宣布成立,并获得线性资本领投的千万级天使轮融资后,首次公开融资消息。

去年初秋,中科院人脸识别专业研究员山世光携千万级天使融资创业的消息引发了人工智能领域内一次不小的震动,如今整整一年过去了,人脸识别领域繁盛如烈火烹油,而中科视拓这家静水深流的公司却并未给我们太多机会得以一窥其庐山真面目。9 月,机器之心来到中科视拓,与「学者山世光」聊了聊人脸识别学界 20 年里走过的万水千山和仍需努力的未竟革命,与「企业家山世光」谈了谈人脸识别在业界里能做的、要做的、想做的事,他的新身份带来的新视角,以及他通过赋能推动 AI 边界拓展的新计划。

以下为采访实录:


人脸识别领域的「激荡 20 年」


我从 97 年做本科毕业设计的时候就开始做人脸识别,概括下来,这 20 年里人脸识别领域经历了几次小起伏和一次大起伏。


如果从历史的角度看,94 年到 97 年其实是一个人脸识别的小高潮。美国的国家标准与技术研究院(NIST)在 1994-1995 年的时候举办了一个竞赛,叫 FERET(Face Recognition Technology),并且建了一个包含一千一百多人,数千张照片的人脸数据库。虽然现在看来这个数据库规模很小,但是在当时已经是很大的数据了。当时有一些美国的知名高校,比如 CMU、UMD、哥大,在 94、95 年参加竞赛,取得了一些进步,然后在 97 年的时候发表了一些文章。其中有一篇发表在 PAMI 上面的,叫做 Fisherface [1],可能现在还是自 91 年的 Eigenface [2] 以来,整个人脸识别领域引用最高的文章之一。Fisher 代表的是费舍尔线性判别分析(Fisher Discriminative Analysis)算法,对输入图像 X 用 W 做线性变换 Y = WX,将其降维映射到另一个空间得到向量 Y,而问题的核心在于如何找到合适的 W。97 年 Fisherface 这篇文章采用了线性判别分析方法,简单来说就是找一个空间,在这个空间里同一个人的照片尽可能聚集在一起,不同人的照片尽可能远离。这就是就是费舍尔判别准则:把同一个人的照片间距离称为类内距离,不同人的称为类间距离,判别函数试图让类内距离尽可能小,类间距离尽可能大。而 Fisherface 就基于这样一个准则去寻找 W,做线性变换。这个工作的影响非常深远,一直到 2010 年前后,很多人脸识别方法都还是在以这个准则为目标来寻求所谓最优的变换。


90 年代的小高峰过去之后,2002 年到 2004 年还有一些非常重要的工作,在对图像进行线性变换前先对它做特征提取。其中影响力最大的是 Gabor 小波变换 [3] 和 LBP(Local Binary Patterns)[4]。其中,Gabor 小波其实是一个加窗的傅里叶变换。我们把原图用 Gabor 滤波器函数进行处理,处理后维度可能比原图更高,例如,用了 40 个 Gabor 小波滤波器的话,维度会变成原图的 40 倍,我们在此基础上再去求 W,一方面 W 可以把特征维度降低,另一方面还是通过 W 实现类似 Fisher 的目标。


Gabor 小波变换是很早就有的方法,但是这个工作的意义体现在和后来的深度学习有密切的关系。Gabor 小波滤波器的参数,或者说权重,是通过 Gabor 小波人为定义出来的。深度学习的底层其实也是一些滤波器,它和传统方法的不同就是参数不是人为定出来而是通过数据学习出来的。而二者的联系在于,通过学习得来的底层滤波器非常像 Gabor 小波滤波器或者高斯导数滤波器。尤其是在一个不是特别深的卷积神经网络里,前面几层,尤其是第一层的滤波器会非常像人为定义出来的滤波器。这并不是一个偶然现象,其中是存在必然联系的,我们可以认为二者都是在试图提取一些特定朝向的边缘特征。除了与深度学习的联系之外,这个工作在性能上也较 Fisherface 有了大幅度的提高。


后来大家普遍觉得,寻求一个把不同人分得很开的低维空间这样一个非常复杂的目标可能不是一个简单的线性变换能够解决的。毕竟我们要把图像从非常高维的空间映射到非常低维的空间,同时又希望获得好的判别能力。所以大家想方设法地去找一些非线性的变换。我们实验室在 2007 年发过一篇 ICCV 的工作 [5],是在 Gabor 小波滤波器的基础上做分段线性来逼近一个可能非常复杂的非线性函数。这个工作后来也申请了专利,并授权给合作伙伴银晨做了大量的应用。这些应用包括国家出入境管理局的基于数亿护照照片的人脸识别系统,以及全国十余个省的省厅级大库人员比对系统。这也是人脸识别的在国内第一波成功应用,解决的是一个人有多个户口或护照的「多重身份问题」,这些系统最多在一个省内就识别出数以万计的有多重身份的人,其中不乏洗白了身份的在逃人员。


除了分段线性外,另一种常见方法是用 Kernel 技巧做非线性的特征提取。此外,2000 年《科学》杂志上的两篇文章,Isomap [6] 和 LLE [7],引领了流形学习这个领域的进展。因此 2000 年前后,特别是 03、04 年的时候,国内和国际上很多人开始做流形学习。流形学习试图找一个非线性的变换,得到一个好的空间,能够把类内聚集,类间分开这个目标实现得更好,本质上也是想解决非线性问题。


2009 年有一个稍显昙花一现的方法是稀疏表示。它本质上还是一个线性模型,只不过没有添加 L2 正则项,而是添加了 L1 或者 L0 的。我们倾向于认为它在信号处理等底层视觉处理上是有用的,但在人脸这样高层任务的处理上,不解决特征提取这个最根本问题。


2012 年左右,ImageNet 的巨大成功直接把深度学习带到了人脸识别领域。从 2013 年开始,人脸识别的所有技术非常迅速地切换到了深度学习上。深度学习的核心就是特征学习,换句话说,就是不再人为定义 Y = WX 形式的特征,而是交给数据去学习一个通过神经网络实现的 Y=f(X) 形式的变换。


深度学习有几个非常重要的特征:第一是非线性,并且和 Kernel 方法相比,是一个显式的非线性。Kernel 方法是通过在原始空间中进行 Kernel 函数计算逼近目标空间中的两个输入的点积,但由于 Kernel 函数的种类非常有限,所以不一定能找到适合特定问题的 Kernel 函数。第二是逐层抽象,这非常符合过去研究者一直期望找到的特征提取方式:从底层的边缘、角、点这样的基础特征,到圆、椭圆这样的稍微复杂的模式,再到眼睛、鼻子、嘴这样的部件,到脸型、是否带眼镜等属性,最后是性别、身份、表情等高级属性。这样的特征提取方式非常符合人在认知方面的需求。第三是技术上解决了多层特征提取问题,原来人为设计滤波器的时候做不了很多层。比如在一层 Gabor 小波滤波器的基础上再做一层 Gabor 小波滤波器的话,我们已经不知道是什么意思了。LBP、SIFT [8]、HOG 等方法尝试在滤波器的基础上做直方图的表达,然而再往上抽象,就又遇到瓶颈了。


标签:顶旺备用网开户,顶旺备用网开户官网,顶旺备用网开户娱乐

本文链接:http://www.weiqi.cc/developer/116779.html 转载请注明出处