iPhoneX人脸识别,你知道背后的原理吗?

    苹果十周年产品发布了新款Apple Watch、4K版AppleTV,以及iPhone8、iPhone8 Plus以及iPhoneX。当然,最受关注的还是十周年纪念版iPhoneX,这个X其实是罗马数字的10。这个才是重头戏码。

    iPhone X采用了大量新技术,尤其是为了取代指纹技术,苹果推出了“刷脸”方式:Face ID。

图像说明文字

   以后唤醒你的不是闹钟,而是一睁开眼,iPhoneX就跟随唤醒,给你定制化的表情包给一天满满的能量,额呵呵,想想也是要醉了。

   当然最重要的是安全,人脸解锁和面部识别技术苹果采用了3D建模的方式,目前可以达到金融安全级别。虽然国内也有厂商采用类似人脸解锁技术,但是都没达到金融安全级别。

  还有一点就是,iPhone X中取消了指纹模块,越来越多厂商会用全面屏解决方案,但是其中有个难点就是解锁问题,正面放不下,放在背面很多消费者不习惯,放在屏幕下面的话,目前的技术达不到,所以苹果就另辟蹊径采用了人脸识别技术。这个算是比较特别的。

  当然,网络上吵着买iPhone X了 面部解锁卸了妆能不能解开,这个我们就不讨论了,想必美国妹子也是要化妆的,苹果设计师应该会考虑到。


过去的30多年来,人们试图从神经生理学、神经病理学、心理学、脑神经学以及计算视觉的角度对人脸的识别进行研究,并都取得了不同程度的进展,同时也促进了相应学科的发展。计算机技术的迅猛发展以及计算成本的迅速下降使得以前比较费时费空间的一些模式匹配算法,如大样本的引入、多维特征参数的提取、建模等,又重新引起人们的重视。

1.2.1 神经生理学方面的进展

神经生理学在这方面的研究对象主要是那些患视觉认知不能的病人,他们虽然都是视力正常的人,但对于所看见的物体,他们往往不能意识到物体是什么。例如,有的病人能够认出一个个的字符,但却无法说出每个字符所表达的意思[1];同样,有的病人也能够认出一张张的人脸以及人脸上的特征,如鼻子、眼睛、嘴等,但却无法将每张人脸与具体的人联系起来[2]。这说明,这些病人的感知事物的能力是存在的,但识别事物的能力却很差。为了解释这种现象,19世纪德国神经学家Heinrich Lissauer[3]假设人类的认知现象由两个部分组成,一个是感知部分,另一个是联想部分,且两部分缺一不可。感知部分接受外界的视觉刺激,并形成一种内部表示;而联想部分根据这种内部表示,在相应的存储区域进行搜索,以期得到对应的表示,并做出反应。

根据这个假设,可以认为那些视觉认知不能的病人虽然能够感受外界的视觉刺激,却可能不能形成相应的视觉表示,从而不能识别事物;或者有的病人也能够形成视觉表示,却无法在存储区域内找到相应的视觉表示,从而也造成视觉不能。同时这个假设对于了解人类视觉的形成以及识别事物的能力也有一定帮助。上面所述的视觉感知部分相当于目标的提取或特征的提取;而关联部分相当于目标的识别,通过各种识别技术将待识目标与库中的对象进行比较,以完成分类、识别等任务。

1.2.2 脑神经学方面的进展

英国St. Andrews大学的心理学教授Perrett等人[4]在研究中发现,人脑右半球的某些区域受到损害后,可能会影响其对于人脸的识别,因此,他们认为人脑中可能存在专门执行脸部识别的细胞,并称之为脸部细胞。其他一些研究者[5, 6]在用于实验的恒河猴的下脑皮层中,也发现了具有类似视觉行为的细胞,并由此推断,在下脑皮层中有专门用于分析人脸的机制。

对于这种现象,一种解释认为不存在专门的脸部细胞,否则,也有可能存在类似的其他细胞,这样的话,大脑中将充满许多专门的细胞,显然这与事实不符;另外一种解释认为不存在所谓的脸部细胞,而存在由某些细胞组成的视觉区域,用于解释外界的视觉刺激,而不单用于脸部的识别。

1.2.3 计算机视觉方面的进展

20世纪40年代计算机的出现改变了传统的计算方法,实现了计算自动化。随着计算机能力的增强,计算技术不断向各个领域渗透,从传统的计算领域到各种工程以及生活中。过去人们强调的是计算机的计算能力,随着计算能力的增强和人工智能研究的深入,人们对计算机与人类的交互能力提出了更高的要求:使用计算机来直观描述客观世界物体,而不是采用过去模型化的抽象表示形式。计算机视觉是人工智能研究的一个分支,是人工智能的目标之一:计算机视觉研究的目标是使计算机能够处理传感器输入的现实信号。

人脸识别系统需要对图像进行处理,图像处理是与计算机视觉紧密相关的,因此人脸识别研究需要对计算机视觉有深入理解,这里首先讨论计算机视觉中的一些基本问题[7]

  • 如何区分光的亮度及强度的不同?

  • 眼睛的空间分辨率是什么样的?

  • 如何精确地比较和估计面积和距离?

  • 如何感知色彩?

  • 检测和区分物体时利用的是什么特征?

上面的基本问题是人类视觉系统的一些主要问题。加拿大McGill大学智能机器中心的Levine教授[8]比较了人类视觉系统和计算机视觉系统。计算机视觉的发展不仅与计算机科学中图形学等方向有很大联系,它还与心理学、解剖学、机器人学等领域有较密切的联系。计算机视觉研究关心的最基本的问题是,采用物理学和光学的基本假设,如何从一幅图像中提取出物体的信息和采用什么数学模型来建立客观世界,这决定了计算机视觉需要使用认知处理、几何模型、目标和规划方面的知识。

在人脸识别中,有许多问题同样与视觉系统有关,比如如何从图像的描述中抽象出实际的物体块,并根据人脸图像的特点区分出人脸属性,这些都是人脸图像系统识别讨论的问题。

本节将介绍计算机视觉理论、Marr视觉理论、基于推理的视觉理论,使读者从不同角度理解计算机视觉。

1.计算机视觉理论

计算机视觉就是用各种成像系统代替视觉器官作为视觉信息输入手段,由计算机来代替大脑完成处理和解释,并根据解释结果作出相应的决策。计算机视觉的最终研究目标就是使计算机能像人那样通过对视觉信息的处理来观察和理解世界,具有自主适应环境的能力[9]

人类的视觉系统是功能最强大和完善的视觉系统,但人们并不能描述和解释自身的视觉系统是如何进行信息处理的,通过对计算机视觉的研究、模拟,人们有可能逐步地揭开人类视觉的信息处理机制,从而了解人类的思维机制、推理机制等。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要和有趣的研究领域。同样地,通过其他途径(如神经解剖学、心理学等方面)对人类视觉的研究,也会给计算机视觉的研究提供启发和指导,两者有相互促进作用[10, 11]

除了神经解剖学、心理学,对计算机视觉的研究还要借助其他学科的知识,如图像处理、模式识别(图像识别)、图像理解(景物分析)、图像生成等。

(1)图像处理

图像处理技术把输入图像转换成具有所希望特性的另一幅图像。例如,可通过处理使输出的图像平滑或有较高的信噪比,同时还可通过增强处理来突出图像的细节,以便于对图像特征的检验。在计算机视觉研究中经常需要利用图像处理技术进行预处理和特征抽取,如各种数学变换技术等。

(2)模式识别(图像识别)

模式识别技术根据从图像抽取的统计特性或结构信息,把图像分成预定的类别,如人脸识别、文字识别或指纹识别等。在计算机视觉中模式识别技术经常用于对图像中的某些部分进行处理,例如分割区域的识别和分类。

(3)图像理解(景物分析)

给定一幅图像,图像理解程序不仅描述图像本身,而且描述和解释图像所代表的景物,以便对图像代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图像与三维景物之间的区别。图像理解除了需要复杂的图像处理技术外还需要关于景物成像的物理规律的知识以及与景物内容有关的知识。

(4)图像生成

根据图像的特性如对称性、纹理渐变性以及图像目标的动力学知识和其他的先验知识,可以生成一幅图像,或者当图像信息存在部分缺失时,能够将缺失的那一部分信息补上,从而得到完整的图像信息。例如,对于二维图像,通过图像生成技术能够得到其三维结构信息,这一点如应用在模式识别研究中,则能够大大地提高识别系统的健壮性。

视觉表示的能力分为高级和低级能力[12]。通常知识和目标只是视觉过程中的高级能力,视觉还需要许多被认为是低级能力的能力。能力的区分是由对概念的表现程度和表示程度决定的。比如,一个物体的“亮度”、“颜色”、“距离”、“长度”等图像特征属性都属于低级能力。例如一个物体的反光,如果采光是在复杂背景遇到黑色部分后反射出来的光线,物体也会被感知为黑色。当然感知的颜色不仅仅只和反射光的波长有关,因为看到的颜色并不会随光照度的变化而完全不同。这种形成立体合成是近距离三维感知的低级能力,还有对物体感知和从背景中分离都是视觉系统的低级能力。

前面的一些论述都采用了一个假设前提:视觉系统的基础是客观世界的一些基本假设必须是永远不变的,即视觉感知的效果是建立在非虚拟的基础上的。

低级能力和高级能力之间最明显的差别在于:低级处理能力是难以捉摸的、无意识的,并与其他直接内省的系统联系不紧密;高级能力是在低级处理能力基础上的综合反应,这一过程和人类本身智能紧密地结合在一起。例如,在记忆时,对于一个图像的视觉记忆印象是很深刻的,而对于图像定量的言语描述和细节反应则相对肤浅。生物学中对人类的记忆机制和视觉感官机制都不是非常清楚,因此计算机视觉研究也将在高级能力方面进行深入探讨。

在计算机视觉中面临的一个非常困难的问题是,必须用普通的数字式硬件来重新构造专门的、并行的和部分生物视觉系统所具有的、最基本的、但却难达到的能力。计算机视觉既涉及“前处理”的低级能力,又涉及知识的高级认知利用,二者密不可分。视觉终止于何处,对这个问题了解得并不清楚。但是对于任何先进的视觉系统,都需要对客观世界有一个强有力、协调一致而又富有成效的表示法。没有这些表示法,任何系统都不可能从输入中找出固定不变的有关信息,因为输入中含有不断变化的采光、视点以及形状的少许差别,噪声和其他较大的但无关的种种变异等信息。这些表示法通过对视觉世界的结构进行预测和设想可以免去某些计算工作。另一方面,如果一个系统要成功地用于各种不同的任务,则需要某些“元”能力:它必须对其本身的目标和能力以及所采用方法的结果进行模拟和推理,即使感知过程并不总是“感到”它与认知一样,然而这些复杂而相关联的模型仍必须用类似于认知方法来处理。

通过上面对计算机视觉能力的分层分析,结合计算机的表示特点进行探讨,采用数字化方法来描述视觉表示。视觉感知是视觉输入和已有客观世界模型间的关系,在图像与解释、描述和提取图像信息的模型间存在着表示方法上的很大距离,为了沟通它们,计算机视觉系统通常有一系列表示法,用于连接图像输入和输出(即最终描述、判决或解释)。计算机视觉包括这些中间表示法的设计和通过各种算法来构造它们,并把它们彼此联系起来。

一般这些表示法可以概括为4类:广义图像表示、分割图像表示、几何表示、关系表示。物体的每个部分可能有几层表示法或几个联合表示法,虽然表示法从前期的低级信号到后期的认知符合存在着不严格的次序,但它们之间的实际工作顺序和信息流并不是单方向的,当然并非每一个计算机视觉应用都需要所有级上的处理,有些级可以跳过,或者处理过程可能从某一级开始向上或向下进行到某一级就结束。

广义图像是输入数据的图像(图像型)和类比表示法,图像最初可能由几种不同方法产生,通过域无关处理可以产生对以后处理更直接有用的其他图像表示法,例如边缘元素(灰度)阵列。有时在这一级可以产生特征图像,这些图像揭示出被成像景物的物理特性(例如表面方向、距离或表面反射能力)。并行处理通常可以产生广义图像。更普遍地大多数“低级”处理可以用并行计算来实现。

分割图像是由广义图像通过将其元素聚集成可能与景物中有意义物体相联的集合而得到的。分割一个平面多面体景物可能得到一组对应于多面体端面的二维区域。在产生分割图像时,有关该问题特定域的知识对于节省计算和克服因噪声和不合适数据所引起的问题都是很重要的。比如针对一平面多面体,利用这种知识可以事先就知道线段应当是直的,另外还可以知道纹理和运动在分割中是很重要的。这对计算机视觉研究有重要意义。

几何表示用于获取有关二维及三维形状的所有重要概念,形状的定量表示既困难又重要,这些几何表示法必须具有充分的能力以实现复杂和通用的处理,例如对于采光及运动效应的仿真。几何结构对于编码以前获得的知识和重新表示当前的视觉输入都很有用,因此计算机视觉需要某些基本的数学工具。

关系模型是复杂高级处理中所用各种表示的集合。知识表达中的一个重要工具是语义网络,它可以简单地用作组织知识的一种手段,或用它来对知识形式化。高级处理经常要利用先验知识和感性经验前所得到的模型、基本的处理方式,即先建立表达方法,再与这些表达进行匹配。在高级处理中命题表达变得更重要,它们由关于一个模型是真或假的一些断言所组成,并且由推理规则来处理。推理型方法也可以用于规划,由于规划中自始至终建立情况和动作的模型,因此它必须对随时间变化的、假设的客观世界进行推理,表示的级越高,朝向低级的控制流就越显著,呈现串行处理算法的趋势也就越大。对于复杂的信息处理,这些控制问题是基本的。

计算机视觉本身的研究是与应用无关的,但其结果与很多领域都是相关的。下面列举一些相关应用与计算机视觉研究的关系[10]

  • 机器人学:描述三维景物和机械零件,通过光和X射线对工业任务和物体辨识描述,表现出物体模型和物体反射光模型。

  • 航空图像:主要对地形和建筑物采用可见光、红外、雷达等方式对地图或者外界的几何模型进行资源分析、图像改善、天气预报和一些军事上的用途。

  • 天文学:利用天体辐射光描述其几何形体,并对天体组成进行成分分析。

  • 医学:既可用于描述身体器官,还可用于描述细胞的组成、染色体成分、蛋白质链的分析。一般对于身体器官观察使用X射线、超声波等;对细胞采用电子显微镜,通过形体的模型分析病理学原理和诊断结果。

  • 化学:对化学模型进行分析,采用电子密度得到分子结构。

  • 神经解剖学:用于神经元结构的分析,通过电子显微镜确定神经元的空间位置,描述神经元之间的连通性及神经元之间的传导关系。

  • 物理学:对于新粒子的发现,寻找新粒子径迹的辨识,找出粒子的运动规律。

上面是计算机视觉常见的一些应用。人脸识别的基础就是计算机视觉。

2.Marr视觉理论

美国麻省理工学院的David Marr的视觉计算理论[13]立足于计算机科学,系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果,是迄今为止最系统的视觉理论。Marr视觉理论的出现对神经科学的发展和人工智能的研究产生了深远的影响。

Marr认为视觉是一个信息处理过程,这个过程根据外部世界的图像产生对观察者有用的描述,而且这个处理过程是有层次的。整个处理过程如图1-1所示。

C:\Documents and Settings\Administrator\Application Data\Tencent\Users\646154518\QQ\WinTemp\RichOle\HL8@~TO@2OB15SDMLC62YKO.png

图1-1  Marr视觉信息表示过程

低层视觉(即视觉处理的第一阶段)的目的就是要确定图像信息的变化是由哪些因素引起的。这个过程要经过两个步骤来完成。第一步是获得表示图像中的变化和结构的表象。这包括检测灰度的变化、表示和分析局部的几何结构以及检测照明的效应等处理,第一步得到的结果被称为初始简图(primal sketch)的表象。

第二步对初始简图进行一系列运算得到能反映可见表面几何特征的表象,这种表象被称为二维半(2.5 D)简图,这些运算中包括由立体视觉运算提取深度信息,根据灰度影调、纹理等信息恢复表面方向,由运动视觉运算获取表面形状和空间关系信息等。这些运算的结果都集成到2.5 D图像这个中间表象层次,因为这个中间表象已经从原始的图像中去除了许多的多义性,纯粹地表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据2.5 D图像表示的这些信息可以可靠地把图像分成有明确含义的区域(分割),从而可得到比线条、区域、形状等更为高层次的描述。这个层次的处理称为中层处理(intermediate processing)。

Marr视觉理论中的下一个表象层次是三维模型,它适用于物体的识别,当图像数据具有与目标模型相同的表示形式时,就能够对图像进行识别。这个层次的处理涉及物体本身,并且要依靠和应用与领域有关的先验知识来构成对景物的描述,因此被称为高层视觉处理。

Marr的视觉计算理论虽然是首次提出的关于视觉的系统理论,并已对计算机视觉的研究起了巨大的推动作用,但还远未解决人类视觉的理论问题,在实践中也已遇到了严重困难。英国NewCastle大学的心理学教授Bruce、Young等人[14]认为Marr的三层表示模式是对目标的一种较粗略表示,对于一般的目标识别可能是有效的,但对于需要很精确地对目标加以描述,从而进行识别的情况却可能不适用。例如对于人脸图像的识别,不同目标具有相同的形状,同时同一目标具有不同的表现形式,单纯地使用上述的三层表示模式将无法区分不同的人脸图像。

3.基于推理的视觉理论

由于只根据图像数据本身不能对相应的物体空间结构提供充分的约束,也就是说这是一个约束不充分(underconstrained)的问题。因此,为了理解图像的内容必须要有附加的约束条件。德国柏林学院的实验心理学家Gestalt[15]发现的感知组织现象是一种非常有力的关于像素整体性的附加约束,为视觉推理提供了基础。

心理学家Gestalt所研究的出发点是“形”,他认为任何“形”都是知觉进行了积极组织或构造的结果或功能,而不是客体本身就有的。在视觉研究中,Gestalt理论认为把点状数据聚集成整体特征的聚集过程是所有其他有意义的处理过程的基础。人的视觉系统具有在对景物中的物体一无所知的情况下从景物的图像中得到相对的聚集(grouping)和结构的能力。这种能力被称为感知组织。

感知组织把点状的传感数据变换成客观的表象。在这些表象中用于描述的词藻不是在点状定义的图像中的灰度,而是如形状、形态、运动和空间分布这样的描述。感知组织通过对传感器数据进行整体的分析,得到一组宏观的表象。这样的宏观表象就是进行认知活动时的基本构件,用它们可构成对外部世界的描述。

Gestalt理论反映了人类视觉本质的某些方面,但它对感知组织的基本原理只是一种公理性的描述,而不是一种机理性的描述。因此自从在20世纪20年代该理论被提出以来未能对视觉研究产生根本性的指导作用。但是研究者对感知组织原理的研究一直没有停止。特别是在20世纪80年代以后,加拿大British Columbia 大学的Lowe[15]、美国Carnegie Mellon大学的Witkin和Tenenbaum[16]等人在感知组织的原理以及其在视觉处理中的应用方面取得了新的重要研究成果。

图像说明文字

0 推荐
暂无评论,快来抢沙发哦~
gold washing
gold washing V4

523经验值

相关文章