tof相机原理（tof摄像头结构）

3D sensing是智能手机创新的趋势之一，当前正加速向中低端手机渗透。目前实现3D sensing共有三种技术，分别为双目立体成像、结构光和ToF，目前已经比较成熟的方案是结构光和TOF。其中结构光方案最为成熟，已经大规模应用于工业3D视觉，TOF则凭借自身优势成为在移动端较被看好的方案。

tof相机原理（tof摄像头结构）

3D结构光最早应用于苹果旗舰iPhone X，结构光原理为通过近红外激光器向物体投射具有一定结构特征的光线，再由专门的红外摄像头进行采集获取物体的三维结构，再通过运算对信息进行深入处理成像。该技术目前共有编码结构光和散斑结构光两种实现类别。结构光技术仅需一次成像就可得到深度信息，具备低能耗、高成像分辨率的优势，能够在安全性上实现较高保证，因此被广泛应用于人脸识别和人脸支付等场景。但结构光技术识别距离较短，大约在0.2米到1.2米之间，这将其应用局限在了手机前置摄像，主要用于3D人脸识别屏幕解锁、人脸支付及3D建模等。

tof相机原理（tof摄像头结构）

ToF（Time of Flight）技术是2018年才被应用到手机摄像头的3D成像技术，其通过向目标发射连续的特定波长的红外光线脉冲，再由特定传感器接收待测物体传回的光信号，计算光线往返的飞行时间或相位差，从而获取目标物体的深度信息。ToF镜头主要由发光单元、光学镜片及图像传感器构成。其识别距离可达到0.4米到5米，因此已有品牌，如OPPO、华为等，将其应用于手机后置摄像。ToF技术具备抗干扰性强、FPS刷新率更高的特性，因此在动态场景中能有较好表现。另外ToF技术深度信息计算量小，对应的CPU/ASIC计算量也低，因此对算法的要求更低。但相对于结构光技术，ToF技术的缺点在于其3D成像精度和深度图分辨率相对较低，功耗较高。

在我们狭义的ToF光学测距概念里，ToF的成像原理还是比较简单的：要测得ToF模组与场景中某个对象（或某个点）的距离，则由ToF模组的光源向该对象发出光（子）。光在发出后抵达该对象，并反射回到ToF模组的传感器。计量此间“光的飞行时间”，在光速已知的前提下，即可得到距离数据。这也是ToF，time of flight得名的由来。

tof相机原理（tof摄像头结构）

实际上具体的ToF摄像头在实施方法上有不同的方案，例如基于脉冲的直接测量dToF方法，时间相关的单光子计数（TCSPC）；不过对于普通的p-i-n光电二极管而言，要直接准确测定光的飞行时间是有相当难度的，所以在移动设备上更多的3D感知方案采用iToF间接测量方法：通过测量反射信号的相位与频率差得到深度/距离信息。dToF与iToF这两种方法分有各自的优缺点，这部分还将在后文详述。

tof相机原理（tof摄像头结构）

2.1 光学测距：ToF与其他方案的对比

事实上，距离测量根据检测机制大致可以分成微波、超声波与光学技术三种。而光学感知技术的优势主要包括了长距离、较广的视野范围，以及最高的空间与深度分辨率，所以自动驾驶、AR/VR、机器人等领域对光学测距的应用更广泛。

前文已经提到过，本文探讨的ToF仅特指其在光学测距（及衍生的3D成像与感知）中的应用。那么ToF在光学测距中，处在什么样的位置呢？这里我们采用2001年 Optical Engineering（《光学工程》）一书中的分类方法。

tof相机原理（tof摄像头结构）

（1）被动方案中比较有代表性的就是立体视觉（Stereoscopy），即手机上如今十分多见的双摄、多摄：2011年前后的LG（如LG Optimus 3D）、HTC（如HTC One）就已经在应用这种技术，即通过两颗摄像头就能构造3D影像。这是一种比较类似于人眼视觉系统的方案，通过三角测量（triangulation）的方式，从不同视角的摄像头获取到同一场景的多张影像，以此获取场景的3D构造。

这种方案不需要主动光源，而且系统设计相对简单。距离信息是基于多张图片在同一物体上的视差，特征匹配就会显得很重要。这种方案在某些情况下存在一些显著缺陷，例如occlusion（某对象对一颗摄像头可见，但对另一颗可能不可见），以及缺乏纹理或者高光对象等。而且它对场景亮度等因素都有需求。

（2）上述被动方案列出的聚焦合成（depth-from-focus）是一种通过捕获场景中各种焦点的不同画面，为影像质量建模，并且执行距离计算的技术。光场相机是应用这种技术的典型。扫描这个场景中不同焦点设定的各个画面，每个焦点最锐利的影像即可确定，距离即可测得。这种技术只需要一颗摄像头，也就没有立体视觉系统的某些问题。不过由于是2D影像分析，所以对于缺少纹理的对象依然存在检测难度，而且因为操作与景深相关，深度分辨率与帧率就会有取舍。

tof相机原理（tof摄像头结构）

上述两种被动测距方案由于都不需要主动光源，因此不需要考量人眼安全问题。相对来说，主动测距也就体现在通过主动光源照射场景，如激光、LED。

（3）分类中的干涉量度法（interferometry）能够提供最高的深度分辨率。这种方法是由反向散射激光束与参考光束发生干涉，产生干涉条纹进行测量。这种方法的问题在于测量距离十分受限，远小于其他方案。

tof相机原理（tof摄像头结构）

（4）在Optical Engineering一书列出主动测距方案中的“三角测量（triangulation）”特指结构光。iPhone X的Face ID脸部识别即是这种方案。结构光系统至少包含一个结构光发射器，和一枚红外摄像头。发射器会发射包含某一种光斑图案（light pattern）的许多光点，由摄像头捕获这些投射到场景中的光点图形，或者说是“编码的结构光”，根据不同光点的形变等状态来计算距离。

Face ID由发射器投射出超过3万个红外光点（图2.1.2），构建起脸部的深度图，在民用市场上这是一种精度更高的方案，或者说相较ToF明显更高，因此相比ToF方案，结构光也提供相对而言更好的生物特征识别安全性：更早华为、三星将ToF模组应用于前摄的方案，其安全性还是比苹果结构光更低的。

结构光系统的一个较大缺点在于，测量距离受到整个模组中，摄像头到发射器的距离（baseline）限制。如果要获得更远距离的3D感知，则需要更远的baseline——即摄像头和发射器要求离得更远，这对于讲究紧凑的消费产品而言成为一个重要制约，也成为制约结构光在手机上应用的问题。所以手机的后摄3D感知方案几乎不可能采用结构光技术。

结构光的另外一些缺点还可能包括上述立体视觉方案中的occlusion（因为立体视觉与结构光本质上都属于triangulation方案，只不过一个是主动，另一个是被动；不过市场上亦有已解决此类问题的方案技术）可致深度判断错误，而且结构光还需要集中能量的光源。

tof相机原理（tof摄像头结构）

从更实际的层面来说，与结构光搭配的算法和算力要求会更多更复杂，这对后端芯片造成了更大的负担和成本的提升；而且结构光从技术上来说也更复杂、成本更高，比如从上述原理简述就不难理解，其发射端的技术要求明显更高；加上它在某些产品，典型如手机上的应用由于测量距离而受限，结构光的市场规模与发展潜力，在我们看来是不及ToF技术的。当然结构光更高的精度令其在某些应用场景仍有相当重要的位置，如对安全有更高要求的支付级别生物特征识别。

有关结构光与ToF技术各自优劣的探讨，亦有不少研究与实验做出呈现，包括深度精度、敏感度等方面的比较[10]。这两种方案的不同，造成两者应用领域可能是不一样的，并不存在相互替代的关系。而且某些市场参与者同时对两者做了投入，例如ams既有针对ToF的方案，也有针对结构光的方案。

（5）ToF技术在民用市场的崛起，很大程度上是因为规避了以上多种方案的缺陷，并在技术复杂度和成本上相对折中，在测量距离、分辨率、系统体积、可适用性、成本等各方面都提供更大的可控弹性。比如说测量距离对手机之类设备而言十分适用（如iPad Pro 2020的LiDAR可实现5米范围内的3D感知与成像）；在不少手机产品中的应用，也表明其体积对于紧凑型设备而言是完全适用的。

这种技术的原理实质已经在前文提过，ToF技术通过发射端来发射光子，在碰到场景中的对象时返回，并由ToF模组的接收端来获得返回信号，计算光子飞行时间或相位差数据，以此获得距离信息。后文还将花更多的笔墨来细数这种技术的具体方法和构成。