CINNO Research产业资讯,2021年3月12日——麻省理工学院的一个研究团队提出了一种可以基于人工智能程序快速生成全息图的方法。这种程序可以在消费级笔记本电脑上运行,可能会对未来VR和3D打印产生影响。
通过计算机生成全息图的方案需要一定规模的模拟运算,所以一般都需要超级计算机等硬件设备支持。实际上,即使在超级计算机上,这样的模拟运算过程也很慢,而且最终的效果也不是很理想。相比之下,这种新方法基于消费级计算机就能够在毫秒时间内实时生成3D全息图像。
“在这之前,大家都认为使用现有消费级硬件设备,不可能完成实时3D的全息计算过程,”麻省理工学院电气工程与计算机科学系的学生,也是该研究的主要作者Liang Shi说,“另外还有一种存在了数十年的说法:全息显示器进入商用至少还需要10年的时间。”
Liang Shi博士认为,这种基于“张量全息术(Tensor Holography)”的新方法将实现这一目标。
照片和全息图之间的本质区别,在于全息图对每个光波的亮度和相位都做了信息编码。这种更完整的信息编码可以让全息图,更生动地还原真实场景下的视差和深度。为了从光学角度拍摄全息图,我们需要将一束激光分开成相干的两部分,其中一半用于直接照亮对象,另一半则用作后期处理时的相位参考,要知道正是这样的参考相位最终让画面产生深度感。这一类全息图最初在20世纪中叶开发,不过它属于静态全息成像,不能用来拍摄动态画面。
计算机生成全息图(CGH,Computer Generated Holography)技术的诞生,旨在通过模拟光学装置来绕过这些挑战。不过它还是有自己的局限,由于场景中的每个点都具有不同的深度,它无法对每个点进行相同的处理。
“计算机生成全息技术会大大增加全息成像的计算复杂性,”Liang Shi博士说。 实际上,基于这种技术使用超级计算机运行也需要几分钟的时间才能生成一张全息图像。另外一点,现有算法也不能以逼真的精度对遮挡物(Occlusion)进行建模。
在这些背景下,麻省理工学院的研究团队基于深度学习和一种卷积网络,提出了一种使用张量模仿人类处理视觉信息的方法。训练神经网络通常需要庞大,高质量的数据集,另外该团队还要自己组装这些数据集。
他们定制的数据库包含有4000对计算机生成的图像,每对图像都将其中的图片(包括每个像素的颜色和深度信息)和相应的全息图匹配了起来。这一全息图数据库都是研究人员基于一些具有复杂多样形状和颜色的场景创建的。另外,这些场景从背景到前端,通常都具有均匀分布的深度信息。
为了解决前面提到的遮挡物建模精度不够的问题,他们还提供了一组新的基于物理特性的算法。
最终,该拥有逼真训练数据集的算法在优化计算之后,成功地提升了其生成全息图的能力。该网络的运行速度比传统基于物理结构的计算方法快了几个数量级。
另外,该方法还能够基于普通计算机生成的(具有深度信息的)图像,在毫秒时间内快速生成全息图。这种紧凑的张量网络,整个运算过程需要的内存小于1 MB。
研究人员Wojciech Matusik说:“考虑到最新的手机一般都有数十和数百GB的存储空间,这一内存需求几乎可以忽略不计。”
就其VR应用,该团队认为这种技术可以提供更逼真的画面,消除长时间使用VR时的眼睛疲劳和其他副作用。另外,该技术还可以用到一些能够调制光波相位的显示器中。
“这是一个巨大的飞跃,它可以完全改变人们对全息技术的态度,”Matusik说,“我们觉得神经网络就是为此而生的。”