微软专利分享WMR系列VR头显支持MR透视效果的图像对齐方法和系统

2023-02-28

图像特征摄像头

(映维网2021年12月27日)为了支持不同的功能，AR/VR系统一般可以搭载不同类型的摄像头。例如可以通过摄像头提供的视频画面来帮助AR/VR头显用户感知现实世界，从而避免迷失方向和/或安全危险。AR/VR系统可以以多种方式呈现摄像头捕获的视图。然而，通过前置摄像头图像来提供真实环境视图的过程带来

(映维网 2021年12月27日)为了支持不同的功能，AR/VR系统一般可以搭载不同类型的摄像头。例如可以通过摄像头提供的视频画面来帮助AR/VR头显用户感知现实世界，从而避免迷失方向和/或安全危险。AR/VR系统可以以多种方式呈现摄像头捕获的视图。然而，通过前置摄像头图像来提供真实环境视图的过程带来了众多挑战。

由于多种原因，前置摄像头的排列方式难以一一对应双眼，而这需要系统对齐前置摄像头的图像内容。通常，为了执行对齐过程，系统需要详细的时间戳信息和姿势信息。然而，因为不同的摄像头可能在不同的时域中工作，所以它们具有时间偏移。另外，时间戳数据有时根本不可用，因为摄像头之间可以彼此远程操作，并且时间戳数据不被传输。尽管对齐图像内容提供了巨大的好处(特别是在全息图的放置和生成方面)，但前面所述的问题构成了一定的障碍。

在名为“Dual system optical alignment for separated cameras”的专利申请中，微软介绍了一种用于对齐图像的方法和系统。

集成式摄像头和分离式摄像头操作

现在请注意图3，图3包括头显305和其所在的环境300。在这个场景中，头显305包括物理集成到头显的集成式摄像头310。集成式摄像头可以是各种类型的摄像头，例如可见光摄像头110、微光摄像头115、热成像摄像头120，甚至UV摄像头125。在一个示例中，集成摄像头310经由视场(FOV)315扫描环境300。

图3同时显示了分离式摄像头320的存在或使用。分离式摄像头是指可以从头显305物理卸下分离的摄像头320。例如，在特定的场景中，可以将分离式摄像头320捆绑或以其他方式放置在用户的胸部。在一个场景中，分离式摄像头320可以不放置在用户的身体上，而是放置在用户持有的对象上。作为一个示例，假设分离式摄像头320安装在自拍杆或另一种类型的延长杆上。

图3同时示出了分离式摄像头320如何与其自身对应的FOV 325相关联。同时，FOV 315的至少一部分与FOV 325重叠，如重叠330所示。重叠330允许实施例能够生成多个图像，然后将图像内容从一个图像覆盖到另一个图像上，以便生成合成图像或具有增强特征的叠加图像。

应当注意，尽管专利主要关注两个图像的使用，但实施例能够对齐来自具有重叠区域的两个以上图像的内容。例如，假设2、3、4、5、6、7、8、9甚至10个图像具有重叠内容。实施例能够检查每个图像，然后将特定部分彼此对齐。然后，所得叠加图像可以是由可用图像的任何组合或对齐形成的合成图像。因此，实施例能够在执行操作时能够利用任意数量的图像，并且不限于仅两个图像。

假设集成式摄像头310为微光摄像头，进一步假设分离式摄像头320为热成像摄像头。所述实施例能够从热成像摄像头图像中选择性地提取图像内容，并将图像内容覆盖到由微光摄像头生成的图像上。就此而言，热成像内容可用于增强或补充低光图像内容，从而向用户提供增强的图像内容。

图4示出了由图3的集成式摄像头310生成的结果图像。图像400的阴影是为了将图像与任何其他图像区分开来。阴影不应解释为集成式摄像头图像400是任何特定类型的图像。

通过分析集成式摄像头图像400中包括的内容，实施例能够确定头显的姿势405(对应图3中的头显305)。例如，通过检测锚点(例如被识别为相对静止或不移动的点)，实施例能够确定头显相对于周围环境的方向或姿势405。

另外，可以为集成式摄像头图像400确定时间戳410。时间戳410标识生成集成式摄像头图像400的时间。当然，时间戳410可以基于任何定时计算，包括例如由原子钟确定的绝对时间，或者，可选地，包括任何类型的相对时间，例如处理器时钟周期等等。

来自图3的集成式摄像头310生成图像400，并且集成式摄像头310以特定刷新率415操作以生成新图像。所述刷新率415可以设置为任何值。然而，刷新率415通常至少在30hz和90hz之间。在一些情况下，刷新率415高于90hz，例如可能为120hz或更高。通常，刷新率415约为90hz。

图4同时示出了由分离式摄像头320生成的图像420。在图4中，分离式摄像头图像420被示为在尺寸上小于集成相机图像400的尺寸，但是所述尺寸差异仅用于说明目的。在一些情况下，分离式摄像头图像420的分辨率可能高于集成式摄像头图像400的分辨率。在其他情况下，分离式摄像头图像420的分辨率可能低于集成式摄像头图像400的分辨率。在某些情况下，两幅图像的分辨率可能相同。

集成式摄像头图像400(例如第一图像)可以是可见光图像、微光图像或热图像之一。分离式摄像头图像420(例如第二图像)可以是可见光图像、微光图像或热图像中的不同图像，或者甚至可能是与第一图像相同类型的图像。

实施例能够分析分离式摄像头图像420中的内容，以根据图3确定分离式摄像头320的姿势425。类似地，可以为分离式摄像头图像420确定时间戳430。在一些情况下，时间戳410相对于时间戳430不同，或者反映不同的时间，使得两个图像可以具有时间偏移。

分离式摄像头320可以具有自己的刷新率435。所述刷新率435可以设置为任何值。然而，刷新率435通常至少在10hz和60hz之间。在一些情况下，刷新率435高于60hz，例如可能为90hz或120hz或甚至更高。通常，刷新率435约为30hz。在一些情况下，刷新率435与刷新率415相同，而在其他情况下，刷新率435与刷新率415不同。当两个刷新率不同时，两个摄像头在不同的时域中工作。

关于姿势确定，图5示出了集成式摄像头500。图5同时示出姿势505，其代表来自图4的姿势405。根据所介绍的原理，姿势505至少指集成式摄像头500相对于其环境的x-y-z位置。

在某些情况下，姿势505可能包括详细说明六个自由度的信息。在某些情况下，姿势505可能包括详细说明三个自由度515的信息。

可使用内置传感器(如加速度计、陀螺仪和磁强计)确定六自由度510和三自由度515。同时可以使用位置追踪传感器来确定六自由度510。

图像对应与对齐

根据专利原理，实施例能够将图4所示的集成式摄像头图像400与分离式摄像头图像420对齐。如图3中所述，由于两个摄像头视场的至少一部分彼此重叠，结果图像的至少一部分将包括相应的内容。所以，可以识别相应的内容，然后基于相似的相应内容生成合并、融合或叠加的图像。通过生成叠加图像，实施例能够向用户提供增强图像内容，图6示出了可用于对齐来自两个(或可能多于两个)不同图像的图像内容的第一类型对齐600。

图6示出了集成式摄像头图像605，其代表来自图4的集成式摄像头图像400，以及分离式摄像头图像610，其代表来自图4的分离式摄像头图像420。这两个图像通常称为“纹理”图像。

实施例能够分析纹理图像(即执行计算机视觉特征检测)，以尝试找到任意数量的特征点。

图6显示了集成式摄像头图像605中的多个示例特征点，如特征点615A、特征点620A和特征点625A。其他特征点使用变暗的圆进行标识，但未标记。请注意，所述特征点与角、边或其他脊线相关，例如毯子和枕头中的褶皱。可对任何类型的特征检测器进行编程，以识别特征点。在一个情况下，特征检测器可能是机器学习算法。

可以使用任何数量的训练数据来训练机器学习算法以动态地执行所描述的操作。

图6同时示出了实施例如何能够分析、检查或审查分离式摄像头图像610以识别特征点，如暗圈所示。示例包括但不限于特征点615B、特征点620B和特征点625B。

例如，实施例检测任意数量的特征点，然后尝试识别在集成式摄像头图像605中检测到的特征点，与在图像605中识别的特征点之间的相关性。例如，已识别特征点615A与特征点615B链接或对应的对应关系615C。类似地，已经识别了对应620C，其中特征点620A确定为对应于特征点620B。已识别对应625C，其中确定特征点625A与特征点625B对齐或对应。

在一个实施例中，对齐过程600包括识别任意数量的特征点，然后识别两个(或更多)不同图像中的特征点之间的相关性或对应关系。

注意，在所述实现中，实施例避免确定分离式摄像头图像610的姿势或时间戳。相反，实施例依赖于特征匹配以确定是否将来自一个图像的图像内容叠加到另一个图像上。

然后，实施例将特征或图像对应630适配到运动模型635，以便将一个图像叠加到另一个图像，从而形成增强的叠加图像。运动模型635可以是任何类型的运动模型。通常，运动模型是一种变换矩阵，其可将模型、已知场景或对象投影到不同的模型、场景或对象上。

在一个情况下，运动模型635可能只是一个旋转运动模型。通过旋转模型，实施例能够移动任意数量的像素，以便将一个图像覆盖到另一个图像上。例如，一旦识别了图像对应630，实施例就可以识别特征点或对应的像素坐标。一旦识别出坐标，则实施例可以使用上述旋转运动模型方法将分离式摄像头图像610叠加到集成式摄像头图像605。

在一个情况下，运动模型635可以更复杂，例如以相似性变换模型的形式。

图7示出了可执行的另一对齐操作700，对齐操作700是为了对齐来自两个图像的内容，以便可以叠加内容以形成叠加图像。

集成式摄像头图像705包括纹理715。纹理715通常指关于包括在图像中的颜色或强度的空间排列的信息。类似地，分离式摄像头图像710被示为包括纹理720。

根据对齐操作700，实施例确定集成式摄像头图像705中的纹理715和/或分离式摄像头图像710中的纹理720不足以执行特征匹配或图像对应匹配。例如，可能在两幅图像中的任何一幅中检测到的特征点数量不足。或者，可能检测到足够数量的特征点，但识别出的对应关系数量不足。基于这一初始确定，实施例求助于或回退至对齐操作700，并利用由各种惯性测量单元(IMU)确定的预测或估计姿势。

具体地，生成集成式摄像头图像705的集成式摄像头与第一IMU 725相关联。类似地，生成分离式摄像头图像710的分离式摄像头与第二IMU 730相关联。所述实施例利用IMU 725来确定集成式摄像头的姿势和利用IMU 730来确定分离式摄像头的姿势。

一旦估计或确定了两个姿势，实施例随后使用这些姿势将图像的一个或多个部分彼此对齐。一旦对齐，则将一个图像的一个或多个部分叠加到另一个图像的相应部分上，以便生成增强的叠加图像。

相关专利：Microsoft Patent | Dual system optical alignment for separated cameras

名为“Dual system optical alignment for separated cameras”的微软专利申请最初在2020年6月提交，并在日前由美国专利商标局公布。