17310456736

VR/AR的核心技术不是一项单一的技术,需要通过多种技术融合

发布时间:2020-05-05  来源:立鼎产业研究网  点击量: 1240 

VR/AR 这需要一方面避免视觉上的眩晕,一方面匹配人类的小脑运动系统,同时辅助声音仿真,才能达到 VR/AR的终极目标。可以说,VR/AR 必须硬件软件两手都要硬。

一、视场角FOV提升沉浸感

视场角FOV 是提升沉浸感的重要参数。说到光学显示,就必须提到视场角 FOVField ofVision)的概念,它主要表示人眼所能看到的图像最大角度范围。一般人水平方向双眼是 200°,会有 120°的重叠。双眼重叠部分对于人眼构建立体和景深非常重要,人类的垂直视角大约为 130°。现实世界中,一般当FOV 大于 110°时,人通常会采取转动脑袋的方式,而不是斜着眼去注视视角边缘的画面,否则会增加疲劳感。根据《2018 年虚拟(增强)现实白皮书》,达到“深度沉浸”的 FOV 需要约 140°。

视场角 FOV 示意图


资料来源:公开资料

人类和兔子的 FOV 比较


资料来源:公开资料

不同沉浸等级下的技术参数要求


资料来源:《2018年虚拟(增强)现实白皮书》

FOV 与产品体验就像鱼和熊掌不可兼得,未来光学显示技术依然任重而道远。为了得到更大的视场角 FOV,就需要缩短眼睛与透镜之间的距离,或者是增加透镜的大小,但是

这会产生更严重的屏幕的晶格感(当屏幕 PPI 不高的情况下,随着视场角增大,单个像素的放大倍数会越大),甚至产生对眼睛的伤害。认为未来 FOV 的提高需同步伴随屏幕的分辨率提升(从 4k 8k 甚至 12k)。

镜片厚度、眼睛与镜片距离与 FOV 的关系(在不改变头显设备大小的前提下)


资料来源:VR LENS LAB

二、光场显示消除眩晕

光场(LightField)是空间中光线集合的完备表示,采集并显示光场就能在视觉上重现真实世界。根据腾讯优图实验室曹煊博士的表述,“Light Field”这一术语最早出现在Alexander Gershun1936年在莫斯科发表的一篇经典文章中,后来由美国MITParry Moon Gregory Timoshenko 1939 年翻译为英文。但 Gershun 提出的“光场”概念主要是指空间中光的辐射可以表示为关于空间位置的三维向量,这与当前“计算成像”、“裸眼 3D”等技术中提及的光场不是同一个概念。学术界普遍认为 Parry Moon 1981年提出的“Photic Field”才是当前学术界所研究的“光场”。简单来说,光场就是指定空间内所有光线信息的总和,包括颜色、光线亮度、光线的方向、光线距离等等,其除了可以像普通屏幕那样显示基本的图像信息外,还能显示景深信息。

人类的立体视觉的生理感知主要包括双目视差、移动视差、聚焦模糊。

1、双目视差binocular parallax ):视差即同一个物体在左右眼中所成的像之间的轻微偏,最形象的例子就是当人注视自己的鼻尖时,就会产生明显的双目时差,这也说明物体离眼睛越近,双目视差越大,距离无限远时,双目视差将消失。

2、移动视差(motionparallax ):当远近不同的物体在空间中移动时,在人眼中产生的位移会不同。这个很容易理解,例如我们坐在车上时,眼前的景物移动很快,远处的风景却缓缓移动。

3、聚焦模糊(Accommodation):当我们聚焦于眼前的某个物体时,远处的事物将会处于模糊状态,睫状肌起到了调解眼球焦距的作用。

VR/AR  设备聚焦模糊的缺失引起使用者的眩晕。当前的 VR/AR 设备虽然可以产生双目视差(为双眼分别产生画面)和移动视差(可以随便用户的移动提供不同角度的画面展示),从而产生一定的沉浸感,但是展示的“远处”和“近处”都是从离人眼相同距离的屏幕上发出的光线,人眼始终聚焦在固定的虚拟屏幕上,无法自适应地重聚焦,使得人眼的睫状肌无法产生不同的曲张状态,这与真实世界的“远”、“近”所产生睫状肌反应是不一样的。双目视差和聚焦模糊所呈现的远近距离的差异导致大脑产生深度感知冲突,长时间佩戴将引起视觉疲劳和眩晕。

光场显示有望消除眩晕。在光场显示技术发展过程中,出现了多种光场显示技术方案,引起广泛关注和研究的主要有五种技术:体三维显示(Volumetric 3D Display)、多视投影阵列(Multi-view Projector Array)、集成成像(IntegralImaging)、数字全息DigitalHolographic)、多层液晶张量显示(Multi-layer Tensor Display)。目前 Google Seurat Amazon Go 都在与小型初创公司如 LytroOtoy8i 等竞争开发基于光场显示的 VR/AR技术,但是依然处于这一技术应用的初级阶段。。

传统平面显示与光场显示技术方案对比


资料来源:公开资料

三、定位技术打开新“视”界

VR头显的定位追踪技术主要为分为Outside-in (由外向内)和 Inside-out (由内向外)两大类型。Outside-in 依靠外部的摄像头和发射器来捕捉和追踪用户的动作,而Inside-out 定位追踪技术是利用设备自身以及更多的人机交互,而不是依靠其他外部传感器实现虚拟场景里的空间定位。

Valve 推出Lighthouse(灯塔)激光定位技术。Valve 借助房间内的两个独立探测盒子(位于两个相对的顶角),结合头显和手柄上的超过 70 个光敏传感器,通过计算接收激光的时间来计算传感器位置相对于激光发射器的准确位置,通过多个光敏传感器可以探测出头显的位置及方向。而 Valve SteamVR 2.0追踪系统进一步扩大了范围(从 4.5*4.5 米到 10 *10 米)。灯塔每秒完成15-30 次定位,精度较高,但是由于机械结构要需要精准可靠且寿命长,成本会比较高,此外反射激光的物体(如镜子等)会对定位产生干扰。

Oculus Rift采用主动式红外激光+ 九轴传感器位定位(俗称“星座定位技术”)。Oculus Rift通过两台红外(不可见光)摄像机拍摄头显以及手柄上的红外灯(不同的红外灯具有不同的闪烁频率,用于区分 ID),进而传输到 CPU,通过视觉算法过滤掉无用的信息,从而获得红外灯的位置,利用四个不共面的红外灯在设备上的位置信息、四个点获得的图像信息即可最终将设备纳入摄像头坐标系,拟合出设备的三维模型,并以此来实时监控玩家的头部、手部运动。此外,Oculus Rift 产品还配备了九轴传感器,在红外光学定位发生遮挡或者模糊时,利用九轴传感器来计算设备的空间位置信息。由于九轴会存在明显的零偏和漂移,那在红外光学定位系统可以正常工作时又可以利用其所获得的定位信息校准九轴所获得的信息,使得红外光学定位与九轴相互弥补。但是由于摄像头视角有限,从而限制了使用者的使用范围。总的来说,受限于摄像头的分辨率,以及图像识别的误差,定位精度没有灯塔系统高。

Oculus Rift 的星座定位技术


资料来源:公开资料

索尼 VR 采用主动式光学定位技术。索尼 PlayStation VR 设备采用体感摄像头(双目)+PS MOVE 发光球体,以定位人的头部及其活动在三维空间的位置,且摄像头和手柄须配合使用。在确定好头显的三维坐标(xyz 三个自由度)后,PS 系列采用九轴传感器来计算另外三个自由度及旋转自由度,从而得到六个空间自由度,最终确定手柄和头显的空间位置和姿态。这套系统通过拍摄的 MOVE 手柄光点大小,来判断手柄与摄像头的距离,准确度不高,导致 MOVE 手柄定位不佳,并且摄像头拍摄范围同样有限。

索尼 VR 采用主动式光学定位技术


资料来源:公开资料

Inside-out 定位追踪技术虽然 低成本,但是精度和鲁棒性较差。Inside-out方案使用计算机视觉算法执行“由内向外”跟踪,使用的特定算法类型被称为即时定位与映射(SLAMSimultaneous Localization And Mapping),以三角定位算法为基础,主要通过比较来自加速度计、陀螺仪的旋转和加速度以及这些特征如何变化,从而确定头显的位置。SLAM方案比较简易,无需外置的红外传感器或者红外摄像头等,成本相对低,但是很明显在黑暗中效果将较差(因为是可见光图像识别),另外当控制器被手臂或者其他障碍物遮蔽时也将无法工作,精度往往较差。

几个典型的采用 SLAM 技术的头显


资料来源:公开资料

几种 VR 定位技术的比较


资料来源:公开资料

四、FOV传输技术和编解码能力是VR场景化基石

——视频清晰度的持续提升推动数据量增加,FOV传输逐步取代全视角传输的趋势明显。

1、全视角(等质量)传输。终端接收到的一帧数据中包含了用户可看到的空间球对应的全部视角信息。用户改变视角的交互信号在本地完成,终端根据视角信息从缓存到本地的帧中解出对应 FOV 信息,在播放器中矫正还原,因此仅由终端保证 20ms MTPMotion ToPhotons)时延(从 IMU 或视觉传感器检测头部/手部的运动,到图像引擎渲染出对应的新画面并显示到屏幕上所对应的时延),不涉及网络和云端时延,这一技术路线对带宽要求较高,时延要求较低,属于“用带宽换时延”。在内容准备侧,须编码全视角 VR 内容,准备多个质量的 VR码流,用户端根据带宽选择VR 码流播放,相当部分传送到用户端的内容数据因 FOV 视场角影响损失浪费。

2FOV 传输。终端接收到的一帧数据中不再包含空间球的无差别全部视角信息,而是根据用户视角姿态构造对应的帧数据,终端判断用户转头改变视角的姿态位置,并发送至云端,请求新姿态对应的帧数据。因此 20ms MTP 既包含终端处理时延,也包含网络传输和云端处理时延,该技术对带宽要求降低,时延要求变高,属于“时延换带宽”,目前呈现由全视角传输的“带宽换时延”向基于 FOV 传输的“时延换带宽”方向发展。

目前的 FOV 传输技术存在以下三条发展路径:

1、金字塔模型(Facebook提出)。在内容准备侧,针对每个视角准备一个全视角的质量不均匀的码流,模型底部为高质量用户视角区域,随着金字塔高度的上升,其他区域通过亚采样降低分辨率。终端根据用户当前视角姿态位置,向服务器请求对应的视角文件。缺点是多耗费头端 GPU 编码、CDN 存储和传输带宽。

2、基于视频分块(Tile )的 TWS Tile Wise Streaming传输方案。在内容准备侧,将 VR 画面划分为多个 Tile,每个区域对应一个可以独立解码的码流,同时准备一个低质量全视角的 VR 码流,根据用户视点和视角只传输观看范围内容的高质量 Tile视频分块和最低质量全视角视频。该方案被 MPEG 组织 OMAF 工作组采纳,并写入了新近标准文档《ISO/IEC FDIS 23090-2Omnidirectional Media Format》中,被推荐采用。采用按需传输、部分解码策略的基于视点自适应 TWS 传输方案可有效解决VR 业务应用中的高分辨率全景视频传输带宽、解码能力和渲染输出三大问题,根据用户的即时观看区域动态地选择传输视频分块,可以有效地节省网络流量开销。同时为保障用户转头时,无察觉地切换新视点高质量内容,传输一个质量基本可接受的全景视频流,因此 20ms MTP 可由终端保证,云端和网络只需保证切换新视点时,高低质量内容的切换时间在用户能明显感知的范围内即可(200-300ms)。以 8K 2DVR 为例,若采用 TWS 方案进行 FoV 传输,低清背景流码率约 6~15Mbps,高清 Tile流总和约 80Mbps,网络传输的是背景流和 FoV 视角范围内的高清 Tile 流,如此一来,终端不再需要解码全部视角的高清视频流,可有效降低终端解码压力。

3FOV+方案。FOV+不是全视角编码,而是不同视点的剪切视频流编码,通过传输比FOV 角度略大的画面来应对网络和处理时延。例如以用户转头速度 120°/s 估算,则 50ms 6°,即各方向多传 6°画面可以补偿 50ms RTTRound-Trip Time)时延,降低交互体验对网络 VR 端到端时延小于 20ms 的要求。

——VR直播需要强大的编解码能力支撑。

1、采集或拼接内容编码压缩:当使用采集端拼接时,视频拼接后的数据量对存储和传输的要求非常高,需要经过视频编码进行数据压缩再传给云端;当使用云端拼接时,需要将 VR 摄像机采集的原始内容经过编码后传至云端,云端先解码,然后拼接,再将拼接的内容重新编码。

2、转编码处理:云端对于注入的经过编码的视频流,需要转编码,如从 H.264 编码转成更高效的H.265编码,则需要先进行H.264 解码后再使用 H.265 重新编码。

3、终端解码:终端需要对视频流进行解码播放。

由于 VR 直播视频拼接后输出的是平面视频形式,因此其编解码技术本质上与传统平面视频相似,当前主要采用 H.26x 系列的编解码标准。相比传统直播,VR 直播内容分辨率更高、数据量更大,同时直播要求实时性,因此需要更高效的编解码能力。随着 VR 视频分辨率的不断提升至8K及以上,高度密集的数据将带来了数据存储和传输的挑战;同时,FoV 传输技术的应用也需要编码技术的配合。

VR直播关键业务流程(采集端进行画面拼接)


资料来源:公开资料

VR直播关键业务流程(云端进行画面拼接)


资料来源:公开资料


本文相关报告

2018年中国裸眼3D发展现状调研及前景走势分析报告(完整版)
2018年中国裸眼3D发展现状调研及前景走势分析报告(完整版)

从技术发展趋势看,裸眼3D显示技术大体上可以分为三个阶段:分像3D显示、光场3D显示和全息3D显示。分像3D显示是现阶段裸眼3D显示的主要方式,其特点就是通过光栅分像让人眼看到不同的图像产生立体视觉,适合于不同尺寸大小的裸眼3D显示要求,其不足就是存在观看舒适...

标签:VR/AR

决策支持

17310456736在线客服

扫描二维码,联系我们

微信扫码,联系我们

17310456736