VR全景视频技术详解

VR全景视频技术详解


VR全景视频技术详解
原始标题:
自从2014年,Facebook花费20亿美元收购了Oculus以来,几乎每天都有VR公司获得投资。视频行业中,国内外各家视频公司也相继推出全景频道,可以实现VR点播及直播业务。早在1955年,Disney拍摄了第一部360°电影--America the Beautiful。拍摄过程利用9台摄像机完成,并采用9台巨大的屏幕围成一个环形的形式进行观看。近年来随着个人计算设备、移动智能终端的发展,特别是云计算技术的发展,VR产业迎来爆发式发展,VR行业在视频、娱乐、游戏、交互等领域的应用得以快速推进。2015年乐视进入虚拟现实行业,发布了其首款终端硬件产品——手机式VR头盔LEVR COOL1,乐视云作为乐视虚拟现实产品的支撑平台,正式开放面向全球的VR视频云平台。2015年7月,乐视云也率先采用全景视频技术完成足球比赛的直播。

乐视云在技术层面为VR时代做好了全面布局。乐视云的全4K云技术能够将VR视频内容清晰度大幅提升,有效缓解目前存在于VR观看中的眩晕问题,其视频压缩技术也能很好地控制数据量;乐视云还在业内首先实现VR 4K实时直播、点播,提供在线VR观看。本文主要介绍视频行业中VR全景视频的技术实现细节。

VR全景视频整体方案如下图所示:主要包括采集、拼接、编码及传输和播放几个部分。


图:VR全景视频整体方案

对于视频内容的生产而言,第一步就是视频的采集。与普通视频生产不同,全景视频的采集需要多台摄像机同时完成。目前常用的采集设备有Google Jump、GoPro、NOKIA OZO、NextVR等。全景视频拍摄设备的取景范围为水平360°,垂直180°。如下图所示:


图:拍摄设备覆盖范围

拍摄使用的全景拍摄设备都是经过相机参数标定的。而在拍摄过程中,我们还需要解决多相机的采集同步的问题。常见的同步方式有:闪光同步(Flash),即检测所有相机视频帧内的“闪光”,如明亮帧,白色帧,利用这个信号进行同步;运动同步(Motion),即检测所有相机视频帧内的运动信息,通过匹配各帧运动量进行同步;声音同步(audio spectrum),即分析所有相机采集到的声音频谱进行同步;以及手动同步(manual),即根据某一个时刻的所有相机采集的视频帧手动进行微调。


图:相机同步方式

完成同步采集后,需要将多相机采集的视频帧进行拼接,而在拼接之前,考虑到各帧是相机在不同角度下拍摄得到的,所以他们并不在同一投影平面上,如果对重叠的图像直接进行无缝拼接,会破坏实际景物的视觉一致性。所以需要先对图像进行投影变换,再进行拼接。一般有平面投影、柱面投影、球面投影和鱼眼投影等。


图:投影变换

完成投影变换后,之后的步骤就是拼接,拼接过程主要有特征提取—特征匹配—配准—融合等步骤。

常用的特征提取方法有SIFT、SURF、ORB、BRIEF等,下图所示为SIFT特征提取过程。



图:SIFT特征提取过程

特征点匹配可以采用SIFT的作者Lowe提出了比较最近邻距离与次近邻距离的SIFT匹配方式,或者KD-Tree算法等。而在匹配过程中,通常使用RANSAC算法对特征点进行筛选。


图:特征点匹配结果
配准的目的是根据几何运动模型,将图像注册到同一个坐标系中,在多幅图像配准的过程中,采用的几何运动模型主要有:平移模型、相似性模型、仿射模型和透视模型等。



完成图像配准后,便可以进行图像融合操作,图像融合技术一般可分为非多分辨率技术和多分辨率技术两类,比如常见多分辨率技术—Laplacian Pyramid,如下图所示:



完成上述各个步骤后,拼接工作基本完成。但是,由于不同角度的画面是通过不同的相机采集得到,最终全景图像会遇到各个区域的曝光不一致的情况,通过曝光补偿的技术可以使得拼接后的全景图像曝光一致。

此外,当场景中的物体存在运动的情形时,融合后的全景图像中会出现“鬼影”的情况。ROD(Regions of Difference)算法都能够消除这种Artifact。





去鬼影前

去鬼影后


上述后处理步骤完成后,便可以得到最终的VR全景视频。为了便于传输和观看,需要对全景视频进行编码,目前尚无专门针对全景视频的编码标准,但乐视云已经投入研发力量,积极参与、联合IEEE等多家标准化组织,开发针对全景视频的新一代编码标准。



对于用户而言,针对编码后的全景视频,要进行终端显示观看。常用的显示设备有PC、Pad、Phone、头显等。显示过程就是将全景视频进行相应投影,如进行柱面、球面投影等。乐视已经开发了多款VR头显设备,为VR全景视频内容的观看提供了完美的体验。

乐视云构建的VR视频云平台,包含以上采集、拼接、编码传输和播放等几个环节。采用多个普通镜头进行多角度无死角的拍摄,使用特征提取、特征匹配、校准、融合和曝光补偿等技术拼接成完整的全景图像;再经H264、H265等视频压缩技术进行编码处理,之后通过RTSP、RTMP、HLS等传输协议进行传输,最后通过相应解码器完成解码播放工作,在不同终端上实现VR、全景等播出形式。使用云端编码技术,乐视云提供的VR视频云平台可以同时支持TV、PC、iOS、Android、H5等各种终端的播出。

虽然VR全景视频已经得到广泛应用,但是在技术、内容等多方面都存在一些痛点,比如缺乏高质量的拍摄设备、观看眩晕、缺乏编码及传输标准、内容匮乏、人与视频内容交互不足等。针对这些痛点,乐视云以及全行业都将不断关注并致力于新技术的变革、新内容的生产,为VR辉煌的明天贡献力量。
来源:全景游