-
北京工业大学毕业设计(文献翻译)
基于混合
现实的
3D
实时交互系统
摘要
本文中描述了一种基于增强现实
的实时
3D
视频会议系统,通过这项技术,使用者以
自己的视角观察被编辑过的真实世界,它将身在偏远的地方的合作者呈现到现场中。我
们通过估计相机和基准标记间的
3D
转换来将合作者
的形象注册到世界中。我们描述了一
种新的从轮廓中获取形状的算法。这种算法能以每秒
30
帧的速度生成合作者的影响和相
关
的深度图。当这种虚拟的视觉被添加在真实的景观上时,它将给人一种强烈的印象:
合作
者就是重建场景的一部分。我们也证明了真实的合作者与虚拟场景的交互。最后,
我们考
虑了应用有型的
AR
接口实现真实世界中的使用者和虚拟空间中
的合作者的交互。
关键字:视频会议、增强现实、基于图像的
渲染、轮廓中提取形状、互动
一、导言
科幻小说已经预示了许多巨
大在计算和通信领域的巨大进步。在
2001
年,一个太空
p>
奥德赛,弗洛伊德博士使用可视电话与家人通话。这是一个早期的屏幕可视的
2D
视频会
议。这项技术是现在已是司空见惯。最近,
在电影星球大战中描述了
3-D
全息沟通。在
< br>本文中,我们也许是第一个应用计算机图形学创造了全息电话。
现有的会议技术有着很大的局限性。只有音频的会议在在对话中失去了重要的视觉
线索,这导致了干扰和重叠的增加
[8]
,对话者间消除歧义和互动的困难。
[14]
传统的
2
维视频会议改善事宜,但众多的用户动
作和手势不能被捕获
[13]
,参与者之间没有空间的
线索而且参与者之间不能进行眼神的交流。参与者只有在屏幕前才能被看到,而且参与
人数也是被显示器的分辨率限制的。这些限制破坏通信保真度
[34]
p>
,和交流的流畅性
[10]
,
并增加干扰和重叠
[11]
。配套的虚拟环境提供了
面对面交谈
[4]
的共同空间的线索,只是
把使用者从真实世界中分离出来。此外,非语言沟通使用传统的化身很难传达,这导致
存在感的降低。
我们定义了完美的视频化身致使使用者不能
区分屏幕中的是真实的人在还是一个远
程的合作者。也许与完美的远程展示最接近的目标
就是未来办公室的工作。
[27] Ogi et al
的虚拟
的视频化身
Mulligan
和
Dan
iilidis
的工作
[23][24].
。所有系统都应用了多个相机去
重建一个参与者的几何模型。所有的系统使用多个摄
像机来构建一个参与者的几何模型
,
然后使用该模型为远程的合
作者生成适当的视图。尽管令人印象深刻
,
这些系统目前不生<
/p>
成整个
3 D
模型
——
不能在虚拟化身周围进行
360
度移动。此外
,
由于这些系统的输出是
以投影屏幕为媒介的其显示是不可移植的。
本文的目标是通过
引入增强现实的视频会议系统,提供一个这些问题的解决方案。
增强现实技术是指在真实
场景中实时的插入由计算机生成的
3D
内容。见
[2],[3]
。通常,
1
北京工业大学毕业设计(文献翻译)
使用者通过一个前方装有摄像头的头盔显示器来观察世界。视频实时的捕获,修改和传
送
到观察者的视野中。实质上,我们创造了一个活生生的化身并且通过
AR
技术来将他显
示到真实的世界中。
(
< br>见图
1)
除了创建一个极具吸引力的存在感
,
这种设施广泛应用于在
论文的第一部分
,
我们回顾以前的工作在基于
―
增强现实
‖
会议。会议和协作应用程序的范
围。支持技术的系统是一个新颖方法在可以实时交互速度下生成任意视图的合作者。在
第二部分中
,
我们描述了算法和证明它在实时沟通应
用程序的竞争技术中的一些优势。在
论文的第三部分
,
我们介绍了一些其他我们的技术可以适合的应用场合。这些包括可视化
的
合作者在虚拟的空间中
,
和一个新颖方法用户在现实空间与虚拟
的合作者
,
使用有形的用
户界面技术。
图
1
p>
观察者通过前方装有摄像头的头盔显示器观察世界我们的系统探测环境中的标记并
且在上面加上了一个实时的生动的视频组件,并且其内容可以随着观察者的观察方向调
整。
二、现有技术
Billinghrst
和佐藤第一次探索到
AR
是如何能被用来支持远程合作和提供视频和非语
音
交流的工具
.
用户佩戴一个轻量级的
HMD
就可以看到单一的远程用户以一个真实大小
的现场虚拟视
频窗口出现在真实卡片上
.
整体效果就是与会者出现在预计的本
地用户的真
实工作场所
.
因为卡片是
远程参与者的物理表示
,
我们的合作接口能作为看作为
Ishii
的有形接口比
喻的变种
[Ishii97]
。用户能安排卡片的空间来创造一个虚拟空间上的会议空
间,卡片也是
足够小的,足以被轻便的携带,保证了产品的可移植性。用户可以不再被要
求呆在桌面
而且可以说能在任何地点开会。所以远程的与会者变成了任何世界中环境的一
部分,潜
在上能达到身临其境的感觉。
AR
会议接口和传统桌面视频会议有许多别的明显差别。远程用户可以显示为一个真<
/p>
人大小的图像并且可以立刻被显示为一个潜在的任意数量的远程用户。摘要虚拟视频窗
p>
口可以恢复协作。最后
,
远程用户的形象完
全就是真正的虚拟相机放置在用户的眼睛里自
然观察到的东西。
2
北京工业大学毕业设计(文献翻译)
在用户研究中对比了
AR
会议和传统的音频和视频会议的主题显
示出远程用户在
AR
会议条件较高的存在感,这是一个容易察觉
到非言语交际线索
[6]
。确实,引人注目的自
然
AR
会议依靠视频会议的条件充分展示了一个用户在
接近显示器,并在
AR
条件给虚拟
合作
者建立面对面的谈话。
最近的工作
[
7]
提出一个
AR
会议界面,支持多个
远程用户和应用的
alpha
映射技术,
从背景中提取远程用户的视频并且创造一个更自然的图像(见图
2
)。在这个接口用户与
用户研究中认为,提供更多的合作存在的
AR
条件和提高参与者之间的对话的理解。
三、
3
–
D
实时增强现实
3.1
概述
在本文中,我们旨在在视觉场景插入远程合作者得实时图像(见图
1
和图
2
)。当观
察员移动他的头,
这个合作者视角可以适当的变化。空间中存在的结果可以得到一个关
于远程合作者的稳定
的三位感官体验。
为了实现这一目标,我们要求:(一)头戴
式摄像头,(二)现场的位置估计,
(三)在当的合作者的观点是渲染成的场景,可能采
取的闭塞帐户。我们依次考虑这些
问题。
头盔摄像机位姿估计
一个大洋
VisorCY-DH-4400VP
头盔显示器(
HMD
)提出相同的
640
×
480
像素的图
像和两只眼睛被视为通过现场。一个
PremaCam SCM
系列彩色安全摄像机连接到本
HMD
前面。它能
在
640x480
分辨率捕获每秒
25
张图像。
我们聘请的加藤和
Billinhurst
的标记跟踪方法
[18
]
。我们简化的姿势插入的
2-D
进入
现场的黑色和白色的基准标记的估计问题,虚拟的内容与每个标记。
由于这些标记的形状和图案,据说很容易找到这些标记,计算它们相对位置的相机
。
总之,摄像机图像阈值化和连续的暗区使用连通分量算法确
定。轮廓寻求技术确定
这些地区的轮廓。不完全包含四个角落被丢弃的轮廓。我们估计,
拟合直线的角落位置
和每边的交点决定。一个射影变换用于映射标准形状封闭区域。然后
交叉与存储模式唯
一建立在一个校准相机的图像,标记的身份和定位标记角落的图像位置
以标志和方向确
定三维位置。此信息表示为欧氏变换矩阵与摄像机的标记协调制度,并用
于呈现相应的
视图进入现场的虚拟内容。增强现实标记跟踪和校准软件
< br> [35]
。
3
北京工业大学毕业设计(文献翻译)
图
2
向着更自然的增强现实视频会议
的发展。
[6]
的初始工作,从单一的合作者的
2D
影响标记(左)。后续的工作增加了合作者的数量,并且引入了
α
绘图去增加二维视频
流的真实感(中)。本文中
我们介绍的实时全
3D
视频会议(右)。
四、虚拟视觉点产生器
4.1
背景
虚拟合作者可以无缝融入现实世界中,我们需要为每个视频帧生成相应的视图。为
了实现
这一目标,我们必须生成一个合作者的
3-D
形态,每帧的模型
。一种新的视图可
以很容易地构造给定的形状和几个已知的观点。
一种方法是使用立体深度的深度信息收集。立体重建,现在可以实现在速度的互动<
/p>
[17][23][24]
。然而,由此产生的稠密深度图是不健
全的没有现行制度的相机。基于图像
相关的渲染技术
[28]
[1]
没有明确计算的深度,但仍需要密集的图像之间的匹配,同样容
< br>易出错。
一个更具吸引力的方法是已被
[21] [22]
从轮廓信息使用的快速
3-D
模型建设。一些
相机放在被测物体周围。在每个相机的每个像素被列为属于主体(前景)或背景。导致
前景表面被称为“剪影”。在每个相机的每个像素收集的光(很窄)被置于三维空间中
的基础的矩形金字塔,金字塔的顶点在摄像机的焦点和金字塔的无限延伸的焦点。可以
假设为背景像素,这个空间是空置的。形状的剪影算法由最初假设空间到被完全占据,
从每个摄像头使用的每一个背景像素,瓜分了空间碎片留下的前景对象的代表。
图三
虚拟
视点产生于从轮廓中产生的形状,相机拒绝了背景中的点。
A
与
C
之间的
点已经经过处理并与背景图像
进行合成。这些点被标记为未占用且为洋红色。未被处理
的点被标记为黄色。
D
点是在相机
2
中是背景
,
所以它将被标记为未被占用并且搜索将继
续沿着这条线。
4
北京工业大学毕业设计(文献翻译)
显然,将改善、重建模型,增加更多的摄像机。然而,由此产生的深度重建可能无
法捕捉对象的真实形状。最好的重建形状被称为“视觉船体”
[20]
。尽管有这个限制,
形状、剪影匹配技术有三个显着的优势。首
先,它是更强大的立体视觉。背景像素,即
使误判为一个图像对象的一部分,其他的轮廓
很可误判违规空间。二是速度明显比任何
立体声要求广大。它通常有一个缓慢的更新速度
。第三,技术是价格低廉,无需专门的
硬件。
基于上述原因,本文中所描述的系统是基于形状的剪影信息。我们相信,这是一个
首创系统,是能够从大量的相机(
15
)
3D
模型和纹理捕捉,并显示他们从任意角度每秒
25
p>
帧(捕捉摄像头帧速率)的图像。据我们所知,最接近的同类系统的东西只有
5
相机
和模型的质量做到这样。
算法概述
由于任何标准的
4x4
投影矩阵,代表所需的虚拟摄像头,虚拟图像每个像素的中心<
/p>
在空间光相机中,开始向外延伸。沿着这条线的人意给定距离相当于三维空间的点。为
p>
了确定分配给一个特定的虚拟像素是什么颜色,我们需要知道的第一个(最接近)潜在
的被占领点。沿着这条射线。这种三维点可投射到每一个真实相机背面的颜色样本,以
获得该位置数据。然后,这些样本相结合,产生最终的虚拟像素的颜色。因此,该算法
在每个虚拟像素执行三个操作:
?确定虚拟摄像头看到的虚拟像素的深度。
?查找在附近的真实图像的相应像素
?所有这些的基础上,确定像素颜色的测量。
4.2
确定像素深度
每个虚拟像素的深度是一个明确的搜索。在虚拟相机投影中心和收益对应的像素中
心(见图
3
)沿射线向外开始搜索。每名候选点的三维点。沿
着这条线被评估为潜在的位
置。一个候选点是空置的,如果它投影到任何剪影背景标记。
当点一个点被发现时,所
有的轮廓标记为前景,被认为是潜在的空间,并停止搜索。
p>
要限制每个虚拟像素搜索,相应的光与每个真实图像的边界相交。
我们投射到每个
图像形成对应的极线的射线。这些极线满足的图像边界点被发现和射线投
射到这些边界
点时,射线对这些地区的十字路口定义减少搜索空间。如果搜索没有发现任
何潜在的被
占领的像素达到本地区最远的限制,虚拟像素被标记为背景。
4.3
确定像素颜色
p>
在一般情况下,我们更偏向于以最接近近符合新颖的视角摄的像机接收到的信号为
基础建立像素颜色。我们把摄像机按照临近性进行排名,并选择最接近的前三个摄像机。< p>
现在我们计算三维点在于每个候选相机的图像。不幸的是,真正的相机并不一定会看到
这些空间中的点
-
另一个物体可能存在于真正的相
机和点之间。如果真实像素这样堵塞着,
它就不能作用于其颜色的虚拟像素。
5
北京工业大学毕业设计(文献翻译)
我们重复上一个真正的相机的像素的深度搜索算法。如果恢复的深度在空间中足够
接近三
维虚拟摄像头像素点计算的
3D
点,我们假设真正的摄像头像素
不闭塞
–
真实像素
的颜色是可以作用于虚拟像素的颜色。在实践中,我们靠立刻接收哪些在几何学
上必然
不会被堵塞的点来增加系统的速度。我们从非闭塞相机的像素中取加权平均,比如
最接
近的摄像头给它最高的权重。
4.4
系统的硬件和软件
14
台索尼
DCX
–
390
摄像机被等距的布置在物体
的周围,还有一台从上方观察他。
五台
Pentium III
型
1Ghz
的视频捕捉器件从每台摄像
机中获得数据。视频获取机通过确
定轮廓来来对频中的帧进行预处理,并通过千兆以太网
链路将数据传输出去。它的渲染
服务器基于
1.7
GHz
奔腾
IV Xeon
处理器。我
们算法的特点使我们能够基于
15
台相机快
速的产生非常高质量的模型。本文的数据是在
384x288
分辨率下以
<100ms
的延迟在
2
5
fps
的产生。
由于每个前台的对象必须对所有摄像机完全可见,所以要对每个摄像机的变焦水平
进行调整,以便使它可以总能看到的物体,甚至在它来回移动的情况下也是一样。这意
味着每个相机的分辨率的限制必须分布在所需的成像区域。因此
,
我们不可避免的要在图
像质量和数据捕获量之间进行权衡。同样,深度估计的准确性将
会随着摄像机的对物体
的远离而下降。
同样,系统所需的物理空间大小决定于所需的捕获区域和所用镜头的领域。我们已
经尝
试用
2.8
毫米的镜头,提供了一个角度约
90
度场。这个镜头可以捕捉到的空间是在
相机
3.3
米远的时候捕捉到
2.5m
高,直径
3.3
米的视场。
4.5
与其他方法的比较
我们的系统是类似的精神
Matusik
[22]
等工作。他们还提出一种利用
sillhouette
信息基
于图像的新颖的视图生成算法。主要区别是,
Matusik
从现有的摄像机角度生成了整体的
虚拟外壳
。然而我们只产生可见的部分。
LOK
[21]
提出了一种替代量为基础的方法重建。
上述线性系统的规模与摄像机的数量都增
加。我们的系统框架在实践中要慢得多,因为
对像素颜色的估计(这需要大量的渲染时间
)只使用一个固定数量的摄像机图像扩展。
五、三维混合现实交互
我们全系统结
合虚拟的观点和增强现实软件(见图
5
)。对于每一帧,增强现
实系统
的识别标记和相机位置的变换矩阵。这被传递到虚拟角度服务器,连同估计摄像机
标定
矩阵。服务器响应返回的
RGBA
图像,每个像素的
adepth
估计。这种远程合作者模拟视<
/p>
图然后叠加在原始图像,并显示给用户。
为了提高系统的速度,我们引入的增强现实视频演示一个单一帧延迟。因此,增强
现实
系统开始处理下一帧的虚拟视图服务器而产生的前一个视图。
然后发生交换返回到
6
-
-
-
-
-
-
-
-
-
上一篇:幼儿园英语日常用语和教学用语
下一篇:各个部门用词--中文谐音