未来属于SVO？

Sep 4

转载请注明出处为KlayGE游戏引擎，本文的永久链接为http://www.klayge.org/?p=2007

在刚刚结束的SIGGRAPH 2012上，Cyril Crassin提出的Sparse Voxel Octree（SVO）极其热门，几乎每个涉及到real time rendering的course和talk都免不了提及SVO。加上UE4将会采用SVO、idTech6早就说了将会采用SVO，更是起到了推波助澜的作用。那么SVO是什么，它能解决什么样的问题呢？

SVO简介

Voxelization

传统的mesh都表示成以三角形和四边形为单位的图元。而在SVO里，图元是更为简单和离散的voxel。每个voxel有其中心位置、大小等信息，但不需要考虑相互之间的拓扑关系。各种求交计算也变得简单了。从mesh转成voxel表达的过程就称为voxelization。

Voxelization的方法也是逐步发展过来的。从基于CPU的方法，到NVIDIA基于一层一层渲染的方法，在SIGGRAPH Asia 2010上，Michael Schwarz和 Hans-Peter Seidel的paper “Fast Parallel Surface and Solid Voxelization on GPUs”可以在一个pass内直接把一个mesh分解成voxel。经过改进后，分解一个Stanford dragon的速度在5ms之内，相当高效。

Sparse Voxel Octree

Voxel的表达也有它的弱点，主要是存储和访问的不方便。如果把整个场景不管是否有voxel占用的地方都密集存储，那么所需要的空间是惊人的。比如一个512x512x512分辨率的场景，一共有128M个voxel，如果每个voxel只有32字节的属性，场景也轻松突破4GB。直接存在显存里是不现实的。所以这里需要引入sparse voxel octree。通过把voxlization后的结果存放在octree的节点上，可以略过很多场景中的空区域，空间消耗可以减少到200MB-1GB。同时，因为有了层次结构，访问起来只需要遍历某个分支，速度也能提高。

通过在GPU上实现了全套octree维护的操作，octree可以不需要CPU的帮助，完全在GPU上添删节点。用这种方法，初次建立一个场景的octree需要70ms，之后每次更新只需要4-5ms。

Cone tracing

在准备好了octree之后，渲染场景就需要用到cone tracing。ray tracing是对每一个像素发射一个ray，达到表面后根据BRDF反射和折射出新的ray。cone tracing与此类似，只是把ray换成了圆锥。因为有了SVO的数据结构，可以把irradiance先cache在octree里，view pass只要gather就可以了。

能解决的问题

有了SVO + cone tracing之后，很多长期以来一直很困难的实时渲染问题可以直接得到解决。如soft shadow、area light、multiple lights、multiple bounces global illumination、glossy reflection、refraction、AO等效果，就不再需要用各种不同的方法进行hack，只要进行一次tracing就全部搞定。

另外，通过对SVO的一些prefiltering，还可以完成电影级的depth of field、LOD和anti aliasing。甚至，和以往的技术不同的是，在SVO的框架中，模糊表示只要和树的较粗层次节点求交，而忽略礁溪层次的节点，所以，这就意味着越模糊越快！对于一些体效果，比如烟雾和云，也能通过修改cone tracing来实现。

其他一些有趣的应用包括：把signed distance field存入SVO，就可以进行procedural content creating和处理可破坏场景；用SVO做bake light map的工具；collision detection也可以容易地放入SVO框架。

总的来说，很少有一个技术能用同样的框架同时解决这么多个领域的这么多问题。从这方面看，SVO确实很有效。

挑战

当然，SVO也不是万能的，在目前的软硬件条件下仍有一些限制。下面看看SVO面临的一些挑战。

速度

对于实时渲染来说，速度提升是个永恒的主题。虽然SVO + cone tracing的速度在demo中已经能达到70fps，但对于游戏这样的大系统来说，还是远远不够的。这也是为什么UE4和idTech6都定位于未来硬件的原因之一。在这里，常见的优化是改用混合流水线：传统方法渲染direct lighting（Forward和Deferred都可以），SVO负责indirect lighting。在indirect lighting本身，UE4也用了和KlayGE 4一样的multiresolution的方法，能有2-3倍的提速。

空间占用

要把超大场景表示成SVO，空间的占用仍会是巨大的。好在SVO很适合streaming，可以随着视角等因素动态载入需要的节点，类似于virtual texturing。idTech6所描述的方法类似于此。

动态物体

无动态物体不成游戏。如果把所有物体存在一起，如果有的物体需要每帧变化，就意味着需要把整个场景重新voxelization、重新建树，开销很大。在这里UE4的改进方法很直接，把动态物体和静态物体分别放在两个SVO上，静态的只建立一次，动态的在变化后voxelization并更新树的部分节点。

对于deformation型的动态物体，可以用shell texture的方式，把SVO建立在物体表面。每帧只要根据deform过的物体来平移/旋转/放缩SVO，而SVO的内容本身保持不变。

KDTree？

对于tracing来说，KDTree在很多时候比Octree更平衡，但在GPU上建KDTree则较为复杂。所以不是没有可能用KDTree取代Octree进行数据存储和跟踪，这就成了SVKD。

OpenGL ES 3.0发布，巨量更新

Advances in Real-Time Rendering in Games 2012文档放出

SIGGRAPH, SVO

Comments

Lvdi

September 4th, 2012 at 1:38 PM

看上去很牛啊，simple and elegant!
machy

September 4th, 2012 at 2:13 PM

typo: singed distance field

GONG Minmin

September 4th, 2012 at 3:36 PM

已修正，谢谢

高级光照 « Babylon Garden

January 30th, 2013 at 4:25 PM

[…] 目前主流的实时动态GI算法可以参看这篇讨论。不过帖子的时间有点早了，后来Nvidia又提出了SVO，龚敏敏在博文里对这个方法进行了点评。抛开上面提到的SSDO，milo对dynamic GI技术做了一些总结，主要有以下三种： […]
实现一个较新的OIT方法：Per-Pixel Linked Lists - KlayGE游戏引擎

February 5th, 2013 at 9:24 AM

[…] 理论上，所有非近似的OIT方法，都能用来做voxelization。在去年的一篇blog未来属于SVO？中就提到了如何用从conservative rasterize配合Per-Pixel Linked Lists，在一个pass内直接把mesh转成voxel表达。 […]
maxiaohan

February 8th, 2013 at 2:47 AM

svkd 还没有人做相关的工作吧？

GONG Minmin

February 9th, 2013 at 1:10 PM

没看到过

liujie

January 3rd, 2014 at 8:12 PM

我最近在实现一个voxel_cone_tracing_gi的例子,
发现用dx11渲染模型到体积纹理时，用几何实例化，帧率非常低。
我在网上搜了一个opengl的例子，每帧都渲染到体积纹理，明显不卡。
opengl竟然可以在ps里直接写到体积纹理任何位置：imageStore(voxelColor, voxelPos, outColor); 也不知道怎么能光栅化的。
dx11里我用的几何实例化，然后在gs里分配到各个slice，加了剔除用的面。
但是几何实例化的个数一多就非常卡，基本无法用。求龚大救命啊
liujie

January 5th, 2014 at 8:38 PM

最近改成用RWTexture3D了，但是在ps里使用时，好像没绘制到RWTexture3D上，pix也不能调试这个RWTexture3D，麻烦啊，搞的不知道怎么查错误了

GONG Minmin

January 6th, 2014 at 2:28 PM

不是“绘制”到RWTexture3D，而是用数组那样的方式直接写入。这是SM5的基本功能，不管是ogl还是dx。比instance/gs之类的其他方法快得多了。

liujie

January 11th, 2014 at 7:51 PM

遇到了一个问题，OMSetRenderTargetsAndUnorderedAccessViews把一个uav绑定后，过段时间，帧率会下降，好像显存也在减少，然后dx会报错的d3d11: removing device，过会就崩了。没看到其他dx错误信息，很奇怪
liujie

January 11th, 2014 at 7:56 PM

即使我注释掉了ps里写uav的代码，只要OMSetRenderTargetsAndUnorderedAccessViews把uav绑定后，过段时间就开始卡，然后崩了，虽然每次绘制uav后会调用OMSetRenderTargets设置回之前的rt

GONG Minmin

January 12th, 2014 at 12:24 PM

你看看debug output吧，看起来是有泄漏

liujie

January 12th, 2014 at 5:16 PM

我是在dx控制台把进程名字加上，就能看大vs里的错误输出，但是这个没输出任何错误。实在不行我就把info信息也输出，不过会非常卡

GONG Minmin

January 12th, 2014 at 7:15 PM

dx10以上就都可以在建立设备的时候选择启用debug，不用dx control panel。同时退出的时候能看到资源泄露才对。

liujie

January 17th, 2014 at 8:41 PM

查了一下，不是资源泄漏，原来就是显存不够用了，我1G的显存，很容易就卡死了，目前用的是6个体积纹理，所以显存占用比较多，以后换成八叉树估计会好些。
还有一个情况：release版启动就崩了，我查出来是体积纹理生成mipmap导致的，cs里用体积纹理的高分辨率级别做为输入纹理，低分辨率级别作为输出的uav，这时如果computer shader里纹理寄存器和随机访问寄存器用了同一个寄存器号，比如输入的shader view是t0，输出的uav是u0，就会崩。让他们两个寄存器号不一样就没事了。不过没查到这方面资料，这个是我自己找到的规律。

GONG Minmin

January 18th, 2014 at 7:40 PM

用octree是会好很多才对。如果不用3d tex而用per pixel linked lists呢？

Direct3D 12 API预览 - KlayGE游戏引擎

April 11th, 2014 at 1:53 PM

[…] shader UAV。前者可以用于SVO的voxelization一步，以及一些碰撞检测的加速。目前的做法来自GPU Gems […]

KlayGE游戏引擎