网站建设目标,活动策划书模板,南京企业网站设计公司,河南郑州网站建设哪家公司好NeuRAD: Neural Rendering for Autonomous Driving
非常值得学习的一篇文章#xff0c;几乎把自动驾驶场景下所有的优化都加上了#xff0c;并且也开源了。
和Unisim做了对比#xff0c;指出Unisim使用lidar指导采样的问题是lidar的垂直FOV有限#xff0c;高处的东西打不…NeuRAD: Neural Rendering for Autonomous Driving
非常值得学习的一篇文章几乎把自动驾驶场景下所有的优化都加上了并且也开源了。
和Unisim做了对比指出Unisim使用lidar指导采样的问题是lidar的垂直FOV有限高处的东西打不到使得lidar FOV外的效果不好。
1 整体框架 2 各项优化 CNN decoder 该方法最先是Unisim中提到的主要优点是减少计算量另外对于外插比较好。从该图消融实验的Scen. gen.为FID表示新视角的和原视角的相似性可以看出确实CNN对外插的影响最大。 采样时是基于patch的采样假设一个pacht的大小是32x32个像素降采样是。随机采样一个像素点作为中心点以该点为中心采样96x32个像素渲染得到的feature经过反卷积上采样为原来的3倍即96x96。 推理时先把图片大小resize为原来的1/3渲染得到1/3大小的feature经过反卷积得到原图。 Rolling shutter 这是自动驾驶场景特殊的地方。 对相机和ldiar的扫描时间建模。相机的第一行和最后一行不是一个时间lidar也是如此。相机高速运动的时候一幅图里的每行像素的时间是不一样的其相机原点也不一样。但是我们建模的时候却认为一张图片里所有的像素都是同一个时间也就是这一帧的位姿和时间戳。 所以作者为每条射线都额外加了时间t的预测对每条Ray加入一个t根据ego_motion调整它们的原点。动态元素的位姿插值到每条ray的时间。 此处可看issue需要注意相机扫描也分为横向和纵向。 Apperance embedding 最早是在NeRF in wild里提到的因为不同相机的曝光程度不同每个相机通过一个mlp获得一个embeding。每个sensor学习一个embedding渲染新视角时使用这些embedding。 ray drop probability and intensity using 返回点云是否击中的概率以此来丢弃这束光线如打到天空、玻璃上的没有返回值。 SDF SDF的方法最早是在NeuS被应用。什么是SDFsign distance field它可以刻画一个表面。他的好处是什么 其用法是NeRF的MLP原本是预测每个点的density的现在不直接预测density了而是预测一个该点的sdf然后通过一个计算公式转换成不透明度α这里的β就是预测的该点的SDF值初始值设成20它是一个可学习的参数。
3 对比Unisim新视角下的效果
使用FID作为量化指标 4 其他
采样分为三种背景、Acotr和天空。
在静态场末端和3公里外之间的视差到传感器原点的距离上的一个中对这些进行线性采样。也就是说原本每条射线采样32个点最后一个点也是最远的一个点扩展到3000m实际代码中这个距离是20000m
位姿优化
加了位姿优化后psnr等值变低这是因为位姿优化后位姿发生了变化和ground truth的pose已经不一样但是还要跟ground truth的图像做对比。本来就不是一个时刻的图片了也就自然没有了可比性。
挑战性的场景 夜晚。夜晚产生炫光这些本不代表真正的geometroy。刹车灯信号灯这些是随时间变化的Nerf可能可以学习出这个关联关系。