semantic3d数据集(semantic3d数据集百度网盘)

skyadmin 71 2023-05-13

本文目录一览:

semantic3D

它包含8个语义类,涵盖了广泛的城市户外场景:教堂、街道、铁轨、广场、村庄、足球场和城堡。

大约有40亿个手工标记的点,具有良好的评估,并不断更新子版本。这是第一个数据集,允许在真正的三维激光扫描上进行全面的深度学习,每个点都有高质量的手动标签。训练集和测试集各15个

我们发布的30个地面激光扫描由总计≈4 bil- lion 3D点组成,包含城市和农村场景,如农场、市政厅、运动场、城堡和市场广场。我们精心选择了各种不同的自然和人工场景,以防止分类器的过度拟合。所有发布的场景都是在中欧捕获的,并描述誉铅伍了典型的Eu- ropean体系结构,如图4所示。测量级激光扫描仪被用来记录这些场景庆或。在后处理步骤中,通过部署由摄像机图像生成的高分辨率cubemap对图像进行着色。一般来说,静态激光扫描具有很高的分辨率,能够在很小的噪声下测量长距离。特别是与通过运动管道或类kinect结构光传感器导出的点云相比,激光扫描仪提供了表面数据质量。

在这个基准测试挑战中,我们使用了以下8个类,包括:1)人造地形:主要是路面;2)自然地形:以草地为主;3)高植被:树木和大灌木丛;4)低植被:小于2米的花或小灌木;5)建筑物激帆:教堂、市政厅、车站、公寓等;6)剩余硬景观:一个杂乱的类,例如加登墙,喷泉,银行等;7)扫描伪影:静态扫描记录过程中,动态移动的物体引起的伪影;小汽车和卡车。其中一些类定义不明确,例如,一些扫描工件也可以用于汽车或卡车,很难区分大灌木丛和小灌木丛。然而,这些类在许多应用程序中是有用的。请注意,在大多数应用程序中,第7类扫描工件都是用启发式规则集过滤的。在这个基准测试中,我们希望部署机器学习技术,因此不执行任何启发式预处理。

语意分析技术可用于哪些问题进行研究?

当然是跨视角语义分割(Cross-view Semantic Segmentation)。

语义分割(Semantic Segmentation)说到底还是为了让人工智体更好的去理解场景(Scene Understanding)。什么是理解场景?当我们在说让一个智体去理解场景的时候,我们究竟在讨论什么?这其中包含很多,场景中物体的语义,属性,场景与物体之间的相对关系,场景中人与物体的交互关系,等等。说实话很难用一句话来概括,很多研究工作往往也都是在有限的任务范围下给出了机器人理解其所视场景的定义。那么为什么语义分割对于场景理解来说这么重要?因为不管怎么说,场景理解中有些要素是绕不开的,例如目标物体的语义, 目标物体的坐标。当我们真正要应用场景理解的技术到实际生活中时,这两个点几乎是必需的。而语义分割恰好能够同时提供这两种重要的信息。

传统的2D图像语义分割技术经过众多研究人员几年时间不停的迭代,已经发展到了一个提升相当困难的时期。同时这也意味着这项技术已经渐渐的趋于成熟。但传统的2D分割还是有一定的局限性,比如我们很难从2D图像中直接获知物体的空间位置,以及其在整体空间中的布局。这很直观,因为2D图像捅破天也只有2D信息,想知道整体空间的位置信息还是需要更多的3D信息。事实上,这件事已经有相当一部分人在做了。为了让单纯的2D图像(RGB)具有深度信息从而转变成RGB-D,我们发展了深度估计(Depth Estimation);为了让RGB-D变成真正有用的3D信息,我们发展了三维重建(3D Reconstruction)技术;为了得到整个场景的三维点云,我们发展了SLAM;为了得到场景中点云的语义信息,我们又发展了基于点云的语义分割技术。这一整套流程下来,我们可以让机器人从单纯的2D图像出发,得到空间中物体三维的坐标,语义,和边界信息。这一桐漏帆连串的思路十分完备,也非常本质。然而3D数据往往又面临着极为昂贵的计算成本与数据采集和标注的成本,不像2D数据有一台手机就能采集,对于标注人员来说也不如2D图像的标注来的那么直观。

那么我们能不能依旧基于2D图像,让机器人对于整个空间中物体的坐标有更好的感知?

答案是肯定的。其实在相当一部分实际任务中,得到物体准确的3D坐标是一件精确过头的事,就好比能用16位浮点数解决的任务我偏偏要用32位,可以但不是必要。很多时候我们需要3D坐标只是因为这是一个清晰的,看得见摸得着的,具体的数值目标。但再好的数值目标,跟实际使用体验的关联性也不是百分百对应的。就好像损失函数低局雹不一定代表最后的准确率就高,数值准确率高不一定搜闭代表实际的人眼效果就好。扯远了,话说回来,基于以上我所说的,我们在求解准确的3D信息所需要的代价与传统的2D分割的局限之间找到了一个平衡点,也就是利用俯视语义图(Top-down-view Semantic Map)来感知周围环境物体的方位与布局。

人体三维重建(五)——人体姿态重建方法简述

三维人体姿态重建通常是指利用外部设备对人体进行三维姿态还原。相比于稠密的人体几何形状,人体骨架是表示人体姿势的一种紧凑型表达方式。本次主要介绍基于人体骨架的姿态重建。

目前工业界已有相对成熟的三维姿态重建解决方案,即接触式的动作捕捉系统,例如著名的光学动作捕捉系统Vicon(图1)。首先将特制的光学标记点(Marker)贴附在人体的关键部位(如人体的关节处),多个特殊的动作捕捉相机可以从不同角度实时检测Marker点。随后根据三角测量原理精确计算Marker点的空间坐标,再利用反向动力学(Inverse kinematics,IK)算法解算人体骨骼的关节角。由于高岩场景与设备的限制,高昂的价格,接触式运动捕捉难以被普通消费者所使用。因此研究者继而将目光投向了低成本、非接触式的无标记动作重建技术。本次主要介绍近年来利用单目RGB-D相机或者单目RGB相机进行姿态重建的工作。

基于单目RGB-D相机的姿态重建

基于RGB-D的三维姿态重建方法可分为两类[1]:判别式方法与生成式方法。判别式方法通常试图从深度图像中直接推测出三维人体姿态。其中一部分工作尝试从深度图中提取与关节位置相对应的特征。

例如,Plagemann等人[47]利用测地线极值来识别人体中的显著点,然后利用局部形状描述符检测人体三维关节位置。另外一些判别方法则依赖于离线训练的分类器或者回归器。

Shotton等人[48]首先利用大量的样本训练了一个随机森林(Random forest)分类器,从深度图中分割出不同的人体部件区域,随后他们利用均值漂移(Mean shift)算法估计出关节位置。该方法的预测仅需要少量的计算量,可实时运行。该方法随后被戚唤御Kinect SDK集成,用于实时重建三维姿态。

Taylor等人[49]利用随机森林方法预测属于人体关节的深度像素区域,随后将其用于姿态优化。判别式方法并不依赖于跟踪,可以减少累计误差,并且能够自然的处理快速运动。

与判别式方法不同,生成式方法通过变形参数化或非参数化模板来匹配观测数据。Ganapathi等人[50]使用动态贝叶斯网络(Dynamic Bayesian Network,DBN)来建模运动状态,并利用一个最大后验概率(Maximuma Posterior, MAP)框架推断出三维姿态。该方法需要事先知道人体的身材,并且不能有效地处理快速的人体运动。随后,Ganapathi等人[51]利用扩展的ICP测量模型和自由空间约束对方法[50]进行了改进。新方法可对人体参数化模板的大小进行动态调整,用于适配捕捉到的深度数据。

基于RGB-D的姿态重建方法由于其硬件限制,容易受到深度图噪声干扰,只能在距离较近的场景下适用。

基于单目RGB相机的姿态重建

得益于大规模带有三维人体姿态标注的视频数据集(如Human3.6M[52],Human-Eva[53])的出现,基于深度学习的三维姿态重建方法发展迅速。它们直接利用深度学习模型从图像或者视频中提取三维人体关节点位置[54–60]。

Li等人[54]是最早将深度学习引入到三维姿态估计,他们设计了一个包含检测与回归的多任务卷积神经网络,直接从图像中自动学习特征来回归三维关节点的位置,超过了以往通过人为设计特征的方法。

Pavlakos等人[56]提出了一种体素热图来描述人体关节点在三维体素空间不同位置上的可能性,并且使用一种从粗到细的级联策略来逐步细化体素热图的预测,取得了很好的姿态重建准确度。然而,这种体素表示往往需要面对巨大的存储和计算开销,最近[61]利用编码-解码(Encoder-Decoder)思想较好的解决了这个问题。

除了直接预测关节点三维位置,还有一些工作预测骨骼朝向[64,65],关节角[66],骨骼向量[67,68]等等。上述工作都采用强监督的方式进行训练,由于训练数据都是在受控环境下采集,因此训练出的模型通常都难以泛化到自然场景中。

为了提高模型的泛化能力,一些工作尝试利用弱监督的方式来监督自然场景中的图像,比如使链消用域判别器[69],骨骼长度先验[70]等等。

另一类三维姿态估计方法则将二维人体姿态作为中间表示。首先在图像中利用人工标注或者自动检测[71–74]的二维人体关节,然后通过回归方法[57,62,75]或者模型拟合[76]的方式将其提升到三维空间。

Martinez等人[62]设计了一个简单但是有效的全连接网络结构,它以二维关节点位置作为输入,输出三维关节点位置,如图2。

随后,Zhao等人[75]提出利用语义图卷积层模块捕捉人体关节点之间的拓扑相关性(比如人体对称性),进一步提高了三维姿态的重建准确性。但是从二维姿态映射到三维姿态本身是一个歧义问题,原因在于多个三维姿态可以投影出同一个二维姿态[77]。最近的一些工作尝试加入更多的先验知识来减轻歧义性[78–80]。

上述工作都属于判别式模型,预测得到的三维关节点位置可能不符合人体解剖学约束(比如不满足对称性,骨骼长度比例不合理)或者运动学约束(关节角超过限制)。Mehta等人[63]将一个人体骨架模板拟合预测得到的二维关节点与三维关节点位置,并提出了第一个基于RGB相机的实时三维姿态重建系统VNect,得到了较为准确的姿态重建结果。如图3所示。

参考文献

接上篇参考文献

[47] PLAGEMANN C, GANAPATHI V, KOLLER D, etal. Real-time identification and localization of body parts from depthimages[C]//2010 IEEE International Conference on Robotics and Automation. IEEE,2010: 3108-3113.

[48] Shotton J, Fitzgibbon A, Cook M, etal. Real-time human pose recognition in parts from single depth images[C]//CVPR2011. 2011: 1297-1304.

[49] TAYLOR J, SHOTTON J, SHARP T, et al.The vitruvian manifold: Inferring dense correspondences for one-shot human pose estimation[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2012: 103-110.

[50] GANAPATHI V, PLAGEMANN C, KOLLER D, etal. Real time motion capture using a single time-of-flight camera[C]//2010 IEEEComputer Society Conference on Computer Vision and Pattern Recognition. IEEE,2010: 755-762.

[51] GANAPATHI V, PLAGEMANN C, KOLLER D, etal. Real-time human pose tracking from range data[C]//European conference oncomputer vision. Springer, 2012: 738-751.

[52] IONESCU C, PAPAVA D, OLARUV, et al.Human3. 6m: Large scale datasets and predictive methods for 3D human sensing innatural environments[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2013, 36(7):1325-1339.

[53] SIGAL L, BALAN A O, BLACK M J.Humaneva: Synchronized video and motion capture dataset and baseline algorithmfor evaluation of articulated human motion[J]. International journal ofcomputer vision, 2010, 87(1-2):4.

[54] LI S, CHANA B. 3d human poseestimation from monocular images with deep convolutional neuralnetwork[C]//Asian Conference on Computer Vision. Springer, 2014: 332-347.

[55] POPA A I, ZANFIR M, SMINCHISESCU C.Deep multitask architecture for integrated 2d and 3d humansensing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6289-6298.

[56] PAVLAKOS G, ZHOU X, DERPANIS K G, etal. Coarse-to-fine volumetric prediction for single-image 3D humanpose[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017:7025-7034.

[57] FANG H S, XU Y, WANG W, et al.Learning pose grammar to encode human body configuration for 3d poseestimation[C]//Proceedings of the AAAI Conference on Artificial Intelligence:volume 32. 2018.

[58] SUN X, XIAO B, WEI F, et al. Integralhuman pose regression[C]//Proceedings of the European Conference on ComputerVision (ECCV). 2018: 529-545.

[59] LEE K, LEE I, LEE S. Propagating lstm:3d pose estimation based on joint interdependency [C]//Proceedings of theEuropean Conference on Computer Vision (ECCV). 2018: 119-135.

[60] HABIBIE I, XU W, MEHTA D, et al. Inthe wild human pose estimation using explicit 2d features and intermediate 3drepresentations[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition. 2019: 10905-10914.

[61] FABBRI M, LANZI F, CALDERARA S, et al.Compressed volumetric heatmaps for multiperson 3d poseestimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition. 2020: 7204-7213.

[62] MARTINEZ J, HOSSAIN R, ROMERO J, etal. A simple yet effective baseline for 3D human poseestimation[C]//Proceedings of the IEEE International Conference on ComputerVision. 2017: 2640-2649.

[63] MEHTA D, SRIDHAR S, SOTNYCHENKO O, etal. VNect: Real-time 3D human pose estimation with a single RGB camera[J]. ACMTransactions on Graphics (TOG), 2017, 36 (4):44.

[64] LUO C, CHU X, YUILLE A. Orinet: Afully convolutional network for 3d human pose estimation[J]. arXiv preprintarXiv:1811.04989, 2018.

[65] JOO H, SIMON T, SHEIKH Y. Totalcapture: A 3D deformation model for tracking faces, hands, and bodies[C]//IEEEConference on Computer Vision and Pattern Recognition. 2018: 8320-8329.

[66] HABERMANN M, XU W, ZOLLHOEFER M, etal. Deepcap: Monocular human performance capture using weak supervision[J].arXiv: Computer Vision and Pattern Recognition, 2020.

[67] SUN X, SHANG J, LIANG S, et al.Compositional human pose regression[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2017: 2602-2611.

[68] SUN X, LI C, LIN S. Explicitspatiotemporal joint relation learning for tracking human pose [C]//Proceedingsof the IEEE/CVF International Conference onComputerVisionWorkshops.2019: 0-0.

[69] YANGW, OUYANGW,WANGX, et al. 3Dhumanpose estimation in the wild by adversarial learning[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 52555264.

[70] ZHOU X, HUANG Q, SUN X, et al. Towards3D human pose estimation in the wild: a weakly-supervised approach[C]//IEEEInternational Conference on Computer Vision. 2017: 398-407.

[71] WEI S E, RAMAKRISHNA V, KANADE T, etal. Convolutional pose machines[C]// Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2016: 4724-4732.

[72] NEWELL A, YANG K, DENG J. Stackedhourglass networks for human pose estimation [C]//European conference oncomputer vision. 2016: 483-499.

[73] CHEN Y, WANG Z, PENG Y, et al.Cascaded pyramid network for multi-person pose estimation[C]//IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). 2018.

[74] XIAO B, WU H, WEI Y. Simple baselinesfor human pose estimation and tracking[C]//The European Conference on ComputerVision (ECCV). 2018.

[75] ZHAO L, PENG X, TIANY, et al. Semanticgraph convolutional networks for 3d human pose regression[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:3425-3435.

[76] CHENC H,RAMANAND. 3D human poseestimation= 2D pose estimation+ matching[C]// Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2017: 7035-7043.

[77] HOSSAINMR I, LITTLE J J. Exploitingtemporal information for 3d human pose estimation [C]//Proceedings of theEuropean Conference on Computer Vision (ECCV). 2018: 68-84.

[78] TEKIN B, MÁRQUEZ-NEILA P, SALZMANN M,et al. Learning to fuse 2d and 3d image cues for monocular body poseestimation[C]//Proceedings of the IEEE International Conference on ComputerVision. 2017: 3941-3950.

[79] WANG J, HUANG S, WANG X, et al. Notall parts are created equal: 3d pose estimation by modeling bi-directionaldependencies of body parts[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision. 2019: 7771-7780.

[80] PAVLAKOS G, ZHOU X, DANIILIDIS K.Ordinal depth supervision for 3D human pose estimation[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 7307-7316.

semantic3D数据集

这个数据级别的训练集有一个小BUG,是这个歼掘neugasse_station1_xyz_intensity_rgb.7z, 解压之后的名字是station1_xyz_intensity_rgb.txt,自己最好手动去修改成neugasse_station1_xyz_intensity_rgb.txt,不然跑一写程序会存在一些问题

提供了两种数据:

1、semantic-8,包含8类东西(1: man-made terrain, 2: natural terrain, 3: high vegetation, 4: low vegetation, 5: buildings, 6: hard scape, 7: scanning artefacts, 8: cars, 0: unlabeled points)。0lable 没有ground truth也不应升改歼该没用于训练。训练集和测试集各15个,点云总数超过10亿, 所以作者怕你的算法受不了,所以提供了一个压缩版本的

2、reduce-8训练集吵冲和semantic-8一样,测试集只是semantic-8的一部分。测试集是0.01m的均匀下采样.

附上官网网址:

利用pptk进行可视化:

semantic3d数据集的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于semantic3d数据集百度网盘、semantic3d数据集的信息别忘了在云尚网络www.ysfad.net进行查找喔。

上一篇:合肥网络公司seo建站(合肥网络公司seo建站多少钱)
下一篇:北京seo技术(北京seo排名技术)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~