搜索

无锡管道保温施工 港科广陈昶昊团队:只用张 RGB 图像,让机器读懂室内 3D 空间

发布日期:2026-05-14 19:13 点击次数:197

铁皮保温

LegoOcc:需语义体素标注,也能识别通达类别。

    作家丨郑佳好意思

    剪辑丨岑   峰

实在的室内空间智能,并不仅仅让机器认出画面里有张桌子,而是让它集合确切三维物理空间内:那里不错通行、那里存在荫庇、哪些物体粗略交互。

关于将来的庭机器东说念主和护士机器东说念主来说,集合个房间并不仅仅完成图像分类。它意味着,机器东说念主粗略根据句天然言语找到玄关柜旁的雨伞,粗略在夜间识别走廊中的充电线是否可能绊倒老东说念主,也粗略在厨房中集合台面、水杯与旯旮之间的空间探究,并在生分环境中快速开采可行径的三维空间暴露。

但室内环境,恰正是 3D 感知难落地的场景之。比较之下,自动驾驶固然复杂,却仍然领有相对暴露的说念路结构与交通参与者,而室内空间像个抓续变化的通达全国。物体摆放随时可能变化,荫庇探究密集,好多方向并不属于数据集中预界说的类别。淌若但愿模子实在集合三维空间,频频需要立志的 3D 语义标注,即在空间中逐点或逐体素标注每个位置属于什么物体。这种昂本钱,很难懂救庭、办公与行家室内场景的机器东说念主大范围部署。

在这么的配景下,香港科技大学(广州)陈昶昊团队建议了 LegoOcc,该效果《Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes》被 CVPR 2026 罗致,并入选大会理论报告。

这项询查矜恤接近确切应用的问题:仅使用张平庸室内 RGB 图像,不依赖多视角图像或激光雷达,也不使用 3D 语义标签,依然粗略展望空间中的占用情况,并向上支抓基于天然言语的通达类别查询。

换句话说,LegoOcc 惩处的,不再是让机器在固定类别中"作念聘用",而是让机器实在初始"集合房间",并把东说念主的言语映射到三维空间中的具体方向。关于庭机器东说念主、赞成机器东说念主以及 AR / VR 开采等应用,这意味着室内感知正在从"看见物体",迈向"集合空间"。

论文地址:https://arxiv.org/pdf/2602.22667

01

少标注,强集合

leu'feng'wa 的中枢念念想是:在不使用  3D  语义体素标注、仅使用几何占用标签的情况下,模子依然粗略已毕质料的室内单目通达词汇 3D 占用展望。模子输入独一张平庸 RGB 图像,不依赖多视角图像、度图或激光雷达点云;" 3D 占用展望"矜恤的是室内空间中每个小立体(体素)是否被墙体、桌椅、地板等物体占据;而"通达词汇"则向上条件模子坑害固定类别斥逐,不仅能识别椅子、桌子、墙等常见类别,还粗略根据天然言语查询 鞋子、纸、垃圾桶、包 等加开脱的长尾物体。

该询查在 Occ-ScanNet 数据集考证:每个样本对应个局部 3D 空间,模子需要同期展望空间占用与语义类别。LegoOcc 在通达词汇成就下达到 59.50 IoU 与 21.05 mIoU,其中:IoU 体现几何占用展望智力,即模子是否知说念"那里有东西"; mIoU 体现语义展望智力,即模子是否知说念"这些位置是什么"。

比较通达词汇基线法,POP-3D 的 35.32 IoU / 5.96 mIoU 和 LOcc:36.70 IoU / 9.25 mIoU。LegoOcc 同期造就几何结构展望和通达词汇语义集合智力,尤其 mIoU 从 9.25 造就到 21.05,阐明模子的语义识别智力得到了较大坑害。雷峰网

询查团队还将 LegoOcc 与 TPVFormer、GaussianFormer、MonoScene、ISO、SurroundOcc、EmbodiedOcc、EmbodiedOcc++、RoboOcc 等闭集法进行了比较。这些闭集法使用好意思满语义体素标注老师,其中弘扬较强的 RoboOcc 达到 56.48 IoU 与 47.76 mIoU。固然 LegoOcc 的 mIoU 仍低于 RoboOcc,但它在不使用 3D 语义标签的前提下,已毕了过悉数闭集法的 59.50 IoU。这阐明,LegoOcc 在"空间那里被占据"这中枢几何问题上也曾很是强,而通达词汇 3D 语义集合本人仍然是个具挑战的任务。

原因在于,室内类别加细碎且范围暗昧。椅子、沙发、其他具等类别本人就容易浑浊;通达词汇模子依赖 3D 特征与文本特征对王人,其类别范围不如闭集分类器暴露,同期还会受到 2D 通达词汇分割质料、荫庇探究 、投影罪戾和单目度歧义等要素影响。

02

两个要害设想

消融实验向上阐明,LegoOcc 的能造就主要来自两个要害设想。

个要害设想,是斯散布到体素占用(Poisson-based Gaussian-to-Occupancy)的挪动法。GaussianFormer2 在通达词汇老师下险些径直失败,斥逐为 0.00 的交并比与 0.00 的平均交并比。原因在于,它莫得充分愚弄斯散布的透明度信息。伯努利法固然引入了透明度,能造就至 46.65 的交并比与 17.25 的平均交并比,但在多个斯散布叠加时,透明度仍然容易被平均化,致语义特征对王人不暴露。建议的基于泊松散布的斯到占用挪动法,终达到 59.50 的交并比与 21.05 的平均交并比。将每个斯散布视为空间中的种占用凭据,多个斯散布的凭据粗略天然积贮,共同决定某个位置是否被占据。比较浅陋叠加或平均,这种式暴露地惩处二值几何监督下的三维占用挪动问题。雷峰网

二个要害设想,是渐进式温度衰减战略(Progressive Temperature Decay)。问题起原于语义特征搀杂,在三维斯散布渲染到二维图像时,同条视野上时常同期包含椅子旯旮、桌腿、墙面配景等多个结构。淌若径直进行加权交融,不同物体的语义会相互混杂。实验标明,温度历久较时,老师固然暴露无锡管道保温施工,但语义搀杂严重;初始就使用低温会致老师径直崩溃;而老师阶段温、测试阶段低温,则会因为老师与测试不致致能下落。果好的是指数式温度衰减,终达到 59.50 的交并比与 21.05 的平均交并比。这意味着模子需要先暴露学习场景结构与语义对王人,再逐渐减少特征搀杂,让每个斯散布加明确地对应具体物体或区域。

03

LegoOcc 的理率

在单张 RTX 4090 卡上,LegoOcc 达到每秒 22.47 帧,而 ISO 为每秒 3.81 帧,EmbodiedOcc 为每秒 11.48 帧,POP-3D 为每秒 10.21 帧,LOcc 为每秒 8.93 帧。

LegoOcc 不仅依赖复杂后处理或多阶段理,而是借助紧凑的三维斯暗意,在速率与准确率之间取得了细致均衡。可视化斥逐相似支抓这点。比较 LOcc,LegoOcc 对墙体、地板、具、桌椅等结构的三维展望加好意思满,空间结构加连气儿。

在通达词汇查询中,模子还能根据背包、自行车、窗帘、鞋子、纸张、垃圾桶等天然言语类别,在三维空间中定位对应物体,而这些类别并不定属于 Occ-ScanNet 固定界说的 11 个语义类别。因此,LegoOcc 不仅造就数据集主见,而是让模子接近天然言语驱动的三维场景集合。

04

传统法的两个局限

个斥逐是"闭集类别"问题,也即是模子只可识别老师数据中事前界说好的类别。举例,在 Occ-ScanNet 数据集中,主要评估的类别包括天花板、地板、墙壁、窗户、椅子、床、沙发、桌子、电视、具以及杂项物体等。但确切室内环境远比数据集复杂,还存在书包、鞋子、垃圾桶、纸张、遥控器、一稔、玩物等多半长尾物体,而这些方向时常并不在固定类别列表中。

二个斥逐是对立志三维语义标注的依赖。传统三维语义占用模子频频需要知说念每个三维体素具体属于什么类别。然则,室内环境中的物体时常度密集、荫庇严重、类别广博,淌若罗致东说念主工逐点或逐体素标注,本钱,也很难膨胀到大范围确切场景。

因此,询查团队罗致适合实质应用的老师式:老师阶段只使用二值占用标签,仅告诉模子"这里是否有物体",而不提供具体语义类别。模子的语义智力则通过通达词汇二维分割模子与言语特征对王人来得到。

固然老师阶段不使用语义体素标签,但在评估阶段,仍然会愚弄语义标签检修模子是否粗略正确识别空间中的物体类别。评估主要罗致两个主见:交并比用于推断占用展望智力,即模子是否知说念"那里有东西";平均交并比则用于推断语义展望智力,铁皮保温即模子是否知说念"这些位置永诀属于什么类别"。

05

带言语特征的三维斯暗意

LegoOcc 的中枢中间暗意是带言语特征的三维斯暗意,这里的三维斯不仅是空间点或暗昧椭球,而同期佩带几何信息与言语语义信息。

几何信息包括它在三维空间中的位置、形势、大小以及透明度,用于判断空间中哪些区域被物体占据;言语语义信息则是个粗略与文本特征对王人的向量,用于支抓通达词汇查询。几何与语义被统绑定在同个三维暗意之中。模子不再是"先展望三维结构、再特殊贴语义标签",而是在每个三维斯中同期保存"它在那里"以及"它可能代表什么"。

传统的"斯到占用"法容易出现两个问题。先,几何分支莫得充分愚弄透明度,而语义渲染经由却依赖透明度信息,致几何学习与语义学习之间存在不致;其次,室内场景中的物体十分密集,多个斯可能同期影响同个体素,淌若浅陋叠加孝顺,容易出现富饶或老师不暴露的问题。

为此,询查团队建议基于泊松建模的斯到占用挪动法。该法将每个斯对空间位置的影响集合为种"这里可能存在物体"的凭据,个位置是否被占据,由悉数探究斯的凭据共同决定。这么不仅粗略天然地处理多个斯叠加的问题,也粗略让透明度实在参与几何占用判断。老师经由中,几何分支罗致二值占用监督,并联接占用亏欠与度握住,使模子粗略学习暴露的三维空间结构。

06

不依赖三维语义标注的语义学习

语义分支的方向,是让每个斯的言语特征粗略与文本类别已毕对王人。

询查团队并莫得使用东说念主工标注的三维语义标签,而是借助也曾老师好的通达词汇二维分割模子,从图像中索求言语对王人的语义特征。询查中罗致了访佛 Trident 的通达词汇分割模子。

LegoOcc 先从输入图像展望带言语特征的三维斯,再将这些斯的语义特征从头渲染回二维图像平面,从而得到每个像素位置上的渲染语义特征。随后,再愚弄通达词汇二维分割模子从原始图像中索求言语对王人的二维特征,并让两者尽可能保抓致。这么,模子便粗略借助二维视觉言语模子得到语义监督,而需东说念主工为每个三维体素逐标注类别。

07

联系人:何经理

渐进式温度衰减

室内场景中容易出现"特征搀杂"问题。比如,张图像中可能同期包含桌子、椅子、墙壁和地板。某个像素从二维图像上看主要属于椅子,但沿着视野参加三维空间后,可能会同期经过椅子旯旮、桌腿以及配景墙面等多个结构。在渲染经由中,多个斯的语义特征会被加权交融到同个像素中。淌若径直愚弄这种搀杂特征去对王人二维通达词汇特征,模子固然粗略让终斥逐"看起来像椅子",却法保证实在属于椅子的那些斯本人学到了明晰的椅子语义。终映射回三维空间时,语义范围就会变得暗昧。

为了缓解特征搀杂问题,询查团队建议渐进式温度衰减的战略,用于限度斯渲染时特征交融的软硬进度。在老师初期,模子尚未学好几何结构与语义特征。淌若初始就让每个斯的孝顺很是锐,老师经由会变得不暴露,梯度也可能难以化。因此,早期需要罗致较平滑的特征交融式,让模子先学习合座场景结构。而到了老师后期,模子也曾具备较暴露的几何基础。淌若仍然保抓过于平滑的交融,不同物体的语义就会抓续混杂。因此,需要逐渐缩短温度,让遑急斯的孝顺加隆起,不探究斯的影响向上收缩,从而让每个斯对应的语义加明晰。

询查团队比较了多种战略,包括不使用温度衰减、固定低温度、线衰减以及指数衰减。实验斥逐标明,指数式温度衰减果好,因为它粗略让模子在低温阶段停留长工夫,从而充分地学习每个斯对应的明晰语义。

08

从固定识别到天然交互

老师完成后,LegoOcc 不错径直进行天然言语查询。理阶段,模子先从单张室内图像展望带言语特征的三维斯暗意,再向上生成三维占用空间。关于每个被占据的位置,系统都会保留对应的言语对王人特征。当用户输入个文本类别,举例"纸张"或"鞋子"时,系统会先将文本挪动成言语特征,再与三维空间中的特征进行匹配。匹配进度越的位置,就越有可能属于对应类别。通达词汇的类别并不是固定写死在模子后层分类器中的,而是通过文本特征动态查询得到。因此,模子粗略处理老师阶段莫得明确出面前固定类别表中的物体。

LegoOcc 诠释,室内场景相似粗略已毕通达词汇三维占用展望。这关于管事机器东说念主、庭机器东说念主、增强实验 / 假造实验以及室内航等向,都具有遑急意念念。关于平庸用户而言,这意味着将来的机器东说念主不再仅仅"识别固定类别",而是实在粗略集合东说念主的天然言语。它不错根据句话找到地上的纸、桌子傍边的背包、椅子后头的鞋子,也粗略在收纳、找物、避障、陪护以及室内航等任务中加实用。

这项询查著缩短了三维语义集合的老师本钱。比较二维图像标注,三维语义标注需要在空间中逐点或逐体素进行类别标注,责任量大,而室内物体类别又度长尾,很难依靠东说念主工穷尽。LegoOcc 通过"二值占用学习几何 + 二维通达词汇模子提供语义监督"的式,使将来构建大范围三维语义集合系统的本钱著缩短。

天然,这项询查仍然存在定局限。举例,其语义平均交并比仍低于使用好意思满语义监督的闭集法,阐明通达词汇三维语义对王人仍不够精准。模子还依赖二维通达词汇分割模子的质料,而单目输入本人也存在度歧义。此外,不同文本教导词,举例"椅子""座椅""办公椅"等,可能影响终查询斥逐的暴露。

LegoOcc 动室内三维集合从固定类别识别,向上迈向加天真、加天然的言语交互,为将来实在实用的庭机器东说念主、赞成开采以及增强实验 / 假造实验系统提供了遑急基础。

09

LegoOcc 背后的询查者

作家:周常青,香港科技大学(广州)博士生,奋发于于且暴露的三维场景集正当询查,现时矜恤端到端轨迹生成模子,以及面向航任务的全国模子构建。

通信作家:陈昶昊,香港科技大学(广州)智能交通学域和东说念主工智能学域助理老师,询查员,博士生师,担任香港科技大学(净水湾校区)跨学科学院联署助理老师。

获英国牛津大学盘算推算机科学博士学位,并在英国工程和天然科学询查委员会(EPSRC)资助下从事博士后询查。担任香港科技大学(广州)具身智能 PEAK 实验室立 PI.

其询查聚焦具身智能和自主东说念主系统前沿探索,奋发于于构建通达环境交互的具身智能体,管事低空经济、智能交通和忠良城市。

先后入选全球前 2 顶科学榜单、科协后生东说念主才托举工程和机器东说念主科学与系统大会前卫者,主抓国天然科学基金面上、后生以及省训导厅等纵向样子 7 项。

在 NeurIPS、AAAI、CVPR、ICCV、ECCV、ICRA、IROS、WWW、TNNLS、TIP、TITS、RA-L 等东说念主工智能、机器东说念主和智能交通域水平期刊和顶会议上发表论文 50 余篇,谷歌学术援用过 3800 次。

机器东说念主与自动化会议(ICRA)和 IEEE 机器东说念主与自动化快报(RA-L)剪辑(Associate Editor),自动化学会机器东说念主委会和具身智能委会委员。已授权国发明利、 PCT 利、好意思国、欧洲、澳大利亚利共 14 项,包含 1 项在英国得胜效果漂泊。

参考衔接:https://changhao-chen.github.io/

相关词条:玻璃棉     塑料挤出机厂家     钢绞线    管道保温    PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定无锡管道保温施工,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

查看更多