智慧城市感知与计算重点实验室

福建省智慧城市感知与计算重点实验室五篇论文被NeurIPS 2025录用


The Thirty-Ninth Annual Conference on Neural Information Processing Systems (NeurIPS 2025)是人工智能与机器学习领域的三大国际会议(NeurIPS、ICML、ICLR)之一,CCF A类会议。NeurIPS 2025分别将于2025年11月30日-12月5日在墨西哥墨西哥城以及2025年12月2日-12月7日在美国圣地亚哥举办,今年 NeurIPS 主赛道共收到 21575 份有效论文投稿,录用5290 篇,录用率为 24.52%。福建省城市智能感知与计算实验室共有5篇论文录用,论文简要介绍如下:(按第一作者姓氏拼音排序)





01




Unlocker: Disentangle the Deadlock of Learning from Label-noisy and Long-tailed Data

简介:长尾噪声标签学习致力于处理真实世界数据中长尾分布与标签噪声共存场景下的模型学习难题。我们发现,该场景下存在“死锁”困境:标签噪声学习方法需依赖无偏预测实现标签识别和修正,进而恢复真实类分布,而长尾学习方法(如logit调整)则需以真实类分布为先验,实现对模型有偏预测的矫正,二者形成循环依赖。为解耦这一死锁,本文提出双层优化框架 Unlocker:内层优化融合噪声标签方法与长尾学习方法,实现公平的噪声标签识别与修正;外层优化则通过自适应优化调整强度,动态平衡模型偏见。实验结果表明,Unlocker 在多个基准数据集上的性能均显著优于当前主流的长尾噪声标签学习方法。

该论文第一作者是厦门大学2023级硕士生陈姝,通讯作者是卢杨助理教授,由2023级本科生徐紘濬、2024级硕士生张瑞弛、李梦柯助理教授(深圳大学)、张永岗助理教授(香港科技大学)、韩波副教授(香港浸会大学)、张晓明教授(香港浸会大学)、王菡子教授合作完成。





02




PlanU: Large Language Model Decision Making through Planning under Uncertainty

简介:针对大语言模型在不确定性环境下难以实现稳健规划这一关键难题,论文了提出PlanU方法—— 一种基于大语言模型的规划框架,其核心是在蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)中融入对不确定性的建模。其技术核心包括两个部分:

  1. 值分布建模:PlanU 创新地将蒙特卡洛树搜索中各节点的 “收益”(return)建模为 “分位数分布”,通过一组分位数精准表征收益的分布特征,以此更充分地捕捉决策过程中存在的不确定性。

  2. 好奇心驱动的评估机制:为优化树搜索策略,PlanU 提出 “带好奇心的上置信界”(Upper Confidence Bounds with Curiosity, UCC)评估机制,通过量化评估蒙特卡洛树各节点的好奇心分数,有效缓解 LLM 的不确定性问题,弥补了传统搜索策略在适配 LLM 决策场景时的不足。
文章在 WebShop、TravelPlanner 等权威基准测试中验证,PlanU 在大语言模型不确定性决策任务上表现显著优于各类基线方法,且兼具环境适应性、资源效率与跨模型稳健性。

该论文共同第一作者是厦门大学信息学院2023级硕士生邓子微、2023级硕士生邓冕,通讯作者是沈思淇长聘副教授。并由梁辰景、高泽铭、硕士毕业生马陈楠、林晨兴、张海鹏、梅松竹副研究员(国防科技大学)、王程教授共同完成。





03




WarpGAN: Warping-Guided 3D GAN Inversion with Style-Based Novel View Inpainting
简介:本文针对单张图像的3D GAN反演问题,提出了一种新的方法WarpGAN,用于实现基于单张图像的新视角合成。现有方法多关注可见区域的重建,而对遮挡区域的生成仅依赖于3D GAN的生成先验,导致因低比特率潜在码造成的信息丢失使得遮挡区域生成质量差。为此,本文引入了变形与修复策略,将图像修复融入3D GAN反演。首先利用反演编码器将单视图图像投影到作为3D GAN输入的潜在编码;接着利用3D GAN生成的深度图进行新视角的变形;最后提出的SVINet借助对称先验和针对相同潜在编码的多视图图像对应关系,对变形图像中的遮挡区域进行修复。定量和定性实验表明,该方法均优于现有的先进方法。
该论文第一作者为厦门大学信息学院2024级硕士生黄锴涛,通讯作者是严严教授,由Jing-Hao Xue(UCL)、王菡子教授共同合作完成。





04




L2RSI: Cross-view LiDAR-based Place Recognition for Large-scale Urban Scenes via Remote Sensing Imagery

简介:激光雷达位置识别旨在在GPS信号较弱甚至拒止时,从全球坐标系下预构建的数据库中检索最接近的匹配及其位置。现有激光雷达位置识别依赖于事先采集的新鲜的三维地图,其获取和维护是耗时和昂贵的。为此,本文首次提出了一个使用高分辨率遥感影像在大规模(超过100平方公里)城市场景中进行跨视角、跨模态激光雷达位置识别的框架——L2RSI。L2RSI通过语义对比学习网络将激光雷达点云鸟瞰图和遥感子图统一到一个共享的语义空间中,克服了跨域跨视角数据的巨大差异。此外,L2RSI通过空间-时间粒子估计算法,利用多个高斯模型的混合来聚合时空信息,推断当前位置的概率密度,从而进一步提高全局位置识别的性能。

该论文第一作者是厦门大学信息学院2023级博士生石子威,通讯作者是臧彧副教授。由张潇然、续文静、夏彦副教授(中国科学技术大学)、沈思淇长聘副教授、王程教授共同完成。





05




GTR-Loc: Geospatial Text Regularization Assisted Outdoor LiDAR Localization

简介:本文提出了一种名为GTR-Loc 的新型激光雷达定位框架,旨在解决因不同场景几何特征相似而导致的定位歧义性难题。该方法创新地引入地理空间文本(位置和方向描述)作为一种正则化手段,以独特的文本线索消除歧义,从而提升定位精度。此外,本文还提出了一种模态削减蒸馏策略,将文本知识迁移到定位模型中,使得模型在推理阶段无需文本输入,仅依靠激光雷达也可实现高性能定位。实验证明,该方法在多个户外大规模数据集上的表现显著优于当前最先进的定位方法。

该论文第一作者是厦门大学信息学院2022届博士毕业生于尚书,通讯作者是王程教授。并由2025届博士毕业生李文、2024届博士毕业生袁直敏、2020级博士生孙啸天、王欣讲师(东北大学)、王思洁博士后(南洋理工大学)、厍睿教授(北京航空航天大学)共同完成。