智慧城市感知与计算重点实验室

福建省智慧城市感知与计算重点实验室八篇论文被ACM MM 2025录用


第33届ACM国际多媒体大会(The 33rd ACM International Conference on Multimedia,ACM MM 2025)将于2025年10月27日至10月31日在爱尔兰都柏林举行。ACM MM是中国计算机学会CCF推荐的A类国际会议。录用论文简要介绍如下:(按第一作者姓氏笔画排序)




01




Adaptive Graph Attention-Guided Parallel Sampling and Embedded Selection for Multi-Model Fitting

简介:多模型拟合是计算机视觉中的一个基本挑战,现实世界的数据通常包含严重的噪声和伪异常值。现有方法依赖于低效的顺序假设和验证框架,需要预定义模型数量和内点阈值,然而这些参数在实际场景中很难确定。为了解决这些问题,本文提出了一种新的并行自适应图注意力引导的多模型拟合方法,该方法联合学习局部和全局特征,执行并行假设采样和质量嵌入模型选择。具体来说,本文设计了一个双置信图注意力模块,该模块采用自适应图注意力网络对数据关系进行建模,预测最小集置信度和质量置信度,以指导多模型拟合过程,从而消除手动参数调整。此外,本文提出了一种并行判别采样模块,该模块利用最小集置信度的同时对假设进行并行采样。通过设计量化一致性约束来最大化模型间方差和最小化模型内差异。为了获得高质量的模型,提出了一种质量嵌入式选择模块,该模块将质量置信度集成到模型选择和数据聚类的联合优化中,实现计算高效的模型选择和伪异常值抑制。

该论文第一作者是厦门大学信息学院2023级博士生尹文玉,通讯作者是王菡子教授,由David Suter教授(澳大利亚伊迪斯科文大学)、林舒源博士(暨南大学)共同合作完成。





02




FATE: A Prompt-Tuning-Based Semi-Supervised Learning Framework for Extremely Limited Labeled Data

简介:半监督学习通过利用有标签数据和无标签数据取得了重大进展。但是现有的半监督学习方法忽略了一个常见的现实世界场景,即有标签数据极其稀缺,在数据集中每一类可能仅有1或者2个有标签数据。在这种约束下,一般的半监督学习方法很难训练出一个有效的骨干网络,而利用预训练模型的方法往往无法在利用有限的有标签数据和大量的无标签数据之间找到最佳平衡点。为了应对这一挑战,本文提出了先适应,后分类框架——FATE,这是一种为有标签数据极其有限的场景量身定制的新型半监督学习框架。其核心思路为:通过两阶段的快速预训练模型提示调优技术,利用大量的无标签数据来补偿稀缺的监督信号,然后转移到下游分类任务。FATE与视觉和视觉语言预训练模型均有良好的兼容性。广泛的实验表明,FATE有效地缓解了半监督学习中有标签数据极端稀缺带来的挑战,与最先进的半监督学习方法相比,在七个基准测试中平均性能提高了33.74%。

该论文的第一作者是厦门大学信息学院2023级硕士生刘赫昭,通讯作者是卢杨助理教授,由李梦柯(深圳大学)、张逸群(广东工业大学)Shreyank N Gowda(英国诺丁汉大学)、宫辰(上海交通大学)、王菡子教授共同合作完成。





03




Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation

简介:开放词汇语义分割(OVSS) 通过文本驱动的对齐进行像素级分类,其中基础类别训练与开放词汇推理之间的领域差异对潜在未见类别的判别建模提出了挑战。为了应对这一挑战,现有的基于视觉语言模型 (VLM) 的方法通过预训练的多模态表征展现出令人赞叹的性能。然而,潜在语义理解的基本机制仍未得到充分探索,这成为OVSS发展的瓶颈。本研究发起了一项探索性实验,旨在探索归纳学习范式下VLM中潜在语义的分布模式和动态。基于这些洞察,本文提出了X-Agent,这是一个创新的OVSS框架,它采用潜在语义感知的“代理”来协调跨模态注意力机制,同时优化潜在语义动态并增强其可感知性。大量的基准评估表明,X-Agent实现了最先进的性能,同时有效地增强了潜在语义显著性。

该论文第一作者是厦门大学信息学院计算机科学与技术系2023级博士生李佳豪,共同通讯作者曲延云教授和谢源教授(华东师范大学),由张亚超助理教授等共同合作完成。





04




Unleashing the Power of Data Generation in One-Pass Outdoor LiDAR Localization

简介:现有的激光雷达隐式重定位的方法需要多条重复轨迹增加场景、位姿的丰富性以提升模型的性能。由于GPS/INS的误差,多条轨迹之间的耦合性是欠佳的,同时也增加了人力采集成本。本文首次提出了使用单趟轨迹定位的算法PELoc, 该研究观察到不同行驶轨迹的差异如存在反向行驶等现象,提出了单趟数据增强;针对多条轨迹耦合性欠佳提出了激光雷达耦合的插帧生成方法;针对相同位置视角/时相变换提出了关键点对比学习策略,此外本文提出了一个新的训练策略, 在每轮训练中随机去除5%连续帧,增强了单趟数据的轨迹多样性,实验结果表明PELocQEOxfordNCLT的绝大多数测试轨迹上均能接近或达到亚米级的定位精度。

该论文第一作者是厦门大学信息学院2024级博士生陈屹东,通讯作者是王程教授。并由李齐、杨煜阳、李文、敖晟助理教授共同完成。





05




SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding

简介:3D视觉定位(3DVG)旨在利用自然语言在三维场景中定位目标物体。尽管监督方法在特定条件下取得长足进展,但零样本3DVG因无需场景特定训练而更适用于真实应用场景。现有零样本方法受限于单视角推理,常出现空间理解不足和上下文信息缺失等问题。为此,本文提出一种新型零样本3D视觉定位框架SeqVLM,结合空间信息与多视角真实图像进行目标推理。该方法先通过3D语义分割生成候选区域并进行语义筛选,再将其多视角投影至图像序列以保留空间与上下文信息;同时引入动态调度机制,高效利用视觉语言模型的跨模态推理能力识别文本目标。实验结果表明,SeqVLM在多个基准数据集上均取得优异表现,展现出更强的泛化能力与实际应用潜力。

该论文的共同第一作者是厦门大学信息学院2024级硕士生林嘉文和2022级硕士生边诗然,共同通讯作者是曲延云教授和张亚超助理教授,由朱奕航(南京大学)、2024级博士生谭文斌、谢源教授(华东师范大学)等共同合作完成。





06




OV-VOD: Open-Vocabulary Video Object Detection

简介:传统视频目标检测(VOD)受限于预定义的封闭类别集,难以检测真实场景中的新物体。为此,本文首次明确定义了开放词汇视频目标检测(Open-Vocabulary VOD)任务,旨在检测视频流中来自开放类别(包括训练中未见的新类别)的物体。本文为该任务构建了基于LV-VISBURSTTAO数据集的评估基准,并提出了OV-VOD方法。该方法包含两个核心创新:语义存在记忆追踪模块利用记忆库跨帧传播物体特征以利用时间一致性;空间物体关系蒸馏损失捕获物体间空间依赖关系以增强知识蒸馏。实验表明,OV-VOD在多个视频数据集上展现出卓越的零样本泛化能力,在检测新类别方面显著优于现有图像级开放词汇检测方法,为开放世界的动态感知提供了新的有效解决方案。

该论文第一作者是厦门大学人工智能研究院2024级硕士生郑智鸿,通讯作者是王菡子教授,由信息学院2024级博士曹洋、高俊龙助理教授等共同合作完成。





07




TFPA: Text Features Guided Dynamic Parameter Adjustment for Few Shot Action Recognition

简介:由于在小样本场景下数据有限,模型往往难以学习到具有泛化能力的参数,并陷入对源领域特定归纳偏置的过拟合。与现有方法不同,本文提出了一种基于文本特征引导的动态参数调整方法(TFPA),用于小样本行为识别。受向量空间基分解的启发,TFPA将传统线性层重构为可扩展的基矩阵库:每个线性层被解耦为多组基参数矩阵,其中每个基参数矩阵类似于线性层的基向量,共同构成参数空间的基底。坐标向量计算(CVC)模块利用文本信息作为语义引导,通过生成多个参数矩阵的组合系数来构建适用于特定任务的线性层参数。在多个小样本动作识别基准数据集展现出优异的泛化能力。

该论文的共同第一作者是厦门大学信息学院2022级硕士生郭涵羽和人工智能研究院2023级硕士生阙溯舟,通讯作者是王菡子教授,由高俊龙助理教授共同合作完成。





08




PLATO-TTA: Prototype-Guided Pseudo-Labeling and Adaptive Tuning for Multi-Modal Test-Time Adaptation of 3D Segmentation

简介:多模态测试时自适应(Test-Time Adaptation, TTA)因其能够减少3D语义分割中对标注的依赖并实现快速适应,正逐渐成为研究热点。现有方法通常依赖可学习的额外组件来缓解可靠性偏差,然而,在TTA场景中,这类基于学习的方法往往缺乏充分的训练。此外,大多数现有方法仅更新教师-学生框架中归一化层,这限制了模型对领域偏移的建模能力。为此,我们提出了一种新颖的用于3D语义分割多模态TTA方法PLATO-TTA,利用鲁棒原型的天然稳定性和教师-学生关键参数的自适应调节能力解决该问题。该方法包含三个核心模块:原型引导的伪标签生成模块(PGPL)、基于一致性的回溯模块CBB) 以及领域特定更新模块DSU)。PGPL 通过原型构建伪源域,并根据领域差异计算模态融合权重,生成鲁棒伪标签从而减少可靠性偏差;CBB 在防止灾难性遗忘的同时更新学生模型的全部参数,引入参数回溯机制以增强稳定性;DSU 则仅使用学生模型中的领域特定参数来选择性地更新教师模型,实现快速适应并提供稳定指导。实验证明了 PLATO-TTA 的有效性。在存在严重可靠性偏差和显著领域差异的 Synthia→SemanticKITTI 场景中PLATO-TTA带来了 6.3% 的性能提升,并在多个域自适应场景中达到了当前最优性能。

该论文的共同第一作者是厦门大学信息学院2023级硕士生谢健祥和信息学院2021级博士生吴垚,共同通讯作者曲延云教授和谢源教授(华东师范大学),由张亚超助理教授、张晓沛(加州大学洛杉矶分校共同合作完成。