报告题目:视觉多模态融合与感知
报 告 人:徐天阳
报告时间:2025年11月2日14:00-15:00
报告地点:计算机楼B518
摘要:多模态视觉感知是实现视觉智能的核心研究方向,其关键挑战在于多源视觉数据通常具有显著的数据冗余性、复杂场景下的高度多样性以及不同模态间结构和语义的差异性。为应对上述挑战,如何实现多模态信息的高效协同与深度融合,已成为提升视觉感知系统性能的重要路径。本报告将围绕高效图像融合与精准连续定位两个关键视觉任务展开,系统介绍在多模态视觉融合和感知方面的最新研究进展。具体包括:(1)面向资源受限场景的超轻量级多模态图像融合网络设计,通过结构优化与知识蒸馏技术,在保持融合质量的同时大幅降低计算开销;(2)基于异构特征融合的鲁棒目标跟踪模型,结合结构和语义的交互机制,有效应对复杂场景下的外观变化与遮挡问题;(3)大规模视觉多模态基准数据集的构建与评估体系,涵盖可见光、红外、深度、事件等多类模态,为模型训练与验证提供重要数据基础。

报告人简介:徐天阳,江南大学副教授,博导。研究方向为视频理解与多模态融合,发表学术期刊与会议论文百余篇,包括CCF-A/IEEE汇刊50余篇,其中IEEE TPAMI/IJCV 9篇,谷歌学术引用6000余次。主持国自然面上项目、青年项目、江苏省杰出青年基金项目、国自然重点项目课题等。担任中国人工智能学会模式识别专委会副秘书长、江苏省人工智能学会模式识别专委会副主任。担任IEEE TIP、Pattern Recognition编委,CVPR、ICLR、ICPR、PRCV、VALSE等学术会议的程序主席、领域主席、研讨会主席/组织者、讲习班组织者等10余次。相关研究工作获“中国图象图形学学会优秀博士学位论文奖”,获“江苏省自然科学百篇优秀学术成果”,获CVPR/ICCV/ECCV等国际学术会议举办相关学术竞赛(VOT、MMVRAC、Anti-UAV、AI City Challenge、Perception Test Challenge、MARS2)冠亚军10余项,连续入选斯坦福大学全球前2%顶尖科学家年度榜单。