【学术报告】视觉多模态融合与感知

日期：2025-10-31 责任编辑：刘佰龙浏览量：

报告题目：视觉多模态融合与感知

报告人：徐天阳

报告时间：2025年11月2日14:00-15:00

报告地点：计算机楼B518

摘要:多模态视觉感知是实现视觉智能的核心研究方向，其关键挑战在于多源视觉数据通常具有显著的数据冗余性、复杂场景下的高度多样性以及不同模态间结构和语义的差异性。为应对上述挑战，如何实现多模态信息的高效协同与深度融合，已成为提升视觉感知系统性能的重要路径。本报告将围绕高效图像融合与精准连续定位两个关键视觉任务展开，系统介绍在多模态视觉融合和感知方面的最新研究进展。具体包括：（1）面向资源受限场景的超轻量级多模态图像融合网络设计，通过结构优化与知识蒸馏技术，在保持融合质量的同时大幅降低计算开销；（2）基于异构特征融合的鲁棒目标跟踪模型，结合结构和语义的交互机制，有效应对复杂场景下的外观变化与遮挡问题；（3）大规模视觉多模态基准数据集的构建与评估体系，涵盖可见光、红外、深度、事件等多类模态，为模型训练与验证提供重要数据基础。

报告人简介：徐天阳，江南大学副教授，博导。研究方向为视频理解与多模态融合，发表学术期刊与会议论文百余篇，包括CCF-A/IEEE汇刊50余篇，其中IEEE TPAMI/IJCV 9篇，谷歌学术引用6000余次。主持国自然面上项目、青年项目、江苏省杰出青年基金项目、国自然重点项目课题等。担任中国人工智能学会模式识别专委会副秘书长、江苏省人工智能学会模式识别专委会副主任。担任IEEE TIP、Pattern Recognition编委，CVPR、ICLR、ICPR、PRCV、VALSE等学术会议的程序主席、领域主席、研讨会主席/组织者、讲习班组织者等10余次。相关研究工作获“中国图象图形学学会优秀博士学位论文奖”，获“江苏省自然科学百篇优秀学术成果”，获CVPR/ICCV/ECCV等国际学术会议举办相关学术竞赛（VOT、MMVRAC、Anti-UAV、AI City Challenge、Perception Test Challenge、MARS2）冠亚军10余项，连续入选斯坦福大学全球前2%顶尖科学家年度榜单。

下一篇：【学术报告】MESH融合基站煤矿应急通信系统

地点：	计算机楼B518	报告人：	徐天阳
日期：	2025年11月2日14:00