• 首页
  • 学院概况
    学院简介 现任领导 组织机构 历史沿革 学科概况
  • 师资队伍
    教师简介 导师队伍
  • 人才培养
    本科生教育 研究生教育 基层教学组织
  • 科学研究
    学术交流 科研平台
  • 党群工作
    基层党组织 理论武装 党群动态
  • 学生工作
    团学组织 学生活动 青春榜样 就业信息
  • 校友工作
    工作动态 毕业合照
学术科研
  • 学术通知
  • 学术动态
学术动态
首页 > 学术科研 > 学术动态

我院教师在国际顶级期刊IEEE TMM上刊发研究成果

日期:2026-04-29 责任编辑:刘佰龙 浏览量:

近日,我院邵志文教授团队在多媒体与计算机视觉领域的国际顶级期刊IEEE Transactions on Multimedia(TMM)发表题为“Textrsr: Enhanced arbitrary-shaped scene text representation via robust subspace recovery”的学术论文。该研究引入鲁棒子空间恢复技术,针对任意形状场景文本表示的鲁棒性不足问题开展系统性研究,有效提升了复杂场景下文本特征表示的准确性与稳定性,为场景文本识别、图像检索等下游任务提供了关键技术支撑。

TextRSR框架图

该研究聚焦任意形状场景文本表示这一核心技术难题,针对现有方法在复杂背景、形变干扰、尺度变化等场景下易出现特征失真、表示能力不足的问题,创新性地引入鲁棒子空间恢复技术,结合场景文本的结构特性与语义信息,构建了一套高效的文本特征增强表示框架TextRSR。研究突破了传统场景文本表示依赖局部特征提取、难以适配任意形状文本的局限,通过子空间恢复理论对文本特征进行降噪与增强,挖掘文本特征的内在低维结构,有效过滤复杂背景与形变带来的干扰,实现了对任意形状(如弯曲、倾斜、不规则)场景文本的精准表示。

具体而言,Textrsr框架以鲁棒子空间恢复为核心,设计了三重关键机制:一是基于主成分分析的特征提纯机制,通过拟合文本特征的低维子空间,剔除背景噪声与冗余信息,保留文本核心特征;二是自适应特征对齐机制,结合文本的空间结构与语义关联,实现不同尺度、不同形变文本特征的精准对齐,提升特征表示的一致性;三是残差补偿机制,针对子空间恢复过程中的特征损失,设计残差模块进行补充修正,进一步增强特征表示的完整性与鲁棒性。大量实验结果表明,TextRSR框架在多个主流场景文本数据集上表现优异,不仅在任意形状文本表示任务中显著优于现有基线方法,而且在复杂背景、极端光照、严重形变等挑战性场景下,仍能保持较强的稳定性与泛化能力,无需引入额外外部知识即可适配多种下游计算机视觉任务。

IEEE Transactions on Multimedia(TMM)是IEEE旗下多媒体领域的权威旗舰期刊,由IEEE信号处理学会、电路与系统学会、通信学会、计算机学会四大学会联合主办,创刊于1999年,深耕多媒体技术研究与应用二十余年。该期刊于2026年3月依据CCF第七版推荐目录,从CCF-B晋升为计算机图形学与多媒体领域CCF-A顶刊,同时位列中科院计算机科学大类1区TOP、JCR全学科Q1,最新影响因子达9.7,近10年影响力持续攀升,在全球多媒体、计算机视觉、信号处理等领域具有较高的学术权威性与影响力,是相关领域研究者发表高水平成果的核心平台。

该项成果是计算机科学与技术学院/人工智能学院近年来聚焦学科前沿、深耕核心技术,坚持“入主流、有特色”科研理念的重要体现,也是学院在多媒体与计算机视觉交叉领域取得的又一突破性进展。未来,计算机科学与技术学院/人工智能学院将持续对标国内一流学科建设标准,强化学科内涵建设,鼓励教师团队聚焦国家战略需求与行业技术痛点,潜心开展高水平基础研究与应用研究,持续产出具有国际影响力的标志性成果,为学院学科高质量发展、助力我国人工智能与多媒体技术产业升级提供有力支撑。

下一篇:我院教师在国际顶级会议ACL上刊发研究成果
大学计算机
基础课程预约
专业认证资料
管理系统
全国计算机等级
考试报名
基础试验网
专业资源网
会议室、实验室
使用预约
报修预约
下载专区

邮编:221116 联系电话:0516-83591709

地址:江苏省徐州市大学路1号中国矿业大学南湖校区

版权所有:中国矿业大学计算机科学与技术学院/人工智能学院

官方微博
微信公众号