• 首页
  • 学院概况
    学院简介 现任领导 组织机构 学科概况
  • 师资队伍
    学院教师
  • 人才培养
    本科生教育 研究生教育 基层教学组织
  • 科学研究
    学术交流 科研平台
  • 党群工作
    基层党组织 理论武装 党群动态
  • 学生工作
    团学组织 学生活动 青春榜样 就业信息
  • 校友工作
    工作动态 毕业合照
首页
  • 新闻动态
  • 通知公告
  • 学术交流
  • 学生活动
  • 师生风采
  • 教学科研
学术交流
首页 > 学术交流 > 正文

【学术报告】基于多模态大模型的视觉内容理解与生成

日期:2025-10-09 责任编辑:刘佰龙 浏览量:
地点: 计算机楼A501 报告人: 彭宇新
日期: 2025年10月14日

报告题目:基于多模态大模型的视觉内容理解与生成

报 告 人:彭宇新

报告时间:2025年10月14日14:00-17:00

报告地点:计算机楼A501

摘要:多模态大模型在视觉内容理解与生成的协同进化上展现出巨大潜力,也面临关键挑战。在视觉内容理解上,真实世界的细粒度和多模态特性对大模型提出挑战;在视觉内容生成上,如何生成内容真实、逻辑合理且语义一致的视觉内容是需要研究的关键问题。围绕上述难题,本团队在细粒度多模态大模型、AIGC等方面进行了相关研究,推动多模态大模型赋能视觉内容的理解与生成。

报告人简介:彭宇新,北京大学二级教授、博雅特聘教授,CAAI/CIE/CSIG Fellow,2019年国家杰出青年科学基金获得者(2025年获延续资助),2019年国家万人计划科技创新领军人才,2018年科技部中青年科技创新领军人才,863项目首席专家,中国工程院“人工智能2.0”规划专家委员会专家,中国人工智能产业创新联盟专家委员会主任,中国图象图形学学会副秘书长、提名与奖励委员会副主任,北京图象图形学学会副理事长。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然基金重点(2项)、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文160多篇,获最佳论文奖2次。参加10届(10年)由美国国家标准与技术研究院(NIST)举办的国际评测TRECVID视频搜索比赛,均获第一名,参赛队伍包括斯坦福大学、卡内基梅隆大学、牛津大学等。成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。担任IEEE TCSVT高级领域编委、IEEE TMM等期刊编委,培养博士生获中国计算机学会、中国电子学会等优博。

上一篇:【学术报告】空间智能驱动的具身世界模型 下一篇:【研学报告】区块链、web3.0及元宇宙
大学计算机
基础课程预约
专业认证资料
管理系统
全国计算机等级
考试报名
基础试验网
专业资源网
会议室、实验室
使用预约
报修预约
下载专区

邮编:221116 联系电话:0516-83591709

地址:江苏省徐州市大学路1号中国矿业大学南湖校区

版权所有:中国矿业大学计算机科学与技术学院/人工智能学院

官方微博
微信公众号