张兆田 信息科学部
北京大学彭宇新教授团队(PKU_ICST)参加了2016年国际评测TRECVID(TREC Video Retrieval Evaluation)视频搜索比赛(Instance Search),在其全部2项评测---计算机自动搜索和交互式搜索中,均获得第一名。这是彭宇新团队自2009年连续多年参加TRECVID获得多项第一名后,再次获得的优异成绩。视频搜索比赛历年参赛队伍包括卡内基梅隆大学、斯坦福大学、牛津大学、IBM Watson研究中心、微软等国际著名大学和企业,2016年共有30支队伍参加了该比赛。
TRECVID由美国国家标准技术局(NIST)2001年发起,每年举行一次,是迄今为止影响力最大的全球视频内容分析比赛(http://trecvid.nist.gov)。Instance Search比赛内容是计算机如何在图像查询条件下,从人类语义的角度搜索语义相关的视频,涉及下一代多媒体搜索引擎和人工智能的关键技术。TRECVID 2016的Instance Search比赛数据集是BBC的464小时视频内容,有47万多个视频镜头。NIST定义了30个语义事件,每个语义事件同时包括人物和场景两个查询条件,要求在大规模数据下搜索出包含这些语义事件的视频,最终根据30个语义事件的总评测结果进行排名。
图像、视频等多模态数据已经占到大数据的80%以上。近年来彭宇新团队针对互联网多模态内容分析与识别难题,提出了基于注意力模型和增量深度学习的图像视频分类方法,解决了新增概念的训练加速和动态扩容难题;提出了级联分类器与极角拓扑约束相结合的判别方法,提高了视觉目标检测效果;提出了基于多模态融合与增量多索引磁盘哈希的语义协同方法,通过跨模态语义互补性实现多模态数据的综合利用。相关研究成果发表在IEEE Trans.等国际权威期刊和CVPR、ACM-MM等重要国际会议上,研制的互联网多模态内容分析与监管系统等在国家一些重要部门得到应用。
上述研究得到国家自然科学基金项目(项目资助号:61371128,61532005)等资助。
比赛结果见链接:http://www-nlpir.nist.gov/projects/tvpubs/tv16.slides/tv16.ins.slides.pdf
|