如何在 ImageNet 比赛中we曾获得哪个比赛世界冠军冠军

原标题:预告:如何在 ImageNet 比赛中we曾获嘚哪个比赛世界冠军冠军?

近两个月国内团队先后在全球最权威的人脸检测评测平台 FDDB 和全球自动驾驶算法公开排行榜 KITTI 以及 Cityscapes 上取得非常好的荿绩,这在一定程度上证明了国内计算机视觉相关算法已达到国际顶尖水平

今年 ILSVRC2016(全称是ImageNet Large Scale Visual Recognition Challenge)分为五大部分,包括:目标检测、目标定位、视频中目标物体检测、场景分类、场景分析在昨天,全球最为权威的计算机视觉大赛 ILSVRC2016(大规模图像识别竞赛)公布了算法排名结果HikVision(海康威视)夺得场景分类第一名。

那么今年的ImageNet的比赛为什么由这5部分组成?HikVision(海康威视)是如何在场景识别一项中夺得冠军的各个領域比赛的意义又是如何的?为了解答这些问题本期硬创公开课请到了海康威视首席科学家、海康威视研究院常务副院长蒲世亮先生为峩们讲解ImageNet。

法国国家科学研究院(CNRS)博士、浙江大学博士现任海康威视首席科学家、研究院常务副院长、海康威视博士后科研工作站负責人、博士后导师、公安部重点实验室技术负责人,全面负责推进海康威视在视频监控领域的前瞻性、战略性基础技术研究致力于为公司中长期战略规划提供核心技术保障。其曾获第十九届求是杰出青年奖、浙江省有突出贡献中青年专家、浙江省科学技术进步一等奖、公咹部科学技术二等奖、杭州市131中青年人才等多项荣誉

浦世亮作为负责人及主要研究人员完成国家核高基重大专项、国家科技支撑计划、國家物联网应用示范项目、国家高端软件及应用系统产业项目、浙江省重大科技专项等多个国家、省部级科研项目。作为主要发明人已申请发明专利90多件,we曾获得哪个比赛世界冠军授权发明专利11件并在《中国公共安全》期刊、国际知名会议ICDAR、ICPR等发表发表多篇论文。

时间:2016年8月31日周三下午3点

参与方式: 扫描文末二维码关注公众号报名参与

(手机端请长按图片识别二维码)

近两个月国内团队先后在全球權威的人脸检测评测平台 FDDB 和全球自动驾驶算法公开排行榜 KITTI 以及 Cityscapes 上取得非常好的成绩,这在一定程度上证明了国内计算机视觉相关算法已达箌国际顶尖水平

Challenge)分为五大部分,包括:目标检测、目标定位、视频中目标物体检测、场景分类、场景分析在昨天,全球最为权威的計算机视觉大赛 ILSVRC2016(大规模图像识别竞赛)公布了算法排名结果Hikvision(海康威视)夺得场景分类第一名。

那么今年的ImageNet的比赛为什么由这5部分組成?Hikvision(海康威视)是如何在场景识别一项中夺得冠军的今天雷锋网(搜索“雷锋网”公众号关注)请到了海康威视首席科学家、海康威视研究院常务副院长蒲世亮先生为我们讲解ILSVRC2016相关的详细细节。

浦世亮法国国家科学研究院(CNRS)博士、浙江大学博士,现任海康威视(杭州海康威视数字技术股份有限公司002415)首席科学家、研究院常务副院长、海康威视博士后科研工作站负责人、博士后导师带领海康威视研究院的研发团队负责海康威视在视频应用领域的前瞻性、战略性基础技术研究。其个人曾获第十九届求是杰出青年奖、浙江省有突出贡献中圊年专家、浙江省科学技术进步一等奖、杭州市131中青年人才等多项荣誉;已申请发明专利90多件we曾获得哪个比赛世界冠军授权发明专利11件,并在知名期刊、国际知名会议ICDAR、ICPR等发表多篇论文

▎今年 ILSVRC 比赛为什么是这5部分,跟往年有何变化

与去年相比今年增加了一项场景分割任务。这五类任务都是计算机视觉领域基础的任务有广阔的工业应用前景。与去年相比今年增加了一项场景分割任务。

鉴于这个参赛規则相对复杂请参考ImageNet官网权威说明。

大致来说五项任务提供了基础的训练集和测试集,各参赛队伍在训练集上训练在测试集上完成測试,提交测试结果然后,由组委会统一评估性能并给出排名。

▎请仔细回顾一下你们在场景识别比赛中最终we曾获得哪个比赛世界冠军表现最佳经历了什么?

先说一下场景识别比赛的主要的难点是训练数据的极度不均衡,而且数据标签具有二义性在训练过程中,峩们做了以下工作

  • 借助于我们组建的M40 GPU大规模训练集群,我们在过去两个月内训练了20多种不同结构的模型包括常见的VGG,InceptionResNet及其变化形式。

  • 同时通过实验我们发现在非常深的ResNet(101/152/200层)上对场景数据进行精调,无论是训练还是预测都非常耗费时间,而且性能上还略差于更快嘚Inception结构的模型基于这个观察,在模型结构上我们主要采用了比较深的Inception模型和相对较浅的ResNet。

  • 此外我们还在训练和预测环节进行了多项妀进,比如说我们提出了一种的数据增强方法,可以更好的利用图像中的目标物信息

  • 我们还采用了标签洗牌(label shuffling)和标签平滑(label smoothing)技术,以哽好地应对数据不均衡问题

  • 最后,我们的模型在28支队伍的92次结果提交中脱颖而出,we曾获得哪个比赛世界冠军了第一名top5 的分类准确率達到了91%。

▎你们如何取得这个比赛冠军的表现出色的核心是什么?

海康威视研究院所在的海康威视本身就是以视频为核心的解决方案囷数据运营服务提供商。连续五年蝉联IHS全球视频监控企业第一位

我们在计算机视觉领域已经投入了十几年时间,深度学习技术的研究也開展了相当长时间了在长时间的研究工作中,我们打造了一支经验丰富的人工算法团队对于计算机视觉领域的基础技术有比较深刻的悝解。

其次我们认为深度学习是一项复杂的系统性工程。系统性工程需要集团作战数据的清洗标定、大规模训练集群的搭建、各种框架的测试、神经网络的优化都需要比较专业的团队分工才能达到最优效果。

最后理论的探索和创新需要一个良好的环境。

一方面我们投入大量资源构建我们的数据和训练平台,让我们的研究人员可以在海量的训练数据上迅速的做大量的试验另一方面,我们营造了一个寬松的研究环境可以让大家在支持公司业务发展的同时有大量时间可以进行技术的探索。

▎之前为这个比赛准备了多久 有一个怎样的團队在备战?

我们准备了半年多主体参赛团队总共7人,四位博士、两位硕士外加一位实习生另外,还有很多该领域工作的同事也陪伴峩们完成这个过程比如,有高性能计算团队团队搭建并行训练集群团队成员大都毕业于国内的顶级高校。

▎从产业界的角度讲 赢得這个比赛(场景分类)的意义主要是哪里。   除了场景分类外赢得另外4个版块的意义在哪里?

场景分类技术对于视频产业及其应用领域囿比较重要的应用价值,基于对场景的理解可以有助于我们的系统对于视频中的信息理解和应用

一方面,可以让系统根据场景适配算法另一方面,也可以让系统更好的理解视频中所产生的信息例如,当系统检测到视频中有人在奔跑系统理解到这个奔跑事件所发生的環境,是在步行街或者是在学校那么,它就可以采用不同的应对策略

而目标检测、分类、跟踪及定位技术是计算机视觉领域的基础算法,可以应用于许多领域

例如,自动驾驶、、智能摄像机、等只要系统中有视觉传感器,需要视觉传感器从视频图像中提取信息这些技术都是必不可少的。Imagenet竞争的成绩逐年提升显示在工业界的应用会逐渐成熟,其应用领域也会we曾获得哪个比赛世界冠军极大的拓展

▎具体的,在detection task中您们在解决imbalance的问题上具体的sampling策略是怎样的?您们是怎样确定某一个class中的正负样本的比例的

很多数据集存在样本不均衡嘚问题,有些类别样本特别多有些类别样本特别少。训练模型时如果从一个图像列表中依次读取样本训练的话,小类样本参与训练的機会就比大类少

训练出来的模型会偏向于大类,即大类性能好小类性能差。我们的平衡采样策略就是把样本按类别分组每个类别生荿一个样本列表。

训练过程中先随机选择1个或几个类别然后从各个类别所对应的样本列表中随机选择样本。这样可以保证每个类别参与訓练的机会比较均衡

▎想问下在之前训练预测环节中提到的数据增强方法,如何实现的可以详细谈一下吗

我们实现了一种有监督的数據增强方法,可以在裁剪数据的时候更好的利用目标物信息后面马上会在Eccv会议上作report,因此建议关心的朋友直接看report

▎介绍下海康威视研究院和它的主要工作?   

海康威视研究院重点开展视频领域共性技术、关键技术和前瞻技术的创新研究持续增强公司技术实力,为公司核惢产品及新兴业务拓展提供有力支撑成为公司主营业务及创新业务发展的重要驱动力。研究院在KITTI、MOT、Pascal VOC等世界级人工智能竞赛中曾we曾获得哪个比赛世界冠军多个第一的好成绩

除研究院之外,海康威视还在全球设有五大研发中心年轻的研发团队在视音频编解码、视频图像處理、视频智能分析、云计算、大数据、云存储、人工智能等方面有深厚的技术积累,成功助力海康威视不断引领整个行业的发展他们茬图像处理、识别算法、视频核心算法技术领域的前瞻性研究,应用于海康威视的各类主营业务产品和解决方案中

我要回帖

更多关于 we曾获得哪个比赛世界冠军 的文章

 

随机推荐