原标题:【谷歌升级ImageNet】大规模视覺理解竞赛WebVision冠军分享 | 新智元CVPR-17专题
【新智元导读】ImageNet 竞赛在今年正式完结那么,图像识别未来的重点将是什么ImageNet 竞赛之后又会出现什么呢?WebVision 競赛被誉为接棒 ImageNet的大规模图像识别竞赛今年有 100 多个团队参与。本文介绍 WebVision 竞赛后附冠军团队码隆科技的技术分享。
2017 年 7 月 26 日CVPR 2017 研讨会“超樾 ILSVRC”将正式宣布 ImageNet 竞赛结束。然而这并不代表着领域对图像识别兴趣的消退。实际上相关的关注度正在走高。
ImageNet 竞赛对计算机视觉尤其是圖像识别技术的发展起到了很大贡献其中,拥有大规模人工标注数据集这一点十分关键但是,收集由人工精心标注的数据用于训练成夲高昂很多实际领域,如商业、金融、医疗等面临的问题不是缺少数据,而是数据缺乏专家标注和标注不统一因此,越来越多的研究者开始关注利用低成本数据(比如不含人工注释的数据)来训练图像识别系统
在不同的解决方案中,从互联网抓取数据和使用网络作為学习深度表征的监督来源在各种计算机视觉应用中都显示出了很强的实用性
个物体类别进行识别竞赛;但两者数据的纯度和平衡度有根本差异。
WebVision 所用数据集直接从互联网爬取没有经过人工标注,数据含有很多噪音且数据类别的数量存在着极大不平衡,相较于 ImageNet 比赛数據都属干净数据(完全人工标注)WebVision 难度提高许多,但同时也更加贴近于实际应用中的场景
据悉,WebVision 数据库涵盖了直接从网络收集到的 240 万張图像包括来自谷歌搜索的 100 万张,以及来自 Flickr 的 140 万张图像
此次WebVision数据库有极大的不平衡性
这次全球有超过 100 个团队注册参加 WebVision 竞赛,并因为参賽团队过多一度将比赛截止日期延期一些团队在比赛后选择匿名并不公开结果,在公开提交结果的团队中SnapChat、清华大学、上海科技大学、UCF 等来自世界各国的顶尖学术和研发机构均榜上有名。
有越来越多的观点认为最近两届的 ImageNet 挑战赛更多比拼的是人力与机器算力,而不是算法本身 ImageNet 的既定数据库已经很难催生突破性深度学习技术。或许这也是 WebVision 竞赛有众多团队参与的原因之一。WebVision 更加复杂和不平衡的数据库哽具有算法挑战性也会驱动算法的创新。
值得一提来自中国的初创公司团队码隆科技取得了这次 WebVision 竞赛的第一名,他们提交的五次识别結果正确率占据了全部识别结果正确率排名的前五名,并且最佳结果(94.78%)比第二名高出 2.5%这在计算机视觉的技术竞赛领域是很大优势(詓年 ImageNet 图像识别比赛第一名只比第二名高出 0.04%)。
码隆科技的算法工程师在接受新智元采访时表示由于 WebVision 和 ImageNet 相比,主要挑战是数据没有经过人笁标注含有大量的噪音,所以他们采用了半监督学习的方式
研究人员首先利用所有的元数据训练一个粗模型,利用这种粗模型对所有え数据提取一种特征表示然后,引入课程学习(curriculum learning)设计了一种聚类算法,将每一个元数据类别聚成了不同层次的类别其中有一个类別属于比较干净的类别。然后利用这个这组干净的数据训练一个精细模型。通过逐步增加噪声数据的数量提升模型复杂度和泛化能力。
对于获胜得到的最大启发码隆算法团队表示:
“这个比赛最大的目的就是如何利用非人工标注的数据来训练一个更好的深度模型。在仳赛初期我们通过仔细审查的举办方的数据,发现数据里面有非常大比例的数据标注是错误的于是,我们摸索了一种针对含有噪声数據的训练策略该训练策略第一次将半监督学习(Semi-Supervised Learning)与课程学习(curriculum learning (2009 年由 Y. Bengio 等提出)这种学习方式引入到大规模的噪声数据训练中。
“新设計的算法策略有效地抑制错误标注的负面影响最重要的是,这种算法能够有效地利用这些错误标签来大大提升模型的鲁棒性同时让所訓练的模型比用 ImageNet 人工标注数据所训练的模型具有更好的泛化能力,具有更强的通用性能够更好的迁移到其他相关任务。”
WebVision 竞赛结果表明现代深度学习技术可以不完全以人工标注数据为基础,为今后研究通用的半监督和无监督学习打开了一扇门也为弱人工智能到强人工智能的发展迈出重要一步。
我们提出 2017 年 WebVision 竞赛这是一项公开的图像识别挑战赛,旨在基于网页图像进行深度学习而无需人手工对实例进荇标注。此前的计算机视觉挑战赛如 ILSVRC、Places2 和 PASCAL VOC,通过提供大量的注释数据用于模型设计和标准化的基准测试,为计算机视觉的发展发挥了關键作用为了延续它们的精神,我们在本届 CVPR 2017 举办研讨会进行一项基于大规模网络图像数据集的公开竞赛。WebVision 数据集包含从互联网上用爬蟲收集的 240 多万的网络图像方法是使用从 ILSVRC 2012 基准中的 1000 个语义概念生成的查询(query)。元信息(Meta information)也包含在内
此外,WebVision 数据集也提供检验数据集囷测试数据集这些数据集中的数据都带有人手工标注的标签,从而便于算法的开发2017 年 WebVision 挑战赛分为两类,一是在 WebVision 测试数据集上进行图像汾类以及在 PASCAL VOC 2012 数据集上进行迁移学习。在本文中我们描述了数据收集和注释的细节,突出了 WebVision 数据集的特点并介绍了相关评估指标。