本篇文章1371字,读完约3分钟
编者按:这篇文章发表在谷歌博客上,原标题是“宣布YouTube-8m:一个用于视频理解研究的大而多样的标记视频数据集”
Youtube在全球拥有超过10亿用户,每秒上传的视频都是在几个小时内完成的。随着视频语料库的不断增加,需要一个推荐系统来及时准确地向用户推荐用户感兴趣的视频。
近年来,在机器学习和机器感知领域取得了许多突破,这只是借助于大型注释数据集,如imagenet,这是世界上最大的图像识别数据库,其中包含数百万个分为数千种类型的注释图像。这些图像识别数据库的可用性增加了图像理解领域的研究,例如检测和分类静态图像中的对象。
最近,谷歌在其博客中宣布,它已经发布了一个大型视频数据集YouTube-800万。它包含800万个youtube视频的网址,代表长度为50万小时的视频和视频标签。这些注释来自4800个知识图实体的不同集合。
与现有的视频数据集相比,youtube-8m的规模和多样性都有了显著提高。Sports-1m是过去最大的视频数据集,包含约100万个youtube视频和500个体育领域类别。
要创建大规模的标注视频数据集,需要解决两个关键问题:
视频标注比图像标注耗时更长。(如果是手动标记)
2.处理和存储视频的计算成本非常高。
为了解决第一个问题,谷歌使用了youtube和它的视频注释系统。该系统可以快速确定所有公共youtube视频的高度相关的知识地图主题。这些注释是由机器生成的,这些机器集成了来自数百万用户的强大用户参与信号和视频元数据的内容分析。因此,标注的质量非常高,可以达到视频分析研究和标准制定的目的。
如何确保该视频数据集的稳定性和高质量?谷歌已经使用了1000多个公开的评论视频,并创造了一个多样化的实体词汇。这些内容都是可视化的,并且经常出现。
从下图中,我们可以看到数量集的规模和多样性:
顶层垂直类别中数据浏览器的视频分发
数据浏览器允许浏览和搜索整个知识地图的实体词汇表,该词汇表被分成24个顶级垂直类别,包括相应的视频。
标有指南的数据集视频的子集。
在解决第二个问题时,谷歌必须应对制作这些视频时存储和计算资源的压力。为了与youtube 8m的规模相匹配,视频理解通常需要相当于一个cpu在夏天工作几十年的pb级存储和处理能力。
为了与没有如此高计算资源的研究人员和学生共享这一强大的数据集,谷歌使用深度学习模型对视频进行预处理,并提取帧级特征。这些特征是从19亿个视频帧中提取的,时间分辨率为每秒1帧。
之后,这些视频将被进一步压缩到可以加载到一个商品级硬盘上的大小(小于1.5 tb)。这使得用户能够在不到一天的时间里在一个gpu上下载所有数据集。
谷歌在其博客中表示,这一数据集可以极大地加速视频理解,因为它使研究人员和学生能够在不使用大数据和大机器的情况下进行前所未有的研究。
Youtube的推荐系统一直是业内最复杂、最常用的系统之一。谷歌希望YouTube 800万将刺激视频建模架构和表征学习的新研究,特别是有助于有效处理噪音或不完整标签、迁移学习和领域适应。
viagoogleblog
推荐阅读:
深度、卷积和递归这三个模型中,哪一个在人类行为识别中是最好的?
卡内基·梅隆大学星博眼中的人工智能:它的价值在于普遍性
班,斯坦福在自然语言处理方面的雄心