本篇文章1565字,读完约4分钟
本文首次在微信公共平台上发表:新智元。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。
新智元编译源: qz作者: dave gershgorn编译:马文
【新智元领导】让机器理解视频中人的行为是计算机视觉中的基本研究问题,谷歌最近发表了电影片段数据集ava,目的是让机器理解人的活动。 该数据集以人为中心标记,包括80种动作的57600个视频剪辑,有助于人类行为识别系统的研究
数据集地址: research.google/ava/
论文: arxiv/abs/1705.08421
让机器理解视频中人的行为是计算机视觉中的基本研究问题,对个人视频的检索和发现、运动分解和手势界面等应用十分重要。 尽管近年来在对图像进行分类和在图像中寻找目标对象方面取得了令人兴奋的突破,但认识人类的动态仍然是一大挑战。 这是因为动作的定义比视频中对象的定义差。 这是因为创建精细标签的动作视频数据集并不容易。 多个基准数据集(如ucf 101、activitynet和deepmind中的 kinetics )使用图像分类标签方案将标签分配给数据集中的每个视频或视频剪辑。 没有数据集可用于多个复杂场景,包括可能执行不同操作的多个人。
谷歌上周推出了一套新的电影剪辑数据集,让机器理解人的活动。 这个数据集被称为ava(atomic visual action ),这些视频对人类来说并不特别。 只有youtube 的人们喝水做饭的3秒钟视频剪辑。 但是,每个视频都被捆绑在一个文件中,显示机器学习算法应该注意的人、姿势以及他们是否与另一个身体或物体进行交互。 指着狗给孩子看,“狗! 就像教你"。 这个数据集是这样场景的数字版本。
与其他动作数据集相比,ava具有以下重要特征:
以人为中心的标记( person-centric annotation )。 各个动作标签与一个主体相关联,而不是与视频或视频剪辑相关联。 因此,经常可以为在同一场景中执行不同操作的多个人指定不同的标签。
原子视觉动作( atomic visual actions )。 我们把动作标签限制在一定的时间尺度( 3秒)。 动作需要物理性质,需要清晰的视觉信号。
真实的视频素材。 我们采用不同类型、不同国家的电影作为ava的数据源。 因此,数据包括广泛的人类行动。
3秒视频剪辑的示例,每个剪辑的中间帧都有边界框。 (为了清楚起见,每个样本只显示一个边界框。)
视频中有多人时,每个人都有自己的标签。 这样,算法可以知道“握手”的动作需要两个个体。
这项技术有助于谷歌分解youtube 上的视频。 可以用于更好地刊登定向广告,或用于复制过滤。 作者在相应的研究论文中指出,最终目标是理解计算机社会的视觉智能( social visual intelligence ),即“人类在做什么,他们接下来要做什么,以及他们要达到的目的
ava数据集包括57600 个标记视频,详细记录了80种行为。 站着、说话、听、走等简单动作在数据集上更有代表性,每个标签上有1万多个视频剪辑。 研究者在论文中写道,采用电影中的片段确实会对他们的工作带来一些偏见。 因为电影有“语法”,有点动作戏剧化了。
“我们不认为这些数据是完美的。 ”论文中写道:“但是,这比采用客户入住的复印件要好。 比如动物杂耍的视频,diy教育的视频,孩子的生日派对等视频等”。
论文引用中试图找到“不同国籍的顶级演员”,但没有详细证明数据集有可能因种族和性别而产生偏见。 研究者希望ava的发表有助于人类行为识别系统的研究,为个人行为水平的细时空基于粒度的标签提供了对许多复杂活动进行模型化的机会。
原文: QZ/1108090/Google-IS
复制源:微信公共平台新智元
标题:“谷歌发布电影动作数据集AVA,57600精准标注视频教AI识别人类行为”
地址:http://www.china-huali.com/cjxw/45760.html