【译】计算机视觉在视频中的6大妙用

徐大白
3周前 阅读 124 点赞 2

在过去五年中,计算机视觉发展迅速,使得许多基本的图像识别任务比以前更加精确和流行,以至于亚马逊、谷歌、IBM和微软等科技巨头都把它作为现成的商品提供。

然而,让机器识别视频中正在发生的事情是无限的挑战,因为您不仅要处理单个图像中的对象、面部和风景,还要处理时间顺序和时间以及动作、叙事和观点。

好消息是,那些给当前图像识别热潮增压的发展——即更好、更多的训练数据和更快、更便宜的计算能力——也有助于推进计算机视觉在视频中的应用。目前最先进的技术仍然是图像识别,应用于视频中的单个帧。这还是早期— —但是毫无疑问,这是计算机视觉下一个激动人心的前沿应用,以及新创企业和老牌玩家在其中的数量正在增长。这里有六个吸引人的例子:


1.来自现有相机镜头的客户和访问者分析

全世界有超过2.45亿个视频监控摄像机,可以捕捉到从交通到道路到购物商场的购物者等各种信息,但实际上只有1%的人正在被观察和分析。

根据Aura Vision 实验室的说法,该实验室最近推出了一项计算机视觉技术,它能够观看CCTV或其他公共摄像机的镜头,并能识别性别、年龄和穿着风格(即使在人群中)。

这听起来可能令人毛骨悚然,但问题在于它完全是匿名的——这里没有面部识别——使得它符合新的隐私规则,例如GDPR,等等。

Aura计划将这项技术应用到零售领域,这样计算机视觉可以比现有的方法更精确,例如信标(需要参与式手机)和忠诚卡(需要注册和在收银机上实际使用)。计算机视觉可以提供更准确的客户行为分析。


2.真实世界广告的实时度量

印刷广告和那些在广告牌、汽车、墙壁或其他现实世界的公共空间中发现的广告从广告的最初时期起就一直有效,但是当它们与数字产品相抵触时,它们很难产生深刻的性能指标,更不用说有效的实时购买方式了。

Blimp将于6月推出,它将CCTV、卫星和交通传感器(电磁线圈和摄像头)的现有和公开可用数据与诸如袖珍型Blimp雷达(跟踪移动电话WiFi信号)和Blimp头戴式计数器(一台计算机)等专有设备的数据结合起来。比如,附在广告牌上的具有视觉功能的摄像机,可以逐字地计算头颅,以及他们在165英尺之外观看真实世界广告的时间)。

Blimp还充当在这些空间上做广告的市场,使得任何人都能够将他们的汽车、房子、墙壁,甚至T恤再次变成可购买和可追踪的真实世界广告。


3.电视和体育视频镜头的实时记录、编辑与分析

您可能已经看到了Google Photo s、Apple Photo’s Memories和Magisto等应用程序在智能手机图片和视频自动排序、捕捉最佳时刻并自动编辑成短片方面的出色工作。

这种相同的计算机视觉过程,尽管经过训练以寻找非常不同的东西,也正被应用于在体育赛事和诸如《老大哥》这样的节目上制作的数百万小时的视频,该节目在被俘虏的参赛者身上24/7都有摄像头。

以前,人类记录者必须尽最大努力在这些小时的视频中找到获胜的剧本或真人秀黄金时刻。现在,计算机视觉正在处理这项工作。

在最近的美国网球公开赛上,IBM沃森将计算机视觉应用于超过320小时的网球比赛录像,以便找到获胜比赛和引人注目的瞬间的剪辑,使用的模型寻找诸如运动员加油打气以及视频中欢呼的人群的特征。然后,沃森再次使用计算机视觉,将剪辑自动编辑成高光卷轴,平均不到5分钟,然后立即提供给广播公司,广播公司能够与观众分享视频,比之前快10小时。

人工智能和计算机视觉在即将到来的法拉利北美系列挑战赛中也开始发挥作用,无人机比赛的镜头将使用实况视频中的物体识别来检测赛车的位置,然后使用该位置来实时地向驾驶员提供洞察力,就像他们进行比赛一样,而不是离子统计和不同的观点(包括自动编辑的亮点)的观众。

Endemol Productions在全球几十个市场生产“老大哥”(BigBrothers),它正在引领人工智能和计算机视觉技术在真人秀电视节目中的发展。该公司聚集了一组4K高清相机在节目集上的小时和小时的镜头。其MicrosoftCogni.Services驱动的技术然后将计算机视觉、面部识别和自然语言处理(NLP)应用于片段,与来自生物特征传感器的数据交叉引用(以标记从事“戏剧”的参赛者的心跳),并记录任何为了制作出精彩的影片,制片人可以用来制作故事情节,或者分发给社会媒体。

在未来,体育和真人秀节目所产生的视频的时长只会增长。举例来说:尼康的MRMC子公司开发了一个名为Polycam Player的机器人照相机系统,该系统使用图像识别和人工智能来跟踪特定玩家在场上的脸,以便捕捉特定角度下的特定游戏,这对于人类来说更具挑战性(且昂贵)。

在机器人照相机和计算机视觉视频扫描的世界中,机器不仅成为解决方案的一部分,而且成为生产的一部分。


4.体育赞助价值评估

职业体育是以前被忽视的数据超载的另一个领域——在这种情况下,非团队拥有的球迷以及强调在社交网站上分享的静止图像和视频,都要求采用计算机视觉方法。

GumGum Sports专注于体育媒体的估价,使用先进的计算机视觉通过电视、流媒体和社交渠道寻找可见的标志,以找到品牌赞助的全部媒体价值。“高级”在本例中是指图像识别,它可以识别静止图像和视频中的标识,即使它们被暗淡的灯光、部分被其他东西遮挡,或者处于某个角度。

在运动剪辑中,该技术还寻找更可能引起观看和参与的特定剧目——3分投篮、扣篮、投篮和滚球——以及其他标准,例如标志的可见度、占据多少框架、多久显示一次,以及剪辑中的位置。然后,这些发现被用来告诉品牌、团队或联盟他们的产品布局究竟有多大价值,以便更好地告知他们的下一份赞助合同。

特别是,该技术在非国有社交媒体账户中发现了大量未开发的价值。GumGum Sports对NBA最近对团队球衣品牌赞助活动的分析发现,团队赞助价值的80%来自Instagram,另外还有3.5亿美元将捐赠给赞助商,这些赞助商对非自有社交媒体照片和视频股份考虑在内。


5.品牌安全

刚成立一年的URU——使用计算机视觉技术在空白位置和视频的其他重叠部分中放置标志——说,在YouTube上用户生成的极限运动视频上的滑板或T恤上的VANS标志,使用此技术是非常酷的,但是他潜入得更深,深入到急需品牌安全参与其中。

扫描视频内容的剪辑技术为品牌安全、确保赞助商的广告没有被定位为预滚动或旁边的一些有争议的或越来越多的假冒。

Uru联合创始人兼首席执行官Bill Marino说:“现在,在视频世界里有各种各样的垃圾,他们想确保他们在为提升自己品牌的东西提供广告,或者至少不伤害它。”“我们在视频、对象、主题和品牌中产生标签,然后产生一个品牌安全分析,识别安全、无亵渎、仇恨言论、网络欺凌、武器和其他品牌不想在旁边广告的东西。”

对于所有的人工智能,这种方法也依赖于NLP和现有的元数据,但是计算机视觉能够找到一些东西,例如,坏演员用来通过Google和Facebook的内容过滤器时带有一些稍微修改的关键词的视频,而可能不会。


6.相关实时视频搜索

查找五年前你在埃菲尔铁塔前拍的照片很简单,只要在Google照片中输入“埃菲尔铁塔”,然后立即得到这些图片的过滤列表。这归功于该服务将图像识别应用到您的照片收集中,以自动识别图像中的内容,然后基于诸如人、物体、风景和著名地标之类的因素对其进行分类和标记。最重要的是,你不用花时间去搜索和整理这些照片。

现在,同样的过程正在应用于视频,直到现在为止,视频依赖于由人和数据库(如IMDB)提供的现有标签和标题。

电视制造商海信最近宣布,与人工智能硬件制造商Yi+AI合作,在智能电视上创建下一代基于计算机视觉的视频搜索,使用户能够即时获得梅丽尔·斯特里普(Meryl Streep)在直播、流媒体和c.可以或付费查看每个频道,然后进行正确跳转。

在企业方面,视频搜索平台Vidrovr使用图像、音频和其他识别方法的混合应用来自动识别和分类视频中发生的一切,从面部到物体到动作。

然后,它向出版商和其他内容创建者提供这种技术,这些出版商和其他内容创建者希望查找并添加相关视频,这些视频位于他们发布的文章或其他内容旁边,这些视频可能是以前没有发现的,因为它只是没有根据某个特定主题预先标记n条。


小结

这些只是计算机视觉如何应用于视频的几个例子;每周都有新的突破和创新用途出现,特别是随着视频的继续快速增长,使得日益变化的视频的可靠性受到质疑。具有讽刺意味的是,今天的大部分视频仍然无人监视、未使用和未货币化。但是,由于计算机视觉和空间中越来越多的有进取心的技术专家和企业家的工作,很多视频不会在众所周知的裁剪室里结束。

动画制作:James Broorman

原文:6 Cool Uses of Computer Vision in Video

翻译:徐大白

| 2
登录后可评论,马上登录吧~
评论 ( 1 )
<html><body><p>像徐大神学习</p></body></html>
回复
6天前