计算机视觉是一门研究如何教会计算机像我们一样看待世界的研究领域。为了训练计算机观察物体和人、识别和处理图像和视频内容,工程师们使用了一系列技术和方法。列入名单的高科技包括图像识别和处理、模式识别、视觉搜索、物体识别、场景重建等。而上述所有技术的基础就是机器学习 (ML)和深度学习 (DL)。
机器学习让计算机拥有了足够好的视力。现在,计算机视觉已应用于各个业务领域。首先想到的例子就是监控系统。然而,这种技术的使用引发了隐私问题和严格控制的激烈争论。
但除此之外,计算机视觉还增强并改变了媒体和娱乐行业。这涉及视觉媒体,包括电视和电影制作、互动媒体、游戏、体育、广告和游戏化客户体验。
增强智能:AR、VR、MR
增强智能是人类与人工智能合作的一种模式,它可以提高性能、改善决策能力,并为解决传统任务提供新的选择。根据Gartner 的《2019 年人工智能技术成熟度曲线》,增强智能是企业在不同业务流程中扩展人工智能的结果。它是一个更通用的概念,涵盖增强现实 (AR)、虚拟现实 (VR)和混合现实 (MR)。
沉浸式虚拟现实环境和相关硬件的发展使新术语不断涌现。如今,不同的基于机器学习的“现实”使用户能够以不同的方式与虚拟对象进行交互。
虚拟现实(VR)将用户与周围现实中的声音、语音,即真实的现实彻底分离,用户获得了一个不受限制的行动空间。
如今,先进的虚拟现实设备包括Oculus Rift、三星 Gear VR和HTC Vive。这些解决方案帮助用户沉浸在新的现实中。只需挥挥手,他们就可以用虚拟现实库中的艺术作品增强周围环境,或者体验身临其境的游戏体验。
增强现实 (AR)允许使用虚拟图像、对象、动画、视觉效果、字幕等填充现实。例如,Pokémon GO、Snapchat、Google Glass等 AR 驱动的模型应用程序。该技术为AR Mirror等解决方案提供支持,以提供令人着迷的客户体验,或不久前仅在电影中看到的智能眼镜,或使无人机竞赛等引人入胜的运动成为可能。我们将在后面的文章中详细讨论这些 AR 应用。
混合现实 (MR)与 AR 非常相似。但 MR 不是在用户周围的现实中构建文本和图像,而是能够创建虚拟对象,就好像它们已经存在于房间中,每个都在其位置上。例如,Microsoft HoloLens 允许用户在 HMD 显示器向用户广播的虚拟环境中互相看到。
智能眼镜
硬件能力和机器学习的飞跃推动了 AR 耳机的开发。谷歌发布的新款 Glass就是一个例子。这款高端设备搭载了高通专为增强智能设计的骁龙 XR1 芯片。
玻璃首先是一种面向业务的解决方案。不同行业的专业人士可以利用它来提高生产质量、缩短上市时间和降低总体成本。
竞争对手的产品是 Microsoft HoloLens,这是一款主要为工业用途开发的混合现实设备。该解决方案不仅可以用于娱乐。例如,福特将混合现实用于汽车设计。此外,该智能解决方案还可以满足医疗专家、军事目标或实体店消费者的需求。
交互式媒体中的计算机视觉
随着 AR 的出现,数字媒体正朝着越来越多的互动内容发展。传统电视和广播不需要消费者参与。交互式媒体通过提供动态图像和图形、动画、数字字幕、视频和音频等元素,提供全新的用户体验。消费者可以使用控制器(无论是智能手机、视频游戏控制器、谷歌眼镜还是其他眼镜)来控制所有这些元素。
AR 通过提供沉浸式体验革新了媒体应用。简单来说,AR 解决方案让用户能够与平时无法联系的人进行交流。而更复杂的是,它为几乎与现实一模一样的新世界注入了活力,但充满了虚拟物体和虚拟机会。
这种令人惊叹的体验之所以成为可能,是因为实时摄像头视频源与图像合成相结合。因此,物理世界会收到交互式图形叠加,从而实现 AR。
除了娱乐消费者之外,交互式媒体还可以应用于教育领域,帮助确保学习过程的智能化,或者应用于博物馆,让游客进行虚拟旅行,获得有关博物馆藏品的更多信息。
未来运动:无人机竞赛
无人机飞行引起了广泛关注。无人机竞速联盟 (DRL) 已经致力于开发竞速无人机、组织专业锦标赛,并将基于 AR 的娱乐转变为模糊现实与数字界限的运动。
竞速无人机的人类飞行员佩戴 AR 耳机。它可实现D一人称视角,并显示赛道、无人机的视频源和战斗统计数据。但很快,无人机就可以开始自行竞速了。
就像人类与人工智能对抗并失败的一系列游戏一样,计算机将在无人机比赛中击败人类飞行员。因此,全自动机器人 RacerAI 拥有四个摄像头来收集视觉数据,检测和分类视野是人类飞行员两倍的物体。这款经过编程的自动飞行无人机预计将在 2023 年击败人类竞争对手。
每架无人机都是一台边缘设备,其中的 AI 推理发生在靠近数据源的地方。这样可以提高数据处理速度,并不受硬件限制的影响,实现数据交换。您可以在 InData Labs 的上一篇文章中了解有关边缘 AI 的更多信息。
计算机视觉在媒体中的更多应用
在计算机视觉的推动下,媒体体验正在走向新的里程碑。IBM的 Watson Media让体育迷能够自动捕捉比赛精彩片段并在社交媒体上分享。人工智能实现了一系列解决方案,可以通过计算机视觉或用户的语言和情感信息来收集和分析视频内容和图像。
对于在体育赛事期间监控品牌曝光度的营销人员来说,计算机视觉提供了一系列视频数据分析功能。手动处理来自多个体育场馆的所有原始视频内容是不可能的。定制计算机视觉解决方案可以帮助处理大量内容,跟踪各种媒体平台和广播频道上的徽标,并计算每次曝光的价值。
计算机视觉提供的另一个好处是帮助消费者找到他们可以在哪里购买他们在屏幕上看到的某些东西。TheTake.AI可以理解视频,并可以检测时尚物品、珠宝、设备等,以便在网络上寻找购买机会。现在,如果你看到一个喜欢的角色穿着令人惊艳的衣服,你就可以自动找出在哪里可以为自己买到同样的衣服。
计算机视觉还使营销人员能够掌握消费者对内容的真实反应。流行的人工智能情感分析有助于处理文本反馈并引发积极、消极或中性情绪。计算机视觉帮助品牌观察用户,测量所谓的实际屏幕注意力,跟踪面部表情和眼球运动。技术可以帮助将非语言信号转化为有价值的数据,用于估计消费者的参与度和行为,从而改善用户体验。
跟踪库存
计算机视觉为增强智能的出现铺平了道路,而增强智能又使消费者能够创造充满前所未有的选择的虚拟现实。技术让想象成为现实,这令人着迷又着迷。
如今,我们可以看到计算机视觉的应用渗透到我们的日常生活中,并改变了我们与世界的互动方式。机器学习和深度学习技术催生了计算机视觉应用的新浪潮。其中一些应用是每个企业的选择:人脸识别和监控、生产线机器人或验证流程优化。尽管媒体和娱乐行业在计算机视觉方面的报道较少,但这一业务领域紧跟技术创新,蓬勃发展。