计算机视觉的概念早是在 20 世纪 70 年代提出的。初的想法令人兴奋,但当时还没有实现这些想法的技术。直到近几年,世界才见证了技术的重大飞跃,计算机视觉已成为许多行业的优先事项。
自 2012 年多伦多大学首次在计算机视觉领域取得重大突破以来,这项技术一直在飞速发展。卷积神经网络 (CNN) 已成为许多数据科学家的神经网络,因为与其他图像处理算法相比,它几乎不需要预先编程。在过去几年中,CNN 已成功应用于识别人脸、物体和交通标志,并为机器人和自动驾驶汽车提供视觉支持。
图像访问量的增加也推动了计算机视觉应用的日益普及。ImageNet 等网站使人们几乎可以即时访问可用于训练算法的图像。而这仅仅是个开始。全球图像和视频库每天都在增长。根据摩根士丹利的分析,每天有 300 万张图片通过 Snapchat、Facebook、Facebook Messenger、Instagram 和 WhatsApp 在线共享,其中大部分归 Facebook 所有。
2015 年至 2019 年全球计算机视觉人工智能 (AI) 市场收入(按应用划分)
计算机视觉的未来。即将出现的新应用
计算机视觉是一个蓬勃发展的行业,它被应用于我们日常生活的许多产品。像 Asos 这样的电子商务公司正在为其网站添加视觉搜索功能,以使购物体验更加顺畅和个性化。
以下是一些计算机视觉示例。
苹果于 2017 年推出了 Face ID。2018 年,他们宣布推出由神经网络驱动的改进版 Face ID。第三代 Face ID 于 2019 年问世。基于强大的人脸识别传感器,它的速度提高了 30%。如今,数百万人使用 Face ID 解锁手机、付款和访问个人数据。此外,苹果还让用户能够更好地识别戴着口罩的人脸。新的iPhone 更新 iOS 13.5简化了整个过程。现在,用户有更好的机会使用 Face ID 解锁手机,或者,如果失败,他们会被要求输入 PIN 码。
每年都有更多资金投入到新企业中。AngelList 是一家连接初创企业和投资者的美国平台,列出了 529 家与该技术相关的公司。这些公司的平均估值为 520 万美元。其中许多公司正处于不同融资阶段,筹集 500 万至 1000 万美元的资金。可以肯定地说,有大量资金投入到技术开发中。
那么,为什么计算机视觉应用如此受欢迎呢?因为在我们生活的某些领域用计算机代替人类可以带来潜在的好处。
作为人类,我们用眼睛和大脑来分析视觉环境。这对我们来说很自然,而且我们做得很好。另一方面,计算机无法自动做到这一点。它需要计算机视觉算法和应用程序来学习它“看到”的东西。这需要付出很多努力,但一旦计算机学会了如何做到这一点,它就能比地球上几乎任何人都做得更好。
这可以取代任何视觉活动,使流程更快、更简单。与可能不知所措或产生偏见的人类不同,计算机可以同时看到许多细节,并且分析时不会“疲倦”。计算机分析的准确性可以节省大量时间并提高质量,从而释放需要人机交互的资源。到目前为止,这只能应用于简单的流程,但许多行业正在成功突破该技术的极限。
计算机视觉在不同行业中的应用
计算机视觉技术的应用非常广泛,可以以非常不同的方式适应许多行业。一些用例发生在幕后,而另一些用例则更为明显。可能的是,您已经使用了通过创新增强的产品或服务。
汽车
一些计算机视觉应用是由特斯拉的自动驾驶仪功能实现的。这家汽车制造商早在 2014 年就推出了其驾驶辅助系统,当时只有少数功能,例如车道居中和自动停车,但它计划在 2018 年的某个时候实现完全自动驾驶汽车。
特斯拉自动驾驶仪等功能之所以能够实现,要归功于 Mighty AI 等初创公司。该公司提供了一个平台,可以在数据集上生成准确而多样的注释,以训练、验证和测试与自动驾驶汽车相关的算法。
制造业
计算机视觉与传感器相结合可以为关键设备创造奇迹。如今,该技术被用于检查其中的重要工厂或设备。借助计算机视觉,可以预防基础设施故障和问题,因为计算机视觉能够明智地评估基础设施的健康和效率。许多公司正在将预测性维护与其基础设施同步,以保持其工具处于良好状态。例如,FANUC 制造的 ZDT 软件是一种预防性维护软件,旨在从连接到机器人的摄像头收集图像。然后处理这些数据以提供故障诊断并检测任何潜在问题。
零售
这项创新也在零售业引起了轰动。
沃尔玛正在使用计算机视觉来追踪结账盗窃行为,并防止全国 1,000 家门店出现损失。他们推出了一项漏扫检测计划,该计划使用摄像头在短时间内检测出扫描错误和故障。一旦检测到错误,该技术就会通知结账经理,以便他们解决。这一举措有助于减少结合盗窃、扫描错误和欺诈的“损失”。目前,该计划已被证明在数字化结账监控和防止损失方面是有效的。
一家名为 Mashgin 的初创公司正在开发一种类似于 Amazon Go 的解决方案。该公司正在开发一种自助结账亭,它使用计算机视觉、3D 重建和深度学习来同时扫描多个商品,而无需条形码。该产品声称可以将结账时间缩短 10 倍。他们的主要客户是 Compass Group 运营的自助餐厅和食堂。
金融服务
尽管这项技术尚未在保险和银行业产生颠覆性影响,但一些大公司已经在新客户入职培训中采用了这项技术。
美国银行对人工智能并不陌生。他们是数据分析的忠实粉丝,并将其用于有效的欺诈管理。他们正在缓慢但坚定地采用计算机视觉。他们正在将其应用于解决账单纠纷。通过分析争议数据,该技术可以快速做出裁决并节省员工的时间。Caixabank 也欢迎计算机视觉。2019 年,他们允许客户使用面部识别通过 ATM 取款。ATM 可以识别图像上的 16,000 个面部点来验证人员的身份。
卫生保健
在医疗保健领域,计算机视觉有可能带来一些实际价值。虽然计算机不会完全取代医护人员,但很有可能补充常规诊断,这些诊断需要大量时间和人类医生的专业知识,但对诊断没有太大帮助。这样,计算机就可以成为医护人员的辅助工具。
例如,Gauss Surgical 公司正在生产一款实时血液监测仪,以解决受伤和手术期间失血量测量不准确的问题。这款监测仪配有一款简单的应用程序,该应用程序使用一种算法分析手术海绵的图片,以准确预测手术期间失血量。这项技术每年可节省约 100 亿美元的不必要输血费用。
医疗保健系统面临的主要挑战之一是患者产生的数据量。据估计,医疗保健相关数据每年增长三倍。如今,我们作为患者依靠医务人员的知识库来分析所有数据并做出正确的诊断。这有时会很困难。
微软的 InnerEye 项目正在努力解决部分问题,开发一种使用人工智能分析三维放射图像的工具。该技术可能使该过程快 40 倍,并建议有效的治疗方法。
农业
农业一直深深植根于传统。计算机视觉可以改变这一现状。这项技术究竟能带来什么?它可以在绘图、土壤分析、牲畜计数、作物产量和成熟度评估等方面提供帮助。RSIP Vision 开发了大量农业解决方案。利用深度学习、传感器和卫星图像,他们可以在收获前估算季节性产量。他们让农民能够使用智能手机或平板电脑进行产量估算。One Soil Platform简化了农业生产。他们开发的解决方案有助于收集现场数据和监测植物。更重要的是,该技术可以帮助执行常规且耗时的任务,如种植、收获和评估植物的健康和发育。集所有功能于一身,它确实可以帮助农民简化工作。
监视
这项创新技术可确保停车场、地铁、铁路和公交车站、道路和高速公路等公共场所的安全。计算机视觉在安全方面的应用多种多样。它包括人脸识别、人群检测、人类异常行为检测、非法停车检测、超速车辆检测等等。该技术有助于加强安全并防止各种事故。Racetrack推出了可检测异常活动并通知管理人员进行干预的监控解决方案。
应用计算机视觉的挑战
如上所述,该技术在为不同行业服务方面已取得长足进步。然而,该领域仍然相对年轻,容易面临挑战。
对于现实世界来说不够准确
大多数挑战的一个主要背景似乎是,该技术仍然无法与人类的视觉系统相提并论,而它本质上试图模仿人类的视觉系统。
计算机视觉算法可能相当脆弱。计算机只能执行经过训练的任务,而当被引入需要不同数据集的新任务时,它就会力不从心。例如,教会计算机一个概念很难,但为了让它能够自学,这是必要的。
一个很好的例子就是书籍的概念。作为孩子,我们知道什么是书籍,一段时间后,我们就可以区分书籍、杂志或漫画,同时理解它们属于同一总体类别。
对于计算机来说,这种学习要困难得多。当我们将电子书和有声读物添加到方程式中时,问题会进一步升级。作为人类,我们知道所有这些项目都属于同一书籍概念,而对于计算机来说,书籍和有声读物的参数差异太大,无法归入同一项目组。
为了克服这些障碍并发挥功能,当今的计算机视觉算法需要人工参与。数据科学家需要为输入数据类型选择正确的架构,以便网络可以自动学习特征。非佳架构可能会产生对项目毫无价值的结果。在某些情况下,可以使用其他类型的数据(例如音频和文本)增强算法的输出,以产生高度准确的结果。
换句话说,该技术仍然缺乏在现实、多样化的世界中有效运作所需的高水平准确性。由于该技术的开发仍在进行中,因此从事该技术的数据科学团队需要对错误有相当大的容忍度。
缺乏高质量数据
用于计算机视觉应用的神经网络比以往更容易训练,但这需要大量高质量的数据。这意味着算法需要大量与项目特别相关的数据才能产生良好的结果。尽管网上可用的图像数量比以往任何时候都多,但许多现实问题的解决方案需要高质量的标记训练数据。这可能会变得相当昂贵,因为标记必须由人来完成。
让我们以微软的 InnerEye 项目为例。该工具利用计算机视觉来分析放射图像。其背后的算法很可能需要标注良好的图像,其中人体的不同身体异常都有清晰的标记。这项工作需要由经验丰富且训练有素的放射科医生来完成。
根据 Glassdoor 的数据,放射科医生的平均基本工资为每年 29 万美元,或每小时不到 200 美元。考虑到每小时可以分析大约 4-5 张图像,并且足够的数据集可能包含数千张图像,因此对图像进行适当的标记可能会非常昂贵。
为了解决这个问题,数据科学家有时会使用预先训练过的神经网络,这些神经网络刚开始是在数百万张图片上训练的,作为基础模型。在没有好数据的情况下,这是一种获得更好结果的适当方法。然而,算法只能通过“观察”现实世界的数据来了解新对象。