2021年荣获科技型企业称号 咨询热线:
致力于推动人工智能在各行业细分领域的普及和应用 18103867856
< >

什么是图像识别及其工作原理?

作者:睿如信息技术 日期:2024-05-17 点击:242
一键分享

图像识别有着悠久的历史,可以追溯到 1956 年,然而,现在很可能是它被视为大放异彩的时代。这是一项令人难以置信的视觉人工智能技术,它的工作原理是将图像与学习的数据集进行比较,以便它可以“看到”并解释视觉媒体中存在的内容。图像识别在众多行业中发挥着重要作用,并且通常是一项不可或缺的技术。 


20240511174123_73299.jpg


当技术历史学家回顾当今时代时,它很可能被认为是图像识别大显身手的时期。


我们大多数人每天都在使用图像识别,甚至没有意识到。从条形码扫描仪到智能手机相机上的面部识别,一切都依赖于图像识别。但它的意义远不止于此,人工智能正在将这项技术转变为如此强大的东西,我们才刚刚开始理解它能带我们走多远。


本文深入探讨了图像识别。我们来看看它的历史、背后的技术、它的使用方式以及未来。


图像识别简史


没有一个单一的日期表明图像识别作为一项技术的诞生。但是,我们可以选择的一个可能的开始日期是 1956 年在达特茅斯学院举行的研讨会。这次研讨会将来自不同领域的科学家聚集在一起,讨论开发具有思考能力的机器的潜力。从本质上讲,这次研讨会可以被认为是人工智能的诞生。


然而,尽管早期乐观,人工智能却被证明是一种难以捉摸的技术,并且连续未能达到预期。整个六十年代到七十年代,科学家和研究人员努力取得任何有意义的进展,随着资金和乐观情绪的枯竭,人工智能这个概念似乎只限于科幻小说领域。


从八十年代末开始,随着计算机硬件的快速发展,这一切都发生了变化。随着成本下降和处理能力飙升,基本的算法和神经网络被开发出来,让人工智能达到了早期的期望。


在图像识别方面,分水岭出现在2012年。ImageNet大规模视觉识别挑战赛(ILSVRC)就是这个时刻发生的时候。 ILSVRC 是一项年度竞赛,研究团队使用给定的数据集来测试图像分类算法。


直到2012年,比赛的获胜者获胜的错误率通常徘徊在25%至30%左右。这一切在 2012 年发生了变化,多伦多大学的一组研究人员使用名为 AlexNet 的深度神经网络,实现了 16.4% 的错误率。


在接下来的几年里,错误率持续下降,深度神经网络成为人工智能和图像识别任务的基础。


图像识别如何工作


在基本的层面上,图像识别可以被描述为对人类视觉的模仿。我们的视觉能力已经发展到能够快速吸收、情境化我们所看到的事物并做出反应。


这也是图像处理的作用——图像识别可以对图像中的数据进行分类和识别,并根据搜索上下文采取适当的操作。


简单来说,图像识别的过程可以分为 3 个不同的步骤。


这一切都始于庞大的数据集。这就像从婴儿好奇的眼睛中观察到的广阔世界中可用的数据一样。婴儿不知道狗是狗,树是树,但他们很快就学会了识别和分类周围的世界。


该数据集提供了图像识别背后的人工智能理解其在图像中“看到”的数据所需的所有信息。


第二阶段是将数据集输入神经网络。这将成为训练网络。在几乎所有情况下,用于图像处理的神经网络类型都是卷积神经网络。


通俗地说,卷积神经网络是一种使用一系列滤波器来识别图像中保存的数据的网络。


要扫描的图片被“切片”成像素块,然后与检测到相似性的适当过滤器进行比较。结果在输出矩阵中被标记为高值。


这是对卷积神经网络如何运作的极大简化,但它确实让我们了解了该过程的工作原理。


后一步就是全部内容。现在,系统可以输入与训练数据集进行比较的图像,并根据网络“看到”的内容输出结果或预测。


技术因平台而异,但通常包括:  


徽标/标记检测——人工智能经过训练后可以立即识别徽标、商标或其他独特的设计元素。


对象和场景检测–这允许在视觉媒体(视频和静态图像)中标记大量常见的对象。


文本检测–嵌入图像中的文本可以转换为可读文本。与很多人都熟悉的 OCR 类似,但 OCR 只限于文档,而图像识别可以从任何合适的图像中提取可读性。


视觉搜索–用户可以上传图像或视频,然后将其与数据集进行比较,以查找相同或相似的项目。该技术通常与徽标检测结合使用,以找到完全相同的商品。


全息图认证–安全箔和全息图贴纸通常用于产品认证。在这些情况下使用图像识别来验证这些的可靠性。


下一个明显的问题是图像识别有什么用途。谷歌图像搜索和基于简单文本搜索过滤手机图像的能力是这项技术如何在日常生活中为我们带来好处的日常例子。


但真正释放图像处理潜力的是商业。企业有巨大的动力来利用这一资源。据 Statista 称,仅 Facebook 和 Instagram 用户每分钟就会向这些平台添加超过 300,000 张图片。在当今世界,数据可能是企业有价值的资产,图像中的信息也不容忽视。


对于许多企业来说,图像识别的使用现在是其运营的关键部分,常见用途包括:  


欺诈和假冒检测与保护


品牌越来越多地使用图像识别来打击假冒产品。它可以识别徽标、商标或其他独特设计元素的非法使用。


由于视觉人工智能可以一次处理数百万张图像,因此它是打击版权侵权和假冒的强大新工具。神经网络可以快速训练来学习任何设计元素。


这种快速学习的能力是一个相对较新的发展。以前,这曾经是一个繁琐的过程,需要大量的样本图像,但现在一些视觉人工智能系统只需要一个例子。


反钓鱼-标志检测


网络钓鱼防护


网络钓鱼是一个日益严重的问题,每年给企业造成数十亿英镑的损失。传统系统严重依赖黑名单。然而,黑名单存在一个根本问题,使得整个程序容易受到机会主义“坏人”的攻击。


问题很简单,黑名单必须是新的,过时几个小时,并且为新威胁的溜走敞开了大门。当前的网络安全技术还依赖于识别电子邮件中嵌入的编程威胁。然而,在不良行为者和安全专业人员之间正在进行的军备竞赛中,后者很大程度上是在玩追赶游戏。


当图像识别用作安全堆栈的一部分时,不依赖于这些方法。相反,它会扫描电子邮件和网页,从高风险元素中寻找视觉线索。


防范盗版内容


互联网上充斥着非法流媒体内容。到目前为止,问题的严重性使得监管这一工作成为一项吃力不讨好、毫无意义的任务。这个问题的规模太大,现有的检测技术无法应对。


问题一直是跟不上海盗,把一条溪流拿下来,眨眼间,它就被另一条或几条其他溪流取代。图像检测可以实时检测非法流媒体内容,并且首次能够比盗版者更快地对盗版内容做出反应。


通过图片显示社交媒体帖子的品牌监控


社交媒体


社交媒体已迅速发展成为任何企业品牌不可或缺的一部分。然而,它确实面临着独特的挑战。如果监管不当,它也可能造成损害。其中许多问题可以使用图像识别直接解决。


对社交媒体渠道上出现的内容的控制使企业面临潜在的品牌损害,在某些情况下甚至是非法内容。图像检测技术可以充当“主持人”,确保您的频道上不会出现不当或不合适的内容。


它还可用于评估组织的“社交媒体”饱和度。快速扫描和识别数百万张图像内容的能力使企业能够监控其社交媒体存在。


图像识别的未来


这些只是图像识别在现实世界中的一些应用。已经有许多其他用途。但真正令人兴奋的部分是该技术的未来发展方向。


以下只是图像识别可能改变我们工作和娱乐方式的几个例子。


无人驾驶汽车——这个领域似乎出现了很多空洞的承诺。但图像识别将在确保这种经常吹捧的技术成为常态方面发挥越来越大的作用。


医疗和外科——在近期的大流行的推动下,“远程”医疗咨询的数量急剧增加。图像识别对于帮助准确地进行远程诊断至关重要。


智能眼镜——谷歌眼镜曾经被认为是下一件大事,但对于现有技术来说可能过于雄心勃勃。通过集成图像识别,此类设备将能够实现早期的承诺。想象一下,智能眼镜可以告诉您,您刚刚放入购物车的金枪鱼罐头在马路对面可以便宜一美元购买。 


20240511174127_21598.jpg


增强现实——在游戏行业的推动下,增强现实是另一个可以从图像识别中受益匪浅的领域。我们已经开始看到像 Pokémon Go 这样的游戏利用了这项技术,但它不只限于游戏,未来还将成为医学、时尚和教育等领域的重要工具。

上一条:AI图像识别在商业中的重要作用

下一条:图像识别与计算机视觉:主要区别解析