每个人都尝试过使用 Face ID(面部识别)来解锁手机、在 Google 或 Pinterest 上进行图像搜索,或者根据搜索到的产品浏览亚马逊推荐。
您有没有想过这一切是如何可能的?上述所有让生活变得更加便利的功能都涉及人工智能(AI),特别是人工智能图像识别。让我们更多地了解人工智能是什么、它如何工作以及它为企业主带来什么好处。
AI图像识别的定义
人工智能图像识别,也称为“图像分类”,是计算机视觉的一个子类别。它是一组用于检测和分析图像的方法,能够识别图像中的人物、物体、地点和其他元素。它是图像处理的后阶段,而图像处理又是计算机视觉重要的任务之一。
AI图像识别使用以下技术。
● 分类。识别图像所属类别的过程。一张图像只能分配给一个类别。
● 标记。一种具有较高准确度的分类任务,可以识别一张图像中的不同对象。因此,可以有多个标签分配给一幅图像。
● 检测。在图像中感兴趣的对象周围放置一个边界框。此步骤对于定位对象是必需的。
● 细分。这是一项非常准确和精确的检测任务,它很重要,因为它可以将图像的元素定位到近的像素。
AI图像识别是如何工作的?
AI图像识别的基本原理
人工智能图像识别基于深度学习技术和神经网络概念。
深度学习是机器学习的一个子集。它是一个三层或多层的神经网络,试图模拟人脑不断处理的能力,让神经网络从大量数据中“学习”。神经网络的层数越多,它做出的预测就越优化和准确。
深度学习技术广泛应用于日常服务中,这些服务可提高自动化程度,在无需人工干预的情况下执行分析和物理任务,例如自动驾驶汽车、数字助理和支持语音的电视遥控器。
2 AI图像识别系统使用的学习类型
● 监督学习
监督学习也称为分类算法,其中学习基于带标签或标记的训练数据集。例如,如果希望人工智能图像识别系统识别猫,则输入由猫和其他一类动物(例如狗)的图像组成的数据集。然后,通过标记每张图像来告诉计算机它是否包含猫、狗或两者都不包含。根据输入数据,系统将在特征之间建立统计上有意义的关系以识别模式。
由于监督学习方法需要标记的训练数据集,因此需要大量的预先人工干预来适当地标记数据。与无标签、无监督学习相比,这反过来又导致成本增加。
● 无监督学习
也称为聚类算法,这种类型的学习是使用未标记的数据集实现的。例如,数据集将简单地包含汽车和自行车图像的混合,系统将遍历每个图像,提取所有图像之间的相似性或差异,并将它们分组为集群(“聚类算法”)。由于无监督学习系统没有可供学习的训练集,因此其准确性不如监督学习。
3 AI图像识别流程的主要步骤
AI图像识别系统的流程包括三个主要步骤:
1.训练
2.测试
3.预测
训练。首先使用训练数据集来教导算法从输入数据中期望得到什么。训练数据集可以是视频、图片、照片或其他。神经网络需要进行训练才能感知某些类别的外观。它会自动学习与输入图像相关的重要的特征,直到它能够准确地解读不同类别的视觉数据。因此,如果想要一个系统来识别不同类型的动物,就需要一个包含各种动物图像和照片的数据集。如果希望神经网络识别不同的姿势,就需要捕获各种人体姿势的数据输入,等等。
目前有多种经过充分测试的框架广泛用于 AI 图像识别训练,例如 Tensorflow、Keras、PyTorch、MxNet 和 Chainer。
测试。系统使用准备好的数据集完成训练后,将使用不属于训练数据集的图像进行测试。这样做是为了评估模型的性能、准确性和可用性。测试时间取决于用于训练的数据的质量和数量。如果结果不够好,则重复步骤 1 和 2,直到模型的准确性可以接受。只有在系统达到预期的准确度水平后,才能将其用于处理真实数据。
预测。一旦系统达到满足要求的准确度水平,就可以根据真实数据进行预测。预测是该过程的后面阶段。