问题的结构是这样的:首先给出集体识别的概念,然后解释我发现的各种集体分类方法,最后给出我的问题。那些已经在这种情况下吃过狗的人并且他们可能不需要解释它是什么以及方法是什么,可以简单地看一下我给出的方法的标题并继续这个问题。
什么是集体认可/分类
集体(组)识别是指使用一组分类器,每个分类器对一个实体、情况、图像的类别做出决定,然后使用某种算法组合和协调各个分类器的决定。使用多个分类器通常会导致更高的识别精度和更好的计算效率。
一些组合分类器解决方案的方法:
基于分类器能力领域的概念和使用允许评估分类器与分类系统每个输入相关的能力的程序
基于使用神经网络组合解决方案的方法。
能力领域法
基于能力领域的集体分类的思想是每个基分类器在特征空间(能力领域)的某个区域都能很好地工作,在决策的准确性和可靠性方面超越该区域的其他分类器。必须以某种方式评估每个基础分类器的能力范围。对应的程序称为裁判. 分类问题的解决方式是每个算法仅在其能力范围内使用,即 与其他分类器相比,它给出了最好的结果。在这种情况下,每个区域只考虑一个分类器的决定。然而,有必要有一些算法,对于任何输入,确定哪个分类器是最有能力的。
其中一种方法假设与每个分类器一起使用一种特殊的算法(裁判),该算法旨在评估分类器的能力。分类器在分类对象表示空间的给定区域中的能力被理解为它的准确性,即 正确分类其描述属于该区域的对象的概率。
基于能力评估的教学集体认可的总体方案包括2个步骤(图1)。第一步,训练和测试每个特定的基础分类器。此步骤与常规学习模式没有区别。下一步,在对每个分类器进行测试后,将某个分类器在测试阶段使用的训练样本分成两个子集,L+和L−. 在这种情况下,第一个子集包括在测试期间正确分类的原始测试样本的那些实例。第二个子集包括测试样本的剩余实例,即 那些被错误分类的。将这些数据集分别视为分类器的胜任和无能领域,可以将它们用作训练数据来训练“裁判”算法。在对新数据进行分类时,裁判的任务是为每个输入的例子判断它是否属于算法的能力范围,如果是,正确分类这个例子的概率是多少。之后,裁判指示最有能力的分类器解决分类问题。
神经网络方法。
集体分类的神经网络方法分为使用神经网络分类器组合的方法、网络集成(ensembles of neural networks)和使用从模块构建的神经网络的方法。
用于组合分类器的神经网络
一种方法考虑使用神经网络来组合基本分类器的解决方案(图 2)。
每个基分类器的输出是一个决策向量(包含软标签作为值的向量),其元素值属于某个数值区间[a,b]。这些值被馈送到神经网络的输入端(必须对其进行训练以结合基层分类器的决策),其输出是有利于特定类别的决策。网络的输出也可以是一个向量,其维度等于可识别对象的类数,在每个位置都具有支持一个或另一个类的特定置信度值。在这种情况下,可以选择具有此类度量最大值的类作为解决方案。
决策融合系统的功能如下:
- 选择并训练一组基本分类器;
- 元数据是为神经网络训练准备的。为此,使用解释的数据样本测试基本分类器,并且对于每个测试用例,形成基本分类器的决策向量,向其添加一个组件,其中测试示例的真实成员类的名称被输入;
- 元数据样本用于训练执行决策融合的神经网络。
模块化神经网络的方法
对于模块化神经网络,建议使用所谓的网关网络(“门控网络”),这是一种神经网络,用于评估分类器针对呈现给分类器的特定输入数据向量的能力。该选项考虑了一种神经网络范例,用于根据能力分数组合决策。相应的理论在这里称为专家混合。每个分类器都分配有一个“裁判”程序,该程序预测其与提供给一组基层分类器输入的特定输入相关的能力程度(图 3)。
根据输入向量X,可以选择来自不同分类器的解决方案并将其用于做出组合决策。预测网络输入的数量等于特征空间输入向量的维数。网络输出的数量等于分类器的数量,即 L._ _ 预测神经网络被训练来预测每个分类器在呈现特定输入向量时的能力度量,即 对分类器产生正确解决方案这一事实的评估。能力程度由区间[0,1]中的数字估计。
神经网络的集合
此外,还提出了由多个专家(神经网络)组成的决策融合系统的架构。将神经网络的知识结合在一个集成中已经证明了它的有效性,展示了使用集体识别技术克服“脆弱性”问题的希望。
神经网络集成是一组神经网络模型,它通过对各个模型的结果进行平均来做出决策。根据集成的构建方式,它的使用可以解决两个问题之一:底层神经网络架构欠拟合的趋势(这个问题由元算法解决boosting
),或者底层架构过拟合的趋势(元-算法bagging
)。
有多种全民投票方案,班级获胜:
- 最大- 合奏成员的最大响应;
- 平均- 合奏成员的平均响应最高;
- majority - 拥有最多票数的合奏成员。
其他一些方法
还有这样的集成机器学习算法:
我的问题
问题是哪种集体识别方案更适合用于字符/数字/数字识别。我从中获取有关各种群体分类方案的信息的数据来源可以追溯到 2006 年,恐怕有些方法可能已经过时了。就任何方法的相关性而言,使用哪种方案更合理。
我已经提到了以下方案:
- 基于能力领域
- 基于使用单个神经网络来组合分类器
- 基于模块化神经网络的使用
- 基于神经网络的集合
- 委员会方法随机森林和Adaboost
哪种方法可能会在字符/数字/车牌识别领域提供最佳的准确性和性能指标。也许有些方法已经过时或在某些方面已经失败。也许还有其他更有效和相关的集体认可方法(群体分类)。
有详细描述的来源(我从那里获取了有关集体认可方法的信息):
集体识别的方法和算法:概述(V. I. Gorodetsky,2006 年,pdf)