使用字符退化模型和增强算法改进ocr的性能[外文翻译].doc

约7页DOC格式手机打开展开

使用字符退化模型和增强算法改进ocr的性能[外文翻译],附件c:译文使用字符退化模型和增强算法改进ocr的性能摘要我们在一个增强算法中介绍了三个字符退化模型,用于训练一组字符分类器集合。我们也通过使用字符退化模型独立地比较了增强算法集合和网络训练的标准算法集合。我们在比较当中有一个有趣的发现:虽然增强算法集合在零拒绝率上比标准算法集合更精确,但增强训练在独立训练中的优势会在...
编号:8-99111大小:144.00K
分类: 论文>外文翻译

内容介绍

此文档由会员 weiyong 发布

附件C:译文



使用字符退化模型和增强算法改进OCR的性能

摘要
我们在一个增强算法中介绍了三个字符退化模型,用于训练一组字符分类器集合。我们也通过使用字符退化模型独立地比较了增强算法集合和网络训练的标准算法集合。我们在比较当中有一个有趣的发现:虽然增强算法集合在零拒绝率上比标准算法集合更精确,但增强训练在独立训练中的优势会在更多的模式被拒绝时快速消失。最终,标准算法集合在高拒绝率时表现优于增强算法集合。此论文提供了这现象的解释。

1 导言
在此论文,我们研究增强算法(Drucker et al., 1993)在改进OCR性能的效用。增强算法的最初理论工作是由Schapire (1990)完成的。他表明,在原则上它可能是一个不可靠的分类器组合(其性能略优于随机猜测)来实现任意低错误(在训练数据集)。Drucker et al. (1993)应用了增强算法来进行来字符识别。他们通过以各种程度变形了字符原象产生了大量的训练式样。结果表明,通过使用作为增强层级的第一网络的单一网络,字符识别性能大大改善了。但是,它仍然需要回答的是增强算法集合是否胜过独立训练网络的标准算法集合。在本论文中,我们提供一个增强算法集合和标准算法集合对比研究。我们也介绍增强算法三种字符退化模型。

2 增强算法
在此增强算法当中,那些弱分类器被非等级地训练以学习分类问题中越来越困啦的部分。这个算法需要一部自动计算机和逻辑机来产生大量独立训练用的样本。这个基础增强算法运行如下:
1) 生成一个训练用的数据集并且训练第一个分类器。
2) 遵照这样的法则生成一套用于训练第二个分类器的数据:掷一个硬币,如果硬币面朝上,自动计算机和逻辑机生成一个样本并将其传递到第一个分类器,若果这个样本被错误分类,则将其加入训练集,否则重复这个步骤直至有一个样本被错误分类为止;如果硬币底朝