新闻中心 分类>>

安博体育OCR技术简介

2023-07-27 14:03:36
浏览次数:
返回列表

  安博体育OCR技术简介光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。

  :身份证识别、银行卡识别、驾驶证识别、行驶证识别、港澳通行证识别、护照识别、户口簿识别、营业执照识别;

  :二维码识别、一维码识别安博体育网站、车牌识别、数学公式识别、物理化学符号识别、音乐符号识别、工程图识别、流程图识别、古迹文献识别、手写输入识别;

  除了以上列举的之外,还有自然场景下的文字识别、菜单识别、横幅检测识别、图章检测识别、广告类图文识别等围绕审核相关的业务应用。

  现存OCR应用有以下特点:1)提供通用的识别服务;2)部分能提供结构化文本的特定场景识别服务如身份证识别等,能保留识别文字结构。但这些应用还存在一些明显缺点:1)通用识别服务对图像要求高,通常针对扫描文档,要求输入图像背景干净、字体简单且文字排布整齐,对自然场景图像中的文字识别效果差;2)大多缺少常见特定场景文字识别如营业执照、银行卡、驾驶证

  等卡证类图像的识别,只注重识别文字内容本身,没有特定场景的版面分析;3)特定场景文字识别,识别场景较为单一,如汉王OCR的特定场景只提供身份证识别等,无常见场景识别的功能整合;4)无法进行定制化的功能扩展;5)数据安全由厂商保证

  OCR的最早构想被认为是由奥地利工程师Gustav Tauschek(1899-1945)在1920年代后期最先提出的,他于1929年在德国获得了OCR技术专利。五十年代,美国发明家David H.Shepard首次发明并落地了商业用途的OCR设备,为了将与日倶增的报刊杂志、单据等纸质文档高速地录入计算机,欧美国家研究学者开启了英文字符识别技术的研究。70年代起,美国各研究机构和企业开始攻坚手写字体识别,经过50年的发展,英文OCR技术已经非常高超了,实现了海量信息处理的“电子化”。汉字识别由于种类繁多,结构复杂,字符之间的相似性以及字体或书写样式的变化等现实难点使得其发展是曲折的,最早1966年开始研究,自IBN的学者在其论文中使用模版匹配的方式实现了一千个汉字印刷字符的识别,70年代日本企业和学者也开始了汉字印刷识别的研究,到上个世纪九十年代时,日本企业以东芝、松下、富士得大企业相继研宄出工业使用的汉字OCR系统,同时期也着手开始对手写字体识别进行研究。我国的字符识别研究从70年代末开始,79年到85年为起步探索阶段,从89年开始,清华大学电子工程系、中科院计算中心等高校科研机构响应国家重点科技攻关计划、国家自然科学基金的号召,各自开发出了可工业应用的汉字识别系统和设备。我国目前汉字识别的精度达到顶尖水平了,落地应用也非常多。

  完善卡证识别的技术研究还并不很完善,目前这项技术实现主要停留在身份证、银行卡和特定类型的卡类,而且该技术对特定类型的卡类还有诸多限制,因为有些证件的内容复杂性(如营业执照,证书,这种类型的文件拥有差别较大的布局以及数量大小不一的图片。),目前还没有高度精准商业化产品进行识别和数据化,技术还没有很完善。主要技术瓶颈如下:

  1)背景图片和认证标志的千差万别导致识别障碍变大,大部分证件上都带有水印以及纹章,在不同环境下,不如不同颜色的光源下会导致识别出现较大误差,有用信息与其他信息杂糅,识别不准确。2)不同的布局会使识别变得困难。在一张毕业证件上往往会有不同的字体,花纹,纹章,甚至不同语言,此时的识别则会使对一种语言有效的OCR出现问题,如语言识别错误,纹章识别

  错误等。3)证书多是彩色,其颜色也会带来不同的后果。不仅是上文提到的光源安博体育网站,采集设备,角度等要素在彩色文本识别的要求下,影响力就变得更大了。

  传统的OCR技术基于模版匹配的特征提取框架步骤繁多且复杂,需要对图像进行预处理、字符分割、特征提取、分类器结构设计、后处理等一系列步骤,在这些步骤中出现偏差比如字切分错误,都会导致后续整个流程上的错误累积从而大大影响准确率;再者针对复杂场景如有干扰背景的文字

  识别实际效果不佳,常出现的问题就是将干扰背景的所有干扰信息全部误认为字符和文本信息,无法解决图像光照不均、扭曲等背景问题。

  目前存在两种方法:1.文本检测结合文本识别。2.在一个模型中完成文本检测和文本识别工作的端到端方法。

  图像预处理,是将每一个文字图像分检出来交给识别模块识别安博体育网站,这一过程称为图像预处理。在图像分析中,对输入图像进行特征抽取、分割和匹配前所进行的处理。

  图像预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性。

  文本检测即检测文本的所在位置和范围及其布局。通常也包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围有多大。文字检测理念上和目标检测类似,但因为文字展现的复杂多样性,存在长宽不定、形状扭曲旋转等特点,所以现成的目标检测方法并不能直接用于文字检测。

  CTPN(基于Faster-RCNN):基于Faster-RCNN的网络架构结合了卷积神经网络和循环神经网络,它的骨干网络采用的VGG-Net,所以训练时长较长有一定提升空间,缺点是只能检测水平文本;

  TextBoxes、TextBoxes++网(基于SSD):将目标检测SSD网络的思想用于文本检测上,针对目标分割设计的网络对英文的检测效果更好

  SegLink(CTPN+SSD):在CTPN的基础上引入了Segment即带方向的预选框,解决了CTPN只能检测水平文本的问题,“Link”关联多个Segment构成最后的预选框,缺点是不能识别间隔大的文本

  DMPNet:与卷积神经网络矩形的滑动窗口不同,DMPNet采用各种角度和宽高不同的四边形进行重叠滑动来定位出文字区域边界

  YOLO:利用单个网络做训练和检测,对每个bounding box(包含检测对象的区块)进行包含检测对象的概率计算,也可以用在物体检测上,缺点是对非常规态物体效果较差,而扭曲文字便是这种类型。

  Pixel-Link:该方法采用先分割再连接直接生成侯选框,有速度快且对感受野要求低的特点,缺点同SegLink—样,基于连接关联所以对长文本效果不好

  现有的文字区域检测的方法主要有基于连通域的方法,基于边缘特征的方法,基于笔画特征的方法,基于纹理的方法,基于机器学习的方法以及神经网络的方法。

  基于连通域的检测方法是通过设计一个特征检测器,利用颜色聚类和最大稳定极值等方法,提取出图像中的连通区域,再利用分类器来区分出文字的连通区域。此类方法的核心在于文字内部具有色彩或灰度值的一致性,通过这些特点来寻找连通区域。基于连通域的方法对文字检测有很大的局限性,对文字颜色单一且文字背景简单的图像,该算法的文字检测准确度较高。但是,对于文字颜色多样的图像,或者文字颜色与背景对比度低的图像,该类算法的检测准确度将大幅下降。另外,在压缩视频及自然场景图像中,很难满足该类算法基于图像文字颜色一致、亮度相似的条件。

  边缘是图像最基本的特征之一,是人们识别图像中物体的重要依据,是信息最集中的地方。文字具有非常丰富的边缘信息,因此在图像文字检测的研究中,最早使用基于边缘特征的方法。基于边缘特征的检测方法首先利用边缘检测算子来获取边缘检测图像,然后分析边缘密度和强度,利用几何约束规则来判断边缘点是否属于文字区域,最后提取这些文字区域。

  基于边缘特征的算法,优点是不受文字颜色的影响,时间复杂度低,计算量小,能够满足实时性的需求。但对于背景较复杂的图像,由于背景中存在其他边缘丰富的物体,容易将这些物体误认为是文字区域,所以造成误判。

  文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。文本校正也被认为属于这一环节。而其中当识别的内容是由词库中的词汇组成时,我们称作有词典识别(Lexicon-based),反之称作无词典识别(Lexicon-free)

  对于文本识别目前主要有4种架构,大致可分为2种方法,基于CTC-based方法和Attention-based方法。四种架构方法具体如下。

  CNN+softmax:这种网络架构虽然可以处理不定长的序列,但结构简单只适合简单的文字识别如字符和字母识别,而且存在序列长度过长,效果差的缺点

  CNN+RNN+CTC:该架构是以CRNN为典型代表的端到端识别架构,CRNN是可以直接从不定长序列标签中学习并且支持无字典的学习

  CNN+RNN+attention:该架构引入注意力使得word-level和sentence-level的attention得以保留在上下文中。

  CNN+stacked CNN+CTC:景文字识别通常包含检测和识别两个任务并且分别对应使用不同的算法,这样就会増加计算消耗和计算时间,有研宄提出能够同时完成检测和识别任务的端到端模型,通常这种模型结构使得两个子任务共享卷积层所学习到的特征进而节省算力和时间。

  场景文字识别通常包含检测和识别两个任务并且分别对应使用不同的算法,这样就会増加计算消耗和计算时间,有研究提出能够同时完成检测和识别任务的端到端模型,通常这种模型结构使得两个子任务共享卷积层所学习到的特征进而节省算力和时间。

  FOTS(Fast Oriented Text Spotting)提出新颖的ROIRotate操作,用于提取定向的文本感兴趣区域,使得检测与识别任务可以统一到一个端到端的系统当中。通过共享卷积特征,文字识别步骤的计算开销可以忽略不计,这简洁高效的工作流使得FOTS可以以实时的速度运行。

  STN-OCR模型在检测部分加入了一个空间变换网络(STN)用来对输入图像和预选框进行仿射(Affine)和空间变换,达到对样本的旋转不变性和平移不变性,使得识别部分对特征图的特征鲁棒识别。

  Chinese Text in the Wild(CTW):该数据集包含由3850个字符组成的大约100万个汉字实例,由专家在共计约3万多幅街景图像中进行了标注。数据集中包含平面文字、凸起文字、照明不佳的文字、远处文字合部分遮挡的文字等。

  Reading Chinese Text in the Wild (RCTW-l7):该数据集包含约12,000张图像。大部分图像是通过手机摄像头野外采集的,少部分是是截图。这些图像包含街景、海报、菜单、室内场景以及手机应用截屏。

  ICPR MWI2018 挑战赛数据集:该数据集包含约20,000张图像。数据集全部由网络图像构成。这些图像包含合成图像、产品描述、产品广告。

  Total-Text:该数据集包含约1,500张图像。数据集主要提供三种倾斜或弯曲文本图像。这些图像主要来源为街景、广告牌和室内图像

  COCO-Text:该数据集包括约60,000张图像,17万个文本实例,主要由广告牌和交通指示图像构成。额外对清晰度和是否印刷体进行了标注

  Synthetic Data for Text Localisation:该数据集包括约850,000张图像,700万个文本实例,数据集全部由合成图像构成。这些图像包含各种自然场景,文本由合成算法添加

  Caffe-ocr中文合成数据:数据集共360万张图片,涵盖了汉字、标点、英文、数字共5990个字符。图像全部为合成图像。数据来源为中文语料库

搜索