(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211110305.9
(22)申请日 2022.09.13
(71)申请人 北京中电汇智科技有限公司
地址 100000 北京市海淀区北四环西路52
号8层808
(72)发明人 张文斌 黄伟 贾瑶
(74)专利代理 机构 深圳知帮办专利代理有限公
司 44682
专利代理师 谢金文
(51)Int.Cl.
G06V 30/148(2022.01)
G06V 30/146(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种OCR文字识别方法、 电子设备及存储介
质
(57)摘要
本发明公开了一种OCR文字识别方法、 电子
设备及存储介质, 获取待识别的文本数据, 文本
数据进行预处理得到文本图像, 文本图像提取特
征信息并标注数据进行训练得到相应训练模型,
根据训练模型对文本图像的文本区域进行预测
定位并剪裁, 通过图片的旋转矫正模 型对文本图
像进行旋转矫正得到目标文本图像, 对目标文本
图像中的文字进行切分得到字 符区域, 将字符区
域上的点垂直映射到最下方的位置, 将每个位置
点上的统计结果作为切分字 符的标准, 使文本中
的多字符切分成单字符, 根据切分好的单字符送
入OCR识别引擎进行文字识别, 输出被识别的文
字, 对文本图像中的文字进行快速切分和精确识
别, 从而提高了OCR文字识别效率。
权利要求书3页 说明书9页 附图3页
CN 115457565 A
2022.12.09
CN 115457565 A
1.一种OCR文字识别方法, 其特 征在于, 包括以下步骤:
获取待识别的文本数据, 并对文本数据进行 预处理得到文本图像;
基于神经网络对文本图像提取特征信 息并标注数据进行训练得到相应训练模型, 根据
训练模型对文本图像的文本区域进行预测定位并剪裁, 通过图片的旋转矫正模型对文本图
像进行旋转 矫正得到目标文本图像;
对目标文本图像中的文字进行切分得到字符区域, 将字符区域上的点垂直映射到最下
方的位置, 统计垂直投影后的最下方每个位置上黑色像素点的个数, 将每个位置点上 的统
计结果作为切分字符的标准, 使 文本中的多字符切分成单字符;
根据切分好的单字符送入OCR识别引擎进行文字识别, 输出被识别的文字 。
2.根据权利要求1所述的OCR文字识别方法, 其特征在于, 将字符区域上的点垂直映射
到最下方的位置, 包括:
S20: 垂直投影后, 统计目标文本图像中每 个位置上黑色像素点的个数;
S21: 根据黑色像素点个数进行初步字符切分, 并记录切分位置和 切分结果的宽度;
S22: 找出切分结果宽度的众位数, 作为目标文本图像中切分目标字符的宽度, 其依据
印刷体文字具有相同的字符宽度;
S23: 根据第三步的众位数值, 验证S2 1中的宽度, 若相差大且计算宽度超出宽度众位数
值的三分之二, 则确定字符存在重叠部分, 需要做进一步切分操作, 执行下述S24, 反之, 确
定字符宽度正常;
S24: 使用计算宽度除以宽度众位数, 并向上取整得到结果将其作为循环次数, 获取重
叠区域包含的字符个数, 在相邻两个字符中心位置附近, 查找具有最小投影点的位置并将
其作为重 叠字符的切分位置 。
3.根据权利要求1所述的OCR文字识别方法, 其特征在于, 通过图片的旋转矫正模型对
文本图像进行旋转 矫正得到目标文本图像, 包括:
对文本图像中的文本进行行合并, 选取长度大的文本进行文本识别得到其置信度, 经
过与置信度阈值对比后判断其是否为 正立的文字;
预设置信度阈值为0.5, 若文本经过文本识别模型识别的置信度小于0.5, 则确定该文
本是倒立的; 反 之, 若置信度大于 0.5, 则确定文本是正 立的;
其中, 合并文本框的过程中, 将文本的所有文本框安装好左上角点纵坐标从小到大排
序即纵坐标相同则按照横坐标从小到大排序; 在y方向上通过不断增加y方向的值来对文本
框进行是否在某一行的判定, 待找出若干行后, 再对每一行按照x方向进行文本框排序后,
按从左往右的顺序合并每一行的文本 框。
4.根据权利要求3所述的OCR文字识别方法, 其特征在于, 采用投票表决的方式判断当
前文本图像的正倒方向类别, 具体过程包括:
预设A为一个样本集合, b为一个待测样本, 通过选定某种距离计算方法来作为两个样
本之间的距离度量, 将集合A中样本与测试样本b进行距离计算并按从小到大排序, 选取距
离最近的前k个样本, 则 b基于最近的k个样本信息被预测种类或值, 其中k≤20,k∈N*;
当距离度量 为欧式距离时, 欧氏距离的二维表达式为
其中x1、 y1、 x2和y2表示两点的横纵坐标值;权 利 要 求 书 1/3 页
2
CN 115457565 A
2预设集合A中的元素{0,1}, 0的类别为倒立, 1的诶别为正立, 选用一维绝对值函数作 为
距离变量, 当k=1时, 通过计算置信度与集合A中的原始距离并按从小到大排序, 得到距离
最近的元 素, 则该元素的类别为文本 框的类别值。
5.根据权利要求2所述的OCR文字识别方法, 其特征在于, 采用模板切分法得到单字符,
包括:
获取第一个字符的左边界, 向量V保存着每一列的字符像素, V中第一个V(f1)≠0为第一
个字符模板 的左边界位置f1, 确定第二个字符模板 的左边界, 从文本行中文字 的排列位置
上得到, 排列位置大于第一个字符模板的右边界位置, 且同时满足V(f2)≠0;
第三个以及之后的字符模板左边界的确定过程重复第 二个字符的处理过程即可, 字符
模板左边界 的确定过程表达式为j=1,V(fj)≠0且V(i)=0; i=1,2...fj‑1; 后续字符的左
边界表达式为j≥2,V(fj)≠0,fj>rj且V(i)=0; i=rj‑1,rj‑1+1...fj‑1, 其中fj表示第j个字
符的左边界, rj表示第j个字符的右边界;
设定右边界响应函数为eV(r), 根据后续字符的左边界表达式构建字符模板响应函数的
表达式为
其中λ表示健壮因子用于提
高字符模板内部响应函数值的影响度, L 为字符左边界, r为字符右边界;
通过改变字符模板的右边界位置, 逐渐增大字符模板宽度, 计算对应的函数响应值Mr
(L,r), 当Mr(L,r)取到极大值时, 当前的模板的左右边界位单个字符的左右边界。
6.根据权利要求1所述的OCR文字识别方法, 其特征在于, 通过图片的旋转矫正模型对
文本图像进行旋转 矫正得到目标文本图像, 包括:
将经过初步旋转后的预测文本区域图像输入文本识别器进行文本识别并输出其文字
置信度打 分, 通过置信度分数的高低来判断当前图像是否正 立;
若正立, 则初步旋转角为 最终旋转角, 否则初步旋转角加上180 °等于最终旋转角。
7.根据权利要求1所述的OCR文字识别方法, 其特征在于, 基于神经网络对文本 图像提
取特征信息并标注数据进行训练得到相应训练模型, 包括:
通过全卷积神经网络做特征提取和学习生成相应的文本行参数, 其包括(x,y,w,h, θ )
和置信度以及四边形的四个坐标, 通过非极大值抑制对生成的文字检测框的几何形状进 行
过滤的处理操作, 特 征提取的整体网路包括特 征提取层、 特 征融合层和输出层;
特征提取层: 先做特征提取, 再进行四个阶段的卷积, 卷积核尺寸依次递减, 分别为输
入图像的1/32、 1/16、 1/8和1/4, 数量依次递增, 在每一阶段卷积层都抽取特征图, 其尺寸大
的特征图用于预测尺寸小的文本行, 尺寸小的卷积层用于预测尺寸大的文本行;
特征融合层: 从特征提取网络的顶部特征按照相应的规则依次向下进行合并, 先将特
征提取阶段得到的特征图输入到上池化层进行扩展, 之后对上下层的特征图进行融合, 继
续输入到卷积层中进 行卷积计算来减少通道数和计算量, 经过四次处理生成最终的特征图
输入到输出层去获取最终结果, 其中此 阶段的表达式为
gi
表示不同阶段的融合 规则, 特征图的融合 规则表达式为
权 利 要 求 书 2/3 页
3
CN 115457565 A
3
专利 一种OCR文字识别方法、电子设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:36上传分享