- PP-OCRv5简介
PP-OCRv5 是PP-OCR新一代文字识别解决方案,该方案聚焦于多场景、多文字类型的文字识别。在文字类型方面,PP-OCRv5支持简体中文、中文拼音、繁体中文、英文、日文5大主流文字类型,在场景方面,PP-OCRv5升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上,PP-OCRv5较PP-OCRv4端到端提升13个百分点。 - PP-OCRv5模型介绍
2.1 文本方向cls模型
为了提高OCR识别精度,cls模型可以对方向做出评估0°,180°。
Inputs
Image, name: x
, shape: 1, 3, 640, 640
in the format B, C, H, W
, where:
B
– batch size (批量大小)C
– number of channels(一般是RGB,有的模型是BGR)H
– image height (图像的高)W
– image width(图像的宽)
Image Normalization:0-1
std:[0.229,0.224,0.225]
mean:[0.485,0.456,0.406]
Outputs
The net outputs a blob 1, 2
例如
输出[0.907308,0.0926921],说明是0°,不需要旋转图像。
输出[0.0926921,0.907308],说明图旋转是180°,旋转图像。
2.2 文本检测det模型
文本检测模块是OCR(光学字符识别)系统中的关键组成部分,负责在图像中定位和标记出包含文本的区域。该模块的性能直接影响到整个OCR系统的准确性和效率。文本检测模块通常会输出文本区域的边界框(Bounding Boxes),这些边界框将作为输入传递给文本识别模块进行后续处理。
Inputs
Image, name: x
, shape: 1, 3, 640, 640
in the format B, C, H, W
, where:
B
– batch size (批量大小)C
– number of channels(一般是RGB,有的模型是BGR)H
– image height (图像的高)W
– image width(图像的宽)
Image Normalization:0-1
std:[0.229,0.224,0.225]
mean:[0.485,0.456,0.406]
Outputs
The net outputs a blob 1, 640,640
,一个概率分布图。
采用聚类分析找出所有的segment,然后提取文本区域。
2.3 文本识别rec模型
文本识别模块是OCR(光学字符识别)系统中的核心部分,负责从图像中的文本区域提取出文本信息。该模块的性能直接影响到整个OCR系统的准确性和效率。文本识别模块通常接收文本检测模块输出的文本区域的边界框(Bounding Boxes)作为输入,然后通过复杂的图像处理和深度学习算法,将图像中的文本转化为可编辑和可搜索的电子文本。文本识别结果的准确性,对于后续的信息提取和数据挖掘等应用至关重要。
Inputs
Image, name: x
, shape: 1, 3, 48, -1
in the format B, C, H, W
, where:
B
– batch size (批量大小)C
– number of channels(模型是BGR)H
– image height (图像的高,固定高度)W
– image width(图像的宽,动态调整)
Image Normalization:0-1
std:[0.229,0.224,0.225]
mean:[0.485,0.456,0.406]
Outputs
The net outputs a blob 1, n,18385
,18285是字符字典中字符的多少。n行中,找出18385个数的最大值的索引-1,映射字典中的字符。
- LabVIEW模型推理
打开模型—>推理数据—>销毁模型,3步轻松完成模型推理。LabVIEW推理模型相当简单,一看就会
- PP-OCRv5模型推理总结
使用OpenVINO for LabVIEW 工具包可以轻松实现PP-OCRv5模型的本地部署,首先实使用文本方向cls模型对图像进行旋转,使用文件检测模型dec模型,提取文本区域,最后使用文本提取模型,将文本区域内的文字进行提取。
欢迎大家转发交流!
模型下载:https://github.com/jingsongliujing/OnnxOCR
================================
声明:来自LabVIEW高级编程,仅代表创作者观点。链接:https://eyangzhen.com/2811.html