PaddleOCRv5 For LabVIEW_杨振互联网服务中心

PP-OCRv5简介
PP-OCRv5 是PP-OCR新一代文字识别解决方案，该方案聚焦于多场景、多文字类型的文字识别。在文字类型方面，PP-OCRv5支持简体中文、中文拼音、繁体中文、英文、日文5大主流文字类型，在场景方面，PP-OCRv5升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上，PP-OCRv5较PP-OCRv4端到端提升13个百分点。
PP-OCRv5模型介绍
2.1 文本方向cls模型
为了提高OCR识别精度，cls模型可以对方向做出评估0°，180°。

Inputs

Image, name: x, shape: 1, 3, 640, 640 in the format B, C, H, W, where:

B – batch size （批量大小）
C – number of channels(一般是RGB,有的模型是BGR)
H – image height (图像的高)
W – image width（图像的宽）

Image Normalization：0-1

std:[0.229,0.224,0.225]

mean:[0.485,0.456,0.406]

Outputs

The net outputs a blob 1, 2

例如

输出[0.907308,0.0926921],说明是0°，不需要旋转图像。

输出[0.0926921,0.907308],说明图旋转是180°，旋转图像。

2.2 文本检测det模型

文本检测模块是OCR（光学字符识别）系统中的关键组成部分，负责在图像中定位和标记出包含文本的区域。该模块的性能直接影响到整个OCR系统的准确性和效率。文本检测模块通常会输出文本区域的边界框（Bounding Boxes），这些边界框将作为输入传递给文本识别模块进行后续处理。

Inputs

Image, name: x, shape: 1, 3, 640, 640 in the format B, C, H, W, where:

B – batch size （批量大小）
C – number of channels(一般是RGB,有的模型是BGR)
H – image height (图像的高)
W – image width（图像的宽）

Image Normalization：0-1

std:[0.229,0.224,0.225]

mean:[0.485,0.456,0.406]

Outputs

The net outputs a blob 1, 640，640 ，一个概率分布图。

采用聚类分析找出所有的segment,然后提取文本区域。
2.3 文本识别rec模型
文本识别模块是OCR（光学字符识别）系统中的核心部分，负责从图像中的文本区域提取出文本信息。该模块的性能直接影响到整个OCR系统的准确性和效率。文本识别模块通常接收文本检测模块输出的文本区域的边界框（Bounding Boxes）作为输入，然后通过复杂的图像处理和深度学习算法，将图像中的文本转化为可编辑和可搜索的电子文本。文本识别结果的准确性，对于后续的信息提取和数据挖掘等应用至关重要。

Inputs

Image, name: x, shape: 1, 3, 48, -1 in the format B, C, H, W, where:

B – batch size （批量大小）
C – number of channels(模型是BGR)
H – image height (图像的高，固定高度)
W – image width（图像的宽，动态调整）

Image Normalization：0-1

std:[0.229,0.224,0.225]

mean:[0.485,0.456,0.406]

Outputs

The net outputs a blob 1, n，18385 ，18285是字符字典中字符的多少。n行中，找出18385个数的最大值的索引-1，映射字典中的字符。

LabVIEW模型推理

打开模型—>推理数据—>销毁模型，3步轻松完成模型推理。LabVIEW推理模型相当简单，一看就会

PP-OCRv5模型推理总结

使用OpenVINO for LabVIEW 工具包可以轻松实现PP-OCRv5模型的本地部署，首先实使用文本方向cls模型对图像进行旋转，使用文件检测模型dec模型，提取文本区域，最后使用文本提取模型，将文本区域内的文字进行提取。

欢迎大家转发交流！

模型下载：https://github.com/jingsongliujing/OnnxOCR

================================

阅读原文 >>

声明：来自LabVIEW高级编程，仅代表创作者观点。链接：https://eyangzhen.com/2811.html

PaddleOCRv5 For LabVIEW

Inputs

Outputs

Inputs

Outputs

Inputs

Outputs

相关推荐