PaddleOCRv5 For LabVIEW

  1. PP-OCRv5简介
    PP-OCRv5 是PP-OCR新一代文字识别解决方案,该方案聚焦于多场景、多文字类型的文字识别。在文字类型方面,PP-OCRv5支持简体中文、中文拼音、繁体中文、英文、日文5大主流文字类型,在场景方面,PP-OCRv5升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上,PP-OCRv5较PP-OCRv4端到端提升13个百分点。
  2. PP-OCRv5模型介绍
    2.1 文本方向cls模型
    为了提高OCR识别精度,cls模型可以对方向做出评估0°,180°。

Inputs

Image, name: x, shape: 1, 3, 640, 640 in the format B, C, H, W, where:

  • B – batch size (批量大小)
  • C – number of channels(一般是RGB,有的模型是BGR)
  • H – image height (图像的高)
  • W – image width(图像的宽)

Image Normalization:0-1

std:[0.229,0.224,0.225]

mean:[0.485,0.456,0.406]

Outputs

The net outputs a blob 1, 2

例如

输出[0.907308,0.0926921],说明是0°,不需要旋转图像。

输出[0.0926921,0.907308],说明图旋转是180°,旋转图像。

2.2 文本检测det模型

文本检测模块是OCR(光学字符识别)系统中的关键组成部分,负责在图像中定位和标记出包含文本的区域。该模块的性能直接影响到整个OCR系统的准确性和效率。文本检测模块通常会输出文本区域的边界框(Bounding Boxes),这些边界框将作为输入传递给文本识别模块进行后续处理。

Inputs

Image, name: x, shape: 1, 3, 640, 640 in the format B, C, H, W, where:

  • B – batch size (批量大小)
  • C – number of channels(一般是RGB,有的模型是BGR)
  • H – image height (图像的高)
  • W – image width(图像的宽)

Image Normalization:0-1

std:[0.229,0.224,0.225]

mean:[0.485,0.456,0.406]

Outputs

The net outputs a blob 1, 640,640 ,一个概率分布图。

采用聚类分析找出所有的segment,然后提取文本区域。
2.3 文本识别rec模型
文本识别模块是OCR(光学字符识别)系统中的核心部分,负责从图像中的文本区域提取出文本信息。该模块的性能直接影响到整个OCR系统的准确性和效率。文本识别模块通常接收文本检测模块输出的文本区域的边界框(Bounding Boxes)作为输入,然后通过复杂的图像处理和深度学习算法,将图像中的文本转化为可编辑和可搜索的电子文本。文本识别结果的准确性,对于后续的信息提取和数据挖掘等应用至关重要。

Inputs

Image, name: x, shape: 1, 3, 48, -1 in the format B, C, H, W, where:

  • B – batch size (批量大小)
  • C – number of channels(模型是BGR)
  • H – image height (图像的高,固定高度)
  • W – image width(图像的宽,动态调整)

Image Normalization:0-1

std:[0.229,0.224,0.225]

mean:[0.485,0.456,0.406]

Outputs

The net outputs a blob 1, n,18385 ,18285是字符字典中字符的多少。n行中,找出18385个数的最大值的索引-1,映射字典中的字符。

  1. LabVIEW模型推理

打开模型—>推理数据—>销毁模型,3步轻松完成模型推理。LabVIEW推理模型相当简单,一看就会

  1. PP-OCRv5模型推理总结

使用OpenVINO for LabVIEW 工具包可以轻松实现PP-OCRv5模型的本地部署,首先实使用文本方向cls模型对图像进行旋转,使用文件检测模型dec模型,提取文本区域,最后使用文本提取模型,将文本区域内的文字进行提取。

欢迎大家转发交流!

模型下载:https://github.com/jingsongliujing/OnnxOCR

================================

声明:来自LabVIEW高级编程,仅代表创作者观点。链接:https://eyangzhen.com/2811.html

LabVIEW高级编程的头像LabVIEW高级编程

相关推荐

关注我们
关注我们
购买服务
购买服务
返回顶部