概述
1.简介¶
PaddleX,依托于PaddleOCR的先进技术,支持了OCR领域的低代码全流程开发能力。通过低代码开发,可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗,降低其开发难度,大大加快模型在行业中的应用和推广速度。特色如下:
- 🎨 模型丰富一键调用:将文本图像智能分析、通用OCR、通用表格识别、公式识别、印章识别涉及的17个模型整合为5条模型产线,通过极简的Python API一键调用,快速体验模型效果。此外,同一套API,也支持图像分类、目标检测、图像分割、时序预测等共计200+模型,形成20+单功能模块,方便开发者进行模型组合使用。
- 🚀提高效率降低门槛:提供基于统一命令和图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持高性能部署、服务化部署和端侧部署等多种部署方式。此外,对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等,进行模型开发时,都可以无缝切换。
2.能力支持¶
PaddleX中OCR的5条产线均支持本地快速推理,部分产线支持在线体验,您可以快速体验各个产线的预训练模型效果,如果您对产线的预训练模型效果满意,可以直接对产线进行高性能部署/服务化部署/端侧部署,如果不满意,您也可以使用产线的二次开发能力,提升效果。
此外,PaddleX为开发者提供了基于云端图形化开发界面的全流程开发工具, 详细请参考教程《零门槛开发产业级AI模型》
在线体验 | 快速推理 | 高性能部署 | 服务化部署 | 端侧部署 | 二次开发 | 星河零代码产线 | |
通用OCR | 链接 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
文档场景信息抽取 | 链接 | ✅ | ✅ | ✅ | 🚧 | ✅ | ✅ |
表格识别 | 链接 | ✅ | ✅ | ✅ | 🚧 | ✅ | ✅ |
公式识别 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |
印章识别 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 | 🚧 |
❗注:以上功能均基于GPU/CPU实现。PaddleX还可在昆仑、昇腾、寒武纪和海光等主流硬件上进行快速推理和二次开发。下表详细列出了模型产线的支持情况,具体支持的模型列表请参阅模型列表(MLU)/模型列表(NPU)/模型列表(XPU)/模型列表DCU中的OCR相关模块。我们正在适配更多的模型,并在主流硬件上推动高性能和服务化部署的实施。
👉 国产化硬件能力支持
产线名称 | 昇腾 910B | 昆仑 R200/R300 | 寒武纪 MLU370X8 | 海光 Z100 |
---|---|---|---|---|
通用OCR | ✅ | ✅ | ✅ | 🚧 |
表格识别 | ✅ | 🚧 | 🚧 | 🚧 |
3.模型列表¶
文本检测模块¶
模型名称 | 检测Hmean(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
PP-OCRv4_mobile_det | 77.79 | 10.6923 | 120.177 | 4.2 M |
PP-OCRv4_server_det | 82.69 | 83.3501 | 2434.01 | 100.1M |
注:以上精度指标的评估集是 PaddleOCR 自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中检测包含 500 张图片。
印章文本检测模块¶
模型名称 | 检测Hmean(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
PP-OCRv4_mobile_seal_det | 96.47 | 10.5878 | 131.813 | 4.7M |
PP-OCRv4_server_seal_det | 98.21 | 84.341 | 2425.06 | 108.3 M |
注:以上精度指标的评估集是 PaddleX 自建的印章数据集,包含500印章图像。
文本识别模块¶
模型名称 | 识别Avg Accuracy(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
PP-OCRv4_mobile_rec | 78.20 | 7.95018 | 46.7868 | 10.6 M |
PP-OCRv4_server_rec | 79.20 | 7.19439 | 140.179 | 71.2 M |
注:以上精度指标的评估集是 PaddleOCR 自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含 1.1w 张图片。
模型名称 | 识别Avg Accuracy(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
ch_SVTRv2_rec | 68.81 | 8.36801 | 165.706 | 73.9 M |
注:以上精度指标的评估集是 PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务A榜。
模型名称 | 识别Avg Accuracy(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
ch_RepSVTR_rec | 65.07 | 10.5047 | 51.5647 | 22.1 M |
注:以上精度指标的评估集是 PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务B榜。
公式识别模块¶
模型名称 | BLEU score | normed edit distance | ExpRate (%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|---|---|
LaTeX_OCR_rec | 0.8821 | 0.0823 | 40.01 | - | - | 89.7 M |
注:以上精度指标测量自 LaTeX-OCR公式识别测试集。
表格结构识别模块¶
模型名称 | 精度(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
SLANet | 76.31 | 522.536 | 1845.37 | 6.9 M |
注:以上精度指标测量自 PubtabNet英文表格识别数据集。
文档图像矫正模块¶
模型名称 | MS-SSIM (%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
UVDoc | 54.40 | - | - | 30.3 M |
注:以上精度指标测量自 PaddleX自建的图像矫正数据集。
版面区域检测模块¶
模型名称 | mAP(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
PicoDet_layout_1x | 86.8 | 13.036 | 91.2634 | 7.4M |
PicoDet-L_layout_3cls | 89.3 | 15.7425 | 159.771 | 22.6 M |
RT-DETR-H_layout_3cls | 95.9 | 114.644 | 3832.62 | 470.1M |
RT-DETR-H_layout_17cls | 92.6 | 115.126 | 3827.25 | 470.2M |
注:以上精度指标的评估集是 PaddleX 自建的版面区域分析数据集,包含 1w 张图片。
文档方向分类模块¶
模型名称 | Top-1 Acc(%) | GPU推理耗时(ms) | CPU推理耗时 | 模型存储大小(M) |
---|---|---|---|---|
PP-LCNet_x1_0_doc_ori | 99.26 | 3.84845 | 9.23735 | 7.1M |
注:以上精度指标为 PaddleX 内部自建数据集 Top-1 Acc 。
注:以上所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。