斩获 9.4K 星！推荐一个 OCR 利器_杨振互联网服务中心

AI 驱动的 OCR 神器，将 PDF 、等转成 Markdown 格式。

无论是 PDF 中的表格、扫描里的文字，还是学术论文的复杂排版，传统 OCR 工具往往难以精准提取内容。

今天，我们介绍一款开源神器-Zerox，它凭借 AI 技术实现“零样本”高精度 OCR 识别，轻松将文档转为结构化 Markdown 格式。

🔍 Zerox 是什么？

Zerox 是由 Omni-AI 团队开发的开源工具，专注于将 PDF、DOCX、等格式的文档转换为 Markdown，目前已经获得了 9.4K 的 Star 。

其核心是通过视觉模型（如 GPT-4o-mini）实现 OCR 并直接生成结构化内容。与传统 OCR 工具不同，Zerox 无需提前训练模型即可处理复杂布局，甚至能识别扫描版文档中的表格和公式。

开源地址：https://github.com/getomni-ai/zerox
zerox/README.md at main · getomni-ai/zerox · GitHub

✨ 三大核心优势

① 零样本学习，开箱即用

无需标注数据或模型微调，Zerox 直接利用预训练 AI 模型实现高精度识别，尤其适合处理扫描件、多语言混合文档等复杂场景。

② 复杂布局精准解析

无论是学术论文的分栏排版、技术文档的代码块，还是合同中的表格， Zerox 均能准确识别并保留逻辑结构，输出整洁的 Markdown。

③ 多格式支持与开源免费

支持 PDF、DOCX、JPG/PNG 等常见格式，且完全开源，开发者可自由定制功能或集成到其他系统中。

④ 高效的工作流程

用户上传文件后，系统将文件拆分为一系列图像，并利用 GPT 模型对每页图像进行识别处理，最终生成结构清晰的 Markdown 文档。对于图像内的复杂排版、表格内容，Zerox 的视觉模型也能很好地应对。

🚀 部署指南

Zerox 提供 Node 和 Python 包，以下以 Node 版本为例：

npm install zerox
通过如下方式使用安装的 zerox：

import { zerox } from “zerox”;

const result = await zerox({
filePath: “https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf”,
openaiAPIKey: process.env.OPENAI_API_KEY,});

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/425009.html

斩获 9.4K 星！推荐一个 OCR 利器