AI 驱动的 OCR 神器,将 PDF 、等转成 Markdown 格式。
无论是 PDF 中的表格、扫描里的文字,还是学术论文的复杂排版,传统 OCR 工具往往难以精准提取内容。
今天,我们介绍一款开源神器-Zerox,它凭借 AI 技术实现“零样本”高精度 OCR 识别,轻松将文档转为结构化 Markdown 格式。
🔍 Zerox 是什么?
Zerox 是由 Omni-AI 团队开发的开源工具,专注于将 PDF、DOCX、等格式的文档转换为 Markdown,目前已经获得了 9.4K 的 Star 。
其核心是通过视觉模型(如 GPT-4o-mini)实现 OCR 并直接生成结构化内容。与传统 OCR 工具不同,Zerox 无需提前训练模型即可处理复杂布局,甚至能识别扫描版文档中的表格和公式。
开源地址:https://github.com/getomni-ai/zerox
zerox/README.md at main · getomni-ai/zerox · GitHub
✨ 三大核心优势
① 零样本学习,开箱即用
无需标注数据或模型微调,Zerox 直接利用预训练 AI 模型实现高精度识别,尤其适合处理扫描件、多语言混合文档等复杂场景。
② 复杂布局精准解析
无论是学术论文的分栏排版、技术文档的代码块,还是合同中的表格, Zerox 均能准确识别并保留逻辑结构,输出整洁的 Markdown。
③ 多格式支持与开源免费
支持 PDF、DOCX、JPG/PNG 等常见格式,且完全开源,开发者可自由定制功能或集成到其他系统中。
④ 高效的工作流程
用户上传文件后,系统将文件拆分为一系列图像,并利用 GPT 模型对每页图像进行识别处理,最终生成结构清晰的 Markdown 文档。对于图像内的复杂排版、表格内容,Zerox 的视觉模型也能很好地应对。
🚀 部署指南
Zerox 提供 Node 和 Python 包,以下以 Node 版本为例:
npm install zerox
通过如下方式使用安装的 zerox:
import { zerox } from “zerox”;
const result = await zerox({
filePath: “https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf”,
openaiAPIKey: process.env.OPENAI_API_KEY,});
声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/425009.html