# ppocr **Repository Path**: fmscole/ppocr ## Basic Information - **Project Name**: ppocr - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-06-10 - **Last Updated**: 2026-06-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # PaddleOCR Tools 基于 [PaddleOCR-VL-1.6](https://github.com/PaddlePaddle/PaddleOCR) 视觉大模型的文档解析工具集。 ## 工具 | 脚本 | 功能 | |------|------| | `tools/img2md.py` | 图片/PDF → Markdown(基于 PaddleOCR-VL-1.6) | | `tools/md2docx.py` | Markdown → Word 文档(基于 Pandoc) | ## 环境 ```bash # 安装 PaddlePaddle 3.x(CUDA 12.6) pip install paddlepaddle-gpu==3.2.0 --index-url https://www.paddlepaddle.org.cn/packages/stable/cu126/ # 安装依赖 pip install paddlex tqdm opencv-python numpy pandoc ``` ## 用法 ### 图片/PDF → Markdown ```bash # 单张图片 python tools/img2md.py -i doc.png # 输出到文件 python tools/img2md.py -i doc.png -o output.md # PDF 多页处理 python tools/img2md.py -i doc.pdf -o output/ # 多页合并为一个文件 python tools/img2md.py -i doc.pdf -o output.md --merge # 调试模式(打印每步耗时) python tools/img2md.py -i doc.png --debug # 防卡死:单文件超时 300 秒 python tools/img2md.py -i doc.pdf --timeout 300 # 卡死时在另一个终端 dump 堆栈 kill -USR1 $(pgrep -f img2md.py) ``` ### Markdown → Word ```bash # 将 MD/ 目录下的所有 .md 文件合并为 Word 文档 python tools/md2docx.py -d MD/ -o output.docx ``` ## 许可证 Apache 2.0 — 基于 [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR)。 ## 常见问题 ### MathType 公式转换提示"没有公式被发现或更新" **原因**: Word 自带的 `OMML2MML.XSL` 转换文件版本过旧,MathType 在转换 OMML 公式时无法正确识别。 **解决**: 使用本项目提供的 `OMML2MML.XSL` 覆盖 Office 安装目录中的同名文件。 ```powershell # 1. 找到本项目中的 OMML2MML.XSL # 2. 覆盖到 Office 安装目录(需要管理员权限) copy /Y OMML2MML.XSL "C:\Program Files\Microsoft Office\root\Office16\OMML2MML.XSL" ``` > ⚠️ 操作前建议备份原文件:`copy "C:\Program Files\Microsoft Office\root\Office16\OMML2MML.XSL" OMML2MML.XSL.bak` > > Office 版本不同,路径可能略有差异: > - Office 2016/2019/2021: `C:\Program Files\Microsoft Office\root\Office16\` > - Office 365: `C:\Program Files\Microsoft Office\root\Office16\` > - Office 2013: `C:\Program Files\Microsoft Office\Office15\` docker run -d --gpus all -p 8118:8080 --name ppocr paddleocr:v1.6