首页 > 开源 > MinerU-PDF转化为机器可读格式的工具
2025
08-01

MinerU-PDF转化为机器可读格式的工具

文章内容上广告位代码区


项目简介


640.png

主要功能

删除页眉、页脚、脚注、页码等元素,确保语义连贯

输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版

保留原文档的结构,包括标题、段落、列表等

提取图像、图片描述、表格、表格标题及脚注

自动识别并转换文档中的公式为LaTeX格式

自动识别并转换文档中的表格为HTML格式

自动检测扫描版PDF和乱码PDF,并启用OCR功能

OCR支持84种语言的检测与识别

支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等

支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检

支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速

兼容Windows、Linux和Mac平台


快速开始

如果安装或使用中遇到任何问题,请先查询 FAQ

如果遇到解析效果不及预期,参考 Known Issues


在线体验

官网在线应用

官网在线版功能与客户端一致,界面美观,功能丰富,需要登录使用


OpenDataLab

基于Gradio的在线demo

基于gradio开发的webui,界面简洁,仅包含核心解析功能,免登录


ModelScope

HuggingFace

本地部署

Warning


安装前必看——软硬件环境支持说明


为了确保项目的稳定性和可靠性,我们在开发过程中仅对特定的软硬件环境进行优化和测试。这样当用户在推荐的系统配置上部署和运行项目时,能够获得最佳的性能表现和最少的兼容性问题。


通过集中资源和精力于主线环境,我们团队能够更高效地解决潜在的BUG,及时开发新功能。


在非主线环境中,由于硬件、软件配置的多样性,以及第三方依赖项的兼容性问题,我们无法100%保证项目的完全可用性。因此,对于希望在非推荐环境中使用本项目的用户,我们建议先仔细阅读文档以及FAQ,大多数问题已经在FAQ中有对应的解决方案,除此之外我们鼓励社区反馈问题,以便我们能够逐步扩大支持范围。


解析后端 pipeline vlm-transformers vlm-sglang

操作系统 Linux / Windows / macOS Linux / Windows Linux / Windows (via WSL2)

CPU推理支持 ✅ ❌

GPU要求 Turing及以后架构,6G显存以上或Apple Silicon Turing及以后架构,8G显存以上

内存要求 最低16G以上,推荐32G以上

磁盘空间要求 20G以上,推荐使用SSD

python版本 3.10-3.13

安装 MinerU

使用pip或uv安装MinerU

pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install uv -i https://mirrors.aliyun.com/pypi/simple
uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

通过源码安装MinerU

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
Tip


mineru[core]包含除sglang加速外的所有核心功能,兼容Windows / Linux / macOS系统,适合绝大多数用户。 如果您有使用sglang加速VLM模型推理,或是在边缘设备安装轻量版client端等需求,可以参考文档扩展模块安装指南。


使用docker部署Mineru

MinerU提供了便捷的docker部署方式,这有助于快速搭建环境并解决一些棘手的环境兼容问题。 您可以在文档中获取Docker部署说明。


使用 MinerU

最简单的命令行调用方式:

mineru -p <input_path> -o <output_path>

您可以通过命令行、API、WebUI等多种方式使用MinerU进行PDF解析,具体使用方法请参考使用指南。


TODO   https://github.com/opendatalab/MinerU


文章内容下广告位代码区,可放置第三方分享代码!