1.4 KiB
1.4 KiB
MinerU MVP — 文档解析组件
路径
GraphRAGAgent/mineru_mvp/
功能
通过 MinerU Cloud API 将 PDF/DOCX 等文档解析为结构化 JSON(content_list.json),供后端索引流水线消费。
安装
cd mineru_mvp
uv venv --python 3.12
source .venv/bin/activate # Linux / macOS
# .venv\Scripts\activate # Windows
uv pip install -r requirements.txt
配置
复制 .env.example 为 .env,填入 MinerU API Token:
MINERU_API_TOKEN=your_token_here
Token 获取地址:https://mineru.net/apiManage/token
使用
# 激活 venv 后(或直接指定解释器路径):
python pipeline.py /path/to/document.pdf
# 或由 backend 通过 subprocess 调用:
/path/to/mineru_mvp/.venv/bin/python /path/to/mineru_mvp/pipeline.py /path/to/document.pdf
输出
解析结果输出到 output/{文件名}/ 目录:
output/
└── {pdf_stem}/
├── {uuid}_content_list.json ← 核心产物,供 backend 读取
├── full.md
├── {uuid}_origin.pdf
├── layout.json
└── images/
└── {hash}.jpg
流水线步骤
- POST
/file-urls/batch— 获取预签名上传 URL - PUT 文件到预签名 URL(不带 Content-Type)
- 轮询 GET
/extract-results/batch/{batch_id} - 下载 ZIP → 解压到
output/ - 打印摘要到 stdout