# MinerU MVP — 文档解析组件 ## 路径 ``` GraphRAGAgent/mineru_mvp/ ``` ## 功能 通过 MinerU Cloud API 将 PDF/DOCX 等文档解析为结构化 JSON(`content_list.json`),供后端索引流水线消费。 ## 安装 ```bash cd mineru_mvp uv venv --python 3.12 source .venv/bin/activate # Linux / macOS # .venv\Scripts\activate # Windows uv pip install -r requirements.txt ``` ## 配置 复制 `.env.example` 为 `.env`,填入 MinerU API Token: ```env MINERU_API_TOKEN=your_token_here ``` Token 获取地址:https://mineru.net/apiManage/token ## 使用 ```bash # 激活 venv 后(或直接指定解释器路径): python pipeline.py /path/to/document.pdf # 或由 backend 通过 subprocess 调用: /path/to/mineru_mvp/.venv/bin/python /path/to/mineru_mvp/pipeline.py /path/to/document.pdf ``` ## 输出 解析结果输出到 `output/{文件名}/` 目录: ``` output/ └── {pdf_stem}/ ├── {uuid}_content_list.json ← 核心产物,供 backend 读取 ├── full.md ├── {uuid}_origin.pdf ├── layout.json └── images/ └── {hash}.jpg ``` ## 流水线步骤 1. POST `/file-urls/batch` — 获取预签名上传 URL 2. PUT 文件到预签名 URL(不带 Content-Type) 3. 轮询 GET `/extract-results/batch/{batch_id}` 4. 下载 ZIP → 解压到 `output/` 5. 打印摘要到 stdout