Files
GraphRAGAgent/mineru_mvp/CLAUDE.md

1.4 KiB
Raw Blame History

MinerU MVP — 文档解析组件

路径

GraphRAGAgent/mineru_mvp/

功能

通过 MinerU Cloud API 将 PDF/DOCX 等文档解析为结构化 JSONcontent_list.json),供后端索引流水线消费。

安装

cd mineru_mvp
uv venv --python 3.12
source .venv/bin/activate        # Linux / macOS
# .venv\Scripts\activate         # Windows
uv pip install -r requirements.txt

配置

复制 .env.example.env,填入 MinerU API Token

MINERU_API_TOKEN=your_token_here

Token 获取地址:https://mineru.net/apiManage/token

使用

# 激活 venv 后(或直接指定解释器路径):
python pipeline.py /path/to/document.pdf

# 或由 backend 通过 subprocess 调用:
/path/to/mineru_mvp/.venv/bin/python /path/to/mineru_mvp/pipeline.py /path/to/document.pdf

输出

解析结果输出到 output/{文件名}/ 目录:

output/
└── {pdf_stem}/
    ├── {uuid}_content_list.json   ← 核心产物,供 backend 读取
    ├── full.md
    ├── {uuid}_origin.pdf
    ├── layout.json
    └── images/
        └── {hash}.jpg

流水线步骤

  1. POST /file-urls/batch — 获取预签名上传 URL
  2. PUT 文件到预签名 URL不带 Content-Type
  3. 轮询 GET /extract-results/batch/{batch_id}
  4. 下载 ZIP → 解压到 output/
  5. 打印摘要到 stdout