MinerU:一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。

2024年9月30日 单位
MinerU:一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
郝彦飞

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。

主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台


官网:https://opendatalab.com/OpenSourceTools

源码地址:https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md