MarkItDown: 微软文档智能转换工具
「微软最新开源的 Python 工具,能将 PDF、Office 文档(Word/PPT/Excel)、图片、音频等多种格式的文件智能转换为 Markdown 格式,支持 OCR 文字识别、语音转文字和元数据提取等功能,特别适合文档分析和内容索引场景」
主要功能:
- 将各类文档自动转换为 Markdown 格式
- 特别适合做文本分析和内容索引
- 提供了简单易用的 Python API
支持的文件格式:
- 办公文档:Word、PowerPoint、Excel
- PDF 文件
- 图片(可提取 EXIF 元数据,支持 OCR 文字识别)
- 音频文件(可提取元数据,支持语音转文字)
- 网页内容(对维基百科等网站有特殊优化)
- 其他文本格式(CSV、JSON、XML 等)
使用方法非常简单,只需几行代码:
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert(“test.xlsx”)
print(result.text_content)
这个工具对以下场景特别有用: