MarkItDown评测：微软出品的文件转Markdown利器

Sat, 11 Apr 2026 10:00:00 +0800

简介

微软搞了个Python工具，专门把各种文件转成Markdown。PDF、Word、Excel、PPT、图片、音频，扔进去就吐出Markdown。拿它喂LLM特别顺手。

核心思路很简单：主流LLM（GPT-4o、Claude这些）都"说"Markdown，训练数据里大量Markdown，理解得好，token消耗还低。MarkItDown就把杂七杂八的格式统一成Markdown，让LLM更好消化。

核心功能

多格式支持：PDF、Word、Excel、PowerPoint、图片（EXIF元数据+OCR）、音频（语音转文字）、HTML、CSV、JSON、XML、ZIP、YouTube链接、电子书
保留文档结构：标题、列表、表格、链接都能识别，不是简单粗暴提取文字
MCP集成：内置Model Context Protocol服务器，能跟Claude Desktop这类LLM应用直接联动
插件系统：第三方插件扩展功能，比如markitdown-ocr用LLM视觉能力做OCR
Azure文档智能：可对接Azure Document Intelligence，处理复杂文档

价格方案

方案	价格	功能限制
开源版	免费	全功能，无限制
Azure增强	按Azure计费	文档智能API调用量计费

这个工具完全开源免费，代码托管在GitHub。唯一成本是你如果要用Azure Document Intelligence增强版，才需要按Azure的计费标准付钱。

优缺点对比

优点	缺点
微软官方维护，质量有保障	需要Python环境，对非技术用户有门槛
支持格式极其全面	某些格式（如扫描PDF）需要额外OCR配置
输出的Markdown质量高，结构清晰	音频转写依赖额外依赖包
开源免费，代码可审计	没有图形界面，纯命令行/Python API
支持LLM图片描述功能	文档相对简陋

适合人群

推荐给：

需要把大量文档喂给LLM的开发者
做RAG（检索增强生成）项目的工程师
内容创作者，想把PDF/Word转成可编辑的Markdown
数据分析师，需要从PDF报告里提取结构化数据

不推荐：

寻找图形界面工具的普通用户
只需要简单PDF转文字的场景（在线工具更快）
对格式保真度要求极高的人（这是给LLM看的，不是给人看的精美排版）

使用教程

安装

pip install 'markitdown[all]'

如果只想装特定格式的支持：

pip install 'markitdown[pdf,docx,pptx]'

命令行使用

最简单的方式：

markitdown 你的文件.pdf > 输出.md

指定输出文件：

markitdown 文件.docx -o 输出.md

管道方式：

VibeVoice评测：微软开源语音AI三剑客详解

Thu, 02 Apr 2026 10:00:00 +0800

简介

VibeVoice是微软开源的前沿语音AI框架，刚上GitHub Trending就炸了——一天涨了1600多星。这东西厉害在哪？它把语音识别和语音合成这两个硬骨头啃得挺漂亮：ASR能一口气处理60分钟长音频，TTS能生成90分钟的连续语音。对于做播客转写、有声书生成、多人对话场景的玩家来说，这套组合拳值得研究。

核心功能

VibeVoice-ASR（语音识别）：单次处理最长60分钟音频，自动识别谁在什么时候说了什么，支持50+种语言，还能加载自定义热词提高专业领域准确率。已集成到Hugging Face Transformers库，import就能跑。

VibeVoice-TTS（语音合成）：最长生成90分钟连续语音，支持4个不同说话者同时登场，中英文都行。论文被ICLR 2026录用了，技术层面是认真的。

VibeVoice-Realtime（实时TTS）：0.5B参数的轻量模型，首字延迟约300毫秒，支持流式输入。适合对话机器人、实时播报这类对延迟敏感的场景。

价格方案

方案	价格	功能限制
开源版	¥0	模型全开，需自部署GPU
Playground	¥0	在线体验，有调用限制
云服务	按量计费	微软Azure（待官方支持）

💡 官方Playground和Colab笔记本都可以免费试用，建议先玩玩再决定要不要自己部署 CPS链接：VibeVoice Playground →

优缺点对比

优点	缺点
完全开源，模型权重可下载	部署需要GPU资源（ASR 7B显存要求较高）
长音频处理能力业内领先	官方云服务还没上线
多语言支持，中文效果不错	社区生态还在建设中
微软背书，持续迭代有保障	TTS代码因合规原因已下架

适合人群

推荐给：播客、访谈类内容的创作者（ASR转写确实好用）；有声书、多角色配音需求的人；做语音AI研究的学生和开发者；需要本地部署语音能力的企业。

不推荐：没有GPU资源又不想花钱租云主机的；只需要简单短语音转写的轻度用户（用免费的Whisper更省事）。

使用教程

ASR快速上手（Hugging Face方式）

from transformers import AutoModel, AutoProcessor
import torch

# 加载模型
model = AutoModel.from_pretrained("microsoft/VibeVoice-ASR", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR")

# 处理音频
inputs = processor(audio_path, return_tensors="pt")
outputs = model.generate(**inputs)
result = processor.decode(outputs[0])
print(result)  # 输出：谁-何时-说什么的结构化结果

Realtime TTS在线体验

打开官方Colab笔记本
运行安装单元格
输入你想转成语音的文字
选择说话者风格（现支持9种语言+11种英文风格）
点击生成，下载音频

自定义热词提升识别率

# 比如你的音频里有大量专业术语
hotwords = ["RAG", "LangChain", "Vector Database", "Embedding"]
result = model.transcribe(audio_path, hotwords=hotwords)

购买建议

做语音相关产品的，这套工具值得花时间研究。ASR的长音频能力确实能解决很多痛点——以前得把音频切成小块再拼，现在直接扔进去就行。Realtime模型的300毫秒延迟也很适合实时场景。

微软 on 赛博工具站

MarkItDown评测：微软出品的文件转Markdown利器

简介

核心功能

价格方案

优缺点对比

适合人群

使用教程

安装

命令行使用

VibeVoice评测：微软开源语音AI三剑客详解

简介

核心功能

价格方案

优缺点对比

适合人群

使用教程

ASR快速上手（Hugging Face方式）

Realtime TTS在线体验

自定义热词提升识别率

购买建议