多人录音转录，自动分清谁在说：42md 说话人分离上线

转录访谈、会议、播客这类多人录音，头疼的是转出来一整片文字，分不清哪句话是谁说的。整理成稿子时，还得对着录音反复倒回去听，靠记忆给每段补上说话人。

42md 语音转录新增了说话人分离：转录时加上 --speaker，输出里每一段都会自动标好「说话人0 / 说话人1 …」，谁在说一目了然。下面三步走一遍。

一、先升级到最新版

说话人分离从 v0.8.9 起提供，先把 42md 升到最新版：

42md upgrade

当前版本: v0.8.7 → 升级完成 v0.8.9，请重新运行 42md。

也可以直接用安装命令，装过会自动更新到最新版：

curl -fsSL https://42md.cc/mac | bash
irm https://42md.cc/win | iex

二、一行命令：加上 --speaker

转录命令照旧，末尾加 --speaker 就行：

42md 访谈录音.mp3 --speaker

动手前会先弹一个二次确认，列出这次大约消耗多少转录时长和当前余额，按 y 才真正开始：

⚠ 即将消耗配额：
  访谈录音.mp3 （约 27 分钟）

当前余额：
  AI 转录  223/16800 分钟（剩 16577）

继续？[Y/n] y
  ▶ 访谈录音.mp3：转录 + 说话人分离中…
  🔎 本地分析说话人中（与转写并行，不拖慢转写）…
  ✓ 说话人分离完成：检出 2 位说话人
  转录完成 → ~/Downloads/_output/20260618_084503/访谈录音.md （2 位说话人）

说话人分析在你的 Mac 本地完成，和转写同时进行，所以转写速度照旧不变——原来多快，加了 --speaker 还是多快。

三、转录结果长什么样

打开输出的 Markdown，每一段对话前面都带上了说话人标记：

**说话人0**

欢迎来到本期节目，今天聊聊知识管理这件事。

**说话人1**

谢谢邀请。其实我一直想聊这个话题。

**说话人0**

那你觉得，转折点出现在什么时候？

直接就能拿去整理逐字稿、做会议纪要，不用再靠记忆补「这句是谁说的」。

四、告诉它有几个人，分得更准

如果你事先知道录音里有几个人，可以直接告诉它，长录音会分得更准。比如两人访谈：

42md 访谈录音.m4a --speaker=2

写法	含义
`--speaker`	自动判断有几位说话人
`--speaker=2`	明确告诉它是 2 个人

人数确定的场景（一对一访谈、双人播客）建议直接写 --speaker=2；不确定就用 --speaker 让它自己判断。

常见问题

哪些电脑能用？

目前仅支持 Apple Silicon Mac（M 系列芯片）。首次使用会自动下载一个本地模型文件（一次性，约几百兆），下载好之后离线也能用。

加了 --speaker 会变慢吗？

不会。说话人分析在本地和转写同时进行，原来的转写速度保持不变。

单人录音也要加吗？

不用。普通单人转录照常用即可，--speaker 是给多人录音准备的。

如果说话人没分出来怎么办？

万一本地分析没成功，会自动退回到普通转录，照样给你完整的文字稿，不会因此卡住整个流程。

立即体验

# 安装 / 升级到最新版
curl -fsSL https://42md.cc/mac | bash
irm https://42md.cc/win | iex

# 多人录音转录，自动标注说话人
42md 访谈录音.mp3 --speaker

# 已知人数时，指定更准
42md 访谈录音.m4a --speaker=2

活水 AI 实验室（42ailab） — 探索智能边界的 AI 创新实验室，以认知科学为基石，推动 AI 与人类智能的深度融合，真正理解并增强智能 —— 碳基的，也是硅基的。

活水MD（42md） — 活水 AI 实验室出品的高性能 Markdown 处理工具。AI 时代的 Markdown，一站式处理：42+ 种格式一行转 Markdown，还支持翻译、摘要、导出等十余种知识工具，并支持知识编译、流程编排、本地引擎与 Agent 调用。