跳转到主内容
版本发布

多人录音转录,自动分清谁在说:42md 说话人分离上线

转录访谈、会议、播客这类多人录音,转出来常是一整片文字,分不清哪句话是谁说的,整理时还得反复倒回去听。42md 语音转录新增说话人分离:转录时加上 --speaker,输出的每一段都会标好「说话人0 / 说话人1」,谁在说一目了然;两人对话还能用 --speaker=2 告诉它人数,长录音分得更准。说话人分析在你的 Mac 本地完成,和转写同时进行,原来的转写速度照旧不变。这篇手把手带你从升级,到一行命令出带说话人的稿子,再到给长访谈指定人数。

5 分钟
版本发布语音转录说话人分离访谈Mac

转录访谈、会议、播客这类多人录音,头疼的是转出来一整片文字,分不清哪句话是谁说的。整理成稿子时,还得对着录音反复倒回去听,靠记忆给每段补上说话人。

42md 语音转录新增了说话人分离:转录时加上 --speaker,输出里每一段都会自动标好「说话人0 / 说话人1 …」,谁在说一目了然。下面三步走一遍。

一、先升级到最新版

说话人分离从 v0.8.9 起提供,先把 42md 升到最新版:

42md upgrade
当前版本: v0.8.7 → 升级完成 v0.8.9,请重新运行 42md。

也可以直接用安装命令,装过会自动更新到最新版:

curl -fsSL https://42md.cc/mac | bash

二、一行命令:加上 --speaker

转录命令照旧,末尾加 --speaker 就行:

42md 访谈录音.mp3 --speaker

动手前会先弹一个二次确认,列出这次大约消耗多少转录时长和当前余额,按 y 才真正开始:

⚠ 即将消耗配额:
  访谈录音.mp3 (约 27 分钟)

当前余额:
  AI 转录  223/16800 分钟(剩 16577)

继续?[Y/n] y
  ▶ 访谈录音.mp3:转录 + 说话人分离中…
  🔎 本地分析说话人中(与转写并行,不拖慢转写)…
  ✓ 说话人分离完成:检出 2 位说话人
  转录完成 → ~/Downloads/_output/20260618_084503/访谈录音.md (2 位说话人)

说话人分析在你的 Mac 本地完成,和转写同时进行,所以转写速度照旧不变——原来多快,加了 --speaker 还是多快。

三、转录结果长什么样

打开输出的 Markdown,每一段对话前面都带上了说话人标记:

**说话人0**

欢迎来到本期节目,今天聊聊知识管理这件事。

**说话人1**

谢谢邀请。其实我一直想聊这个话题。

**说话人0**

那你觉得,转折点出现在什么时候?

直接就能拿去整理逐字稿、做会议纪要,不用再靠记忆补「这句是谁说的」。

四、告诉它有几个人,分得更准

如果你事先知道录音里有几个人,可以直接告诉它,长录音会分得更准。比如两人访谈:

42md 访谈录音.m4a --speaker=2
写法含义
--speaker自动判断有几位说话人
--speaker=2明确告诉它是 2 个人

人数确定的场景(一对一访谈、双人播客)建议直接写 --speaker=2;不确定就用 --speaker 让它自己判断。

常见问题

哪些电脑能用?

目前仅支持 Apple Silicon Mac(M 系列芯片)。首次使用会自动下载一个本地模型文件(一次性,约几百兆),下载好之后离线也能用。

加了 --speaker 会变慢吗?

不会。说话人分析在本地和转写同时进行,原来的转写速度保持不变。

单人录音也要加吗?

不用。普通单人转录照常用即可,--speaker 是给多人录音准备的。

如果说话人没分出来怎么办?

万一本地分析没成功,会自动退回到普通转录,照样给你完整的文字稿,不会因此卡住整个流程。

立即体验

# 安装 / 升级到最新版
curl -fsSL https://42md.cc/mac | bash

# 多人录音转录,自动标注说话人
42md 访谈录音.mp3 --speaker

# 已知人数时,指定更准
42md 访谈录音.m4a --speaker=2

42md — 你的知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。

活水 AI 实验室(42ailab) — 探索智能边界的 AI 创新实验室,以认知科学为基石,推动 AI 与人类智能的深度融合,真正理解并增强智能 —— 碳基的,也是硅基的。

官网https://42md.cc