42md 文档转换大升级（5）AI 转换三件套：扫描件 OCR、音频转录、图片识字

「老书的扫描件想做电子化，自己用 OCR 软件试了几款，公式、表格全乱；」「上周讲座录了 3 个小时音频，想做笔记，听写一遍熬到凌晨；」「手机拍了一张合同，想搜里面的某条条款，关键词搜不到。」

这三件事的共同点是：原始内容没有文字层——它们是图像或声音。要变成可搜索、可编辑、可二次加工的纯文本，得过 AI 这一道。

42md 把这三种 AI 转换打包成一条工作流，下面分别看效果。

一、扫描件 / 图片化 PDF：AI 视觉识别

带文字层的 PDF 走结构化抽取，几秒一篇。但扫描件 / 拍照 / 图像化的 PDF 没文字层——只能靠 AI 视觉识别来还原。

下面这份是把 Attention Is All You Need 论文前 3 页渲染成图像后重新合成的扫描件 PDF，没有任何文字层。点开转换看 AI 把它还原成什么：

完整作者列表、邮箱、章节编号、参考文献都还原了。这就是 42md 的扫描件 OCR 演示——AI 视觉识别远比传统 OCR 准确。

适合的场景：

音频转录是 42md 用户里使用频次相当高的功能之一。中英文混合识别、按段分句、自动标点——细节都打磨过。

下面是 42md 的产品介绍音频，转完是带段落的纯文本，可以直接做笔记：

支持的格式：MP3 / WAV / M4A / FLAC / OGG / AAC / WEBM / Opus / AMR / M4B / AIFF / CAF / WMA 等几乎所有常见音频格式（解码在服务端完成，不挑格式）。

适合的场景：

不止 PDF，单张图片（PNG / JPG / JPEG，含 iPhone 拍照默认的 HEIC / HEIF，以及网页常见的 AVIF）也能识字——iPhone 照片、网页导出图都不用先手工转 JPG，直接传。详见图片 OCR 演示。

适合的场景：

AI 转换会消耗 AI 配额，所以 42md 守了三条规矩：

注册即送各 AI 配额体验额度，不付费也能完整走完一遍流程。

「图像和声音是我的工作日常」——属于这类用户的工具，长期来看更值钱。

42md — 你的 AI 知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。

活水 AI 实验室（42ailab） — 源自 2023 年成立的活水智能团队，致力于以认知科学为基石，推动人工智能与人类智能的深度融合与科学创新。