42md 文档转换大升级(1)总览:42+ 种格式一键转 Markdown
从 OFD 电子发票到 Keynote 演讲稿,从扫描件 PDF 到 4 小时讲座录音,从 EPUB 电子书到整站资源——42md 把你日常会接触的 42+ 种文件类型,统一编译成干净 Markdown。这是一份按场景整理的总览。
「论文从 PDF 拉出来格式全乱,发票是 OFD 没人能转,Keynote 还得先导 PDF 再 OCR,整理资料一半时间在格式之间打转。」
如果你也常被「格式不对」卡住,这篇文章是为你准备的——把 42md 当下支持的 42+ 种文件类型按场景整理一遍。每个类目都有真实样本可点开看效果。
一、办公文档:OFD / DOCX / XLSX / PPTX / TXT
国内场景里,OFD(开放版式文档)几乎绕不过:电子发票、合同、政府文件全是 OFD 在跑。Office 三件套之外再加个 OFD,才算「办公格式齐了」。
下面这份增值税电子发票就是真实的 OFD 文件——直接转 Markdown,章节、字段、金额都还原:
增值税电子发票(OFD 真实样本)
更多 OFD / Office 实跑例子在专题文章里:OFD / DOCX / XLSX / PPTX 一键转 Markdown。
二、PDF:数字 PDF + 扫描件 PDF
PDF 是基本盘。普通带文字层的 PDF 走结构化抽取,几秒一篇。下面这份 Attention Is All You Need 论文转完仍带完整作者邮箱、章节、公式:
Attention Is All You Need · 论文转 Markdown
扫描件 PDF / 拍照件没有文字层,走 AI 识别。把同一篇论文渲染成图像后再转 Markdown 也能完整还原:
扫描件 PDF · AI 识别演示
三、苹果 iWork:Keynote / Pages / Numbers
Mac 用户的演讲稿、长文档、表格都在 iWork 里。42md 直接吃 .key / .pages / .numbers 三件套——不用先「文件 → 导出 PDF」走二次转换的弯路。详细教程:Mac 用户福音:Keynote / Pages / Numbers 一键转 Markdown。
四、电子书与学术:EPUB / MOBI / AZW3 / FB2 / Typst / BibTeX / IPYNB
读完一本 EPUB 想做笔记?42md 把整本书按章节抽出来:
《爱丽丝梦游仙境》全本转 Markdown
学术写作圈常用的 Typst、BibTeX 引用清单、Jupyter Notebook 也都齐了。详见专题:EPUB / Typst / BibTeX:电子书与学术格式终结篇。
五、AI 视听:扫描件 / 图片 OCR + 音频转录 + 字幕
凡是没文字层的内容——纸质扫描件、手机拍的合同、老资料的照片、讲座录音——都走 AI 通道。一份 4 小时的讲课录音,输入十几个学科 AI 热词,专业名词识别准确率会肉眼提升一截。
字幕文件(.srt / .vtt)转完就是带时间戳的对话:
字幕 SRT 转 Markdown
详见专题:AI 转换三件套:扫描件 OCR、音频转录、图片识字。
六、网页与整站:URL / 整站抓取 / 资源下载
把一个 URL 扔给 42md,它会剥离导航、广告、推荐栏,只留正文:
维基百科词条 · 抓取转 Markdown
研究、学习、备份场景里,常需要批量抓一个博客或站点。整站抓取与资源下载详见专题:网页转 Markdown:从单页到整站。
七、其他:CSV / HTML / 代码笔记
CSV 表格转成漂亮的 Markdown 表,HTML 网页转成正文,Jupyter Notebook 把代码 + 输出一起编排——日常杂项格式都打通了。
怎么开始
文件类型多不可怕,可怕的是为每种格式装一套工具。一处搞定,剩下的时间留给真正要做的事。
42md — 你的 AI 知识编译器。更快的知识获取,更深的知识编译,更好的知识策展。
活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。