跳转到主内容
全部文档

知识获取指南

从 PDF、Office、网页、音频等 42+ 种格式获取知识,转为干净的 Markdown。

知识获取是三步流程的第一步。42md 当前支持 42+ 种格式 直接转 Markdown,覆盖办公、电子书、学术、网页、音视听、扫描件六大场景。

每种格式都有真实样本: 点开即看;总览博客

PDF 识别

模式说明配额
本地提取数字原生 PDF,极快免费
AI 识别扫描件/图片/复杂排版按页计费

上传 PDF → 自动检测类型 → 扫描件会提示是否开启 AI 识别。

详见博客 · 演示 ·

音频转录

支持 mp3、wav、m4a、flac、aac、opus、amr、wma 等几乎所有常见音频格式(解码在服务端完成,不挑格式)。中英文混合识别。

上传音频文件即可。

详见演示 ·

网页获取

三种模式:

  • 网页获取(单篇):提取单个网页正文,去除导航栏、广告、侧边栏。Free 42 篇(免费体验),Pro 1,000 篇/月,Pro+ 4,200 篇/月。
  • 网页获取(整站):输入博客或文档站首页,自动发现全部页面并批量转换。同上配额(Pro / Pro+ 按月重置)。
  • 整站 PDF 批量下载:扫描页面中的 PDF 链接,批量下载(论文 / 报告 / 白皮书 / 课件)。同上配额;目前仅支持 PDF。

详见博客 · 演示 · ·

办公文档

国内独有的 OFD(电子发票、合同、政府公文)+ Office 三件套(Word / Excel / PowerPoint)+ 苹果 iWork(Keynote / Pages / Numbers),都直接转 Markdown,保留结构与格式。免费。

详见博客:

演示: · · · ·

电子书与学术

EPUB / MOBI / AZW3 电子书全本抽出按章节切分;学术圈常用的 Typst / BibTeX / Jupyter Notebook 也直接转 Markdown。

详见博客 · 演示 · · ·

AI 翻译

33 种语言互译,按段落智能分段,保留 Markdown 格式。在素材详情页点击「翻译」。

版式优化

自动修正中英文间距、标点符号、段落间距。在素材详情页点击「版式优化」。内置多种排版预设。

预设适用场景
default通用
wechat公众号
blog博客
book书籍
paper论文

获取成果

所有获取结果保存在「知识素材」中,可以:

  • 按来源类型筛选
  • 搜索标题和内容
  • 查看素材详情和原始 Markdown
  • 对素材进行编译(下一步)

想要批量处理整个文件夹?了解

想看每种格式的真实转换效果?打开 (42+ 个真实样本,点开秒级看效果)