42md 文档转换大升级（6）网页抓取：单页提取、整站归档、PDF 批量下载

「研究某个领域，看了 50 篇博客，想统一收进知识库，复制粘贴一篇就 5 分钟，全做下来一下午没了。」「想备份某博主的所有文章，不知道写什么爬虫工具够轻量。」「论文里要的几十张图片散落在不同子页面，一张张右键存图存到崩溃。」

「网页 → 我的笔记库」这条路，多数人都走过类似的弯路。42md 把这条路上的三件事打包做了：单页提取、整站抓取、整站 PDF 批量下载。

一、单 URL 转 Markdown：剥广告、留正文

把一个 URL 扔给 42md，它会剥离导航栏、广告、推荐栏、评论区、页脚——只把正文留下来，输出干净 Markdown。

下面是抓取维基百科 Markdown 词条的真实样本：

适用站点：

研究某个领域，常常要看完一个博主的全部文章；维护自己的知识库，常常想把信任源整站归档。一篇篇手抓不现实——42md 的整站抓取会自动遍历站内链接，并发抓取，一次性产出按章节组织的整个站点。

下面是把 42md 自家博客整站抓下来的真实样本：

适合的场景：

很多研究场景里要的不止是正文文字，还有站内挂着的 PDF——论文全文、报告、白皮书、课件。

整站 PDF 批量下载自动识别页面里的 PDF 链接，一次跑完所有 PDF 到手。

适合的场景：

目前 --assets 模式仅支持 PDF。电子书（EPUB / MOBI）批量下载、图片素材集中归档暂未开放。

整站抓取与资源下载按页数计费，调用前有 Dialog 显示预估消耗与抓取上限。免费用户单篇免费试用，注册即送配额，付费会员有更高每月额度。

为了对站点友好，42md 自带：

互联网上的好内容散在各处。把它们抓回自家知识库——研究效率、学习效率、复习效率都会变两倍。

42md — 你的 AI 知识编译器。更快的知识获取，更深的知识编译，更好的知识策展。

活水 AI 实验室（42ailab） — 源自 2023 年成立的活水智能团队，致力于以认知科学为基石，推动人工智能与人类智能的深度融合与科学创新。