跳转到主内容
版本发布

42md 文档转换大升级(6)网页抓取:单页提取、整站归档、PDF 批量下载

一个 URL 扔进去就剥广告、留正文;想要一个博客的全部内容,整站抓取一次性到位;研究里要把站内挂着的 PDF(论文、报告、白皮书、课件)一次抓全——网页相关的三件事,42md 一并解决。

6 分钟
网页转MarkdownURL转Markdown整站抓取资源批量下载网页抓取

「研究某个领域,看了 50 篇博客,想统一收进知识库,复制粘贴一篇就 5 分钟,全做下来一下午没了。」「想备份某博主的所有文章,不知道写什么爬虫工具够轻量。」「论文里要的几十张图片散落在不同子页面,一张张右键存图存到崩溃。」

「网页 → 我的笔记库」这条路,多数人都走过类似的弯路。42md 把这条路上的三件事打包做了:单页提取、整站抓取、整站 PDF 批量下载。

一、单 URL 转 Markdown:剥广告、留正文

把一个 URL 扔给 42md,它会剥离导航栏、广告、推荐栏、评论区、页脚——只把正文留下来,输出干净 Markdown。

下面是抓取维基百科 Markdown 词条的真实样本:

维基百科 Markdown 词条 · URL 转 Markdown

适用站点:

  • 维基百科、知乎、微信公众号文章
  • Medium、Substack、Hashnode 等海外博客
  • 各家个人博客、技术 Blog、新闻网站
  • 任何走 HTML 渲染的常规网站

详见 URL 转 Markdown 演示

二、整站抓取:博客 / 站点全量备份

研究某个领域,常常要看完一个博主的全部文章;维护自己的知识库,常常想把信任源整站归档。一篇篇手抓不现实——42md 的整站抓取会自动遍历站内链接,并发抓取,一次性产出按章节组织的整个站点。

下面是把 42md 自家博客整站抓下来的真实样本:

42md 博客 · 整站抓取转 Markdown

适合的场景:

  • 学术博客 / 个人博客的整站备份
  • 公司技术文档 / API 文档的离线归档
  • 想把某个领域的高质量博主全部读完
  • 研究项目里需要批量素材

详见 整站抓取演示

三、整站 PDF 批量下载

很多研究场景里要的不止是正文文字,还有站内挂着的 PDF——论文全文、报告、白皮书、课件。

整站 PDF 批量下载 自动识别页面里的 PDF 链接,一次跑完所有 PDF 到手。

适合的场景:

  • 课程页面的 PDF 课件批量下载
  • 论文站点的 supplementary material 一次拉完
  • 研究项目要的多份报告 / 白皮书集中归档
  • 备份某领域博主分享的所有 PDF 资料

目前 --assets 模式仅支持 PDF。电子书(EPUB / MOBI)批量下载、图片素材集中归档暂未开放。

配额与规矩

整站抓取与资源下载按页数计费,调用前有 Dialog 显示预估消耗与抓取上限。免费用户单篇免费试用,注册即送配额,付费会员有更高每月额度。

为了对站点友好,42md 自带:

  • 并发数限制(不会把对方站点抓挂)
  • 失败重试 + 配额回滚
  • robots.txt 尊重(站点禁止爬取的路径自动跳过)

三步上手

  1. 打开 42md.cc,进入「知识获取 / 网页抓取」
  2. 填入 URL,选择「单页 / 整站 / 资源」三种模式之一
  3. CLI 用户:42md https://example.com -o site.md

进阶玩法

  • 整站抓完后进入 知识编译 流程,让 AI 给每篇文章抽出术语卡 / 新知卡 / 金句卡
  • 多个站点的卡片积累后,做 知识专题(选集 / 评传 / 专著等 7 种风格)
  • 配合 AI 翻译,把英文站点的文章一键中译

立即体验

互联网上的好内容散在各处。把它们抓回自家知识库——研究效率、学习效率、复习效率都会变两倍。


42md — 你的 AI 知识编译器。更快的知识获取,更深的知识编译,更好的知识策展。

活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。

官网https://42md.cc