跳转到主内容
版本发布

42md 文档转换大升级(6)网页抓取:单页提取、整站归档、PDF 批量下载

一个 URL 扔进去就剥广告、留正文;想把信任的文档站 / 博客一次收进知识库,整站归档一次性到位;研究里要的站内 PDF(论文、报告、白皮书、课件)一次收齐——网页相关的三件事,42md 一并解决。

6 分钟
网页转MarkdownURL转Markdown整站抓取资源批量下载网页抓取

「研究某个领域,看了 50 篇博客,想统一收进知识库,复制粘贴一篇就 5 分钟,全做下来一下午没了。」「想把信任的博主全部文章存进自己的笔记库,手动一篇篇导出力不从心。」「论文里要的几十张图片散落在不同子页面,一张张右键存图存到崩溃。」

「网页 → 我的笔记库」这条路,多数人都走过类似的弯路。42md 把这条路上的三件事打包做了:单页提取、整站抓取、整站 PDF 批量下载。

一、单 URL 转 Markdown:剥广告、留正文

把一个 URL 扔给 42md,它会剥离导航栏、广告、推荐栏、评论区、页脚——只把正文留下来,输出干净 Markdown。

下面是抓取维基百科 Markdown 词条的真实样本:

维基百科 Markdown 词条 · URL 转 Markdown

适用站点:

  • 内容开放的 Wiki / 百科类站点(如维基百科)
  • 公开发布的个人博客、技术 Blog(Hexo / Hugo / Wordpress / Ghost / Substack / Medium 等主流平台)
  • 公开新闻、文档站、Release Note 等以 HTML 正文为主的页面
  • 任何走 HTML 渲染、且站点协议(robots.txt / ToS)允许抓取的常规网站

详见 URL 转 Markdown 演示

二、整站抓取:博客 / 站点全量备份

研究某个领域,常常要看完一个博主的全部文章;维护自己的知识库,常常想把信任源整站归档。一篇篇手抓不现实——42md 的整站抓取会自动遍历站内链接,并发抓取,一次性产出按章节组织的整个站点。

下面是把 42md 自家博客整站抓下来的真实样本:

42md 博客 · 整站抓取转 Markdown

适合的场景:

  • 学术博客 / 个人博客的整站备份
  • 公司技术文档 / API 文档的离线归档
  • 想把某个领域的高质量博主全部读完
  • 研究项目里需要批量素材

详见 整站抓取演示

三、整站 PDF 批量下载

很多研究场景里要的不止是正文文字,还有站内挂着的 PDF——论文全文、报告、白皮书、课件。

整站 PDF 批量下载 自动识别页面里的 PDF 链接,一次跑完所有 PDF 到手。

适合的场景:

  • 课程页面的 PDF 课件批量下载
  • 论文站点的 supplementary material 一次拉完
  • 研究项目要的多份报告 / 白皮书集中归档
  • 备份某领域博主分享的所有 PDF 资料

目前 tools download 仅支持 PDF 批量下载。

配额与规矩

整站抓取与资源下载消耗「网页获取」额度(Free 免费体验 42 篇 / Pro 1,000 篇/月 / Pro+ 4,200 篇/月),调用前有 Dialog 显示预估消耗与抓取上限。

为了对站点友好,42md 自带:

  • 并发数与请求间隔限制(避免给来源站点造成压力)
  • 失败重试 + 配额回滚
  • robots.txt 尊重(站点显式排除的路径自动跳过)

三步上手

  1. 打开 42md.cc,进入「知识获取 / 网页抓取」
  2. 填入 URL,选择「单页 / 整站 / 资源」三种模式之一
  3. CLI 用户:42md https://example.com -o site.md

进阶玩法

  • 整站抓完后进入 知识编译 流程,让 AI 给每篇文章抽出术语卡 / 新知卡 / 金句卡
  • 多个站点的卡片积累后,做 知识专题(选集 / 评传 / 专著等 7 种风格)
  • 配合 AI 翻译,把英文站点的文章一键中译

立即体验

互联网上的好内容散在各处。把它们抓回自家知识库——研究效率、学习效率、复习效率都会变两倍。


42md — 你的 AI 知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。

活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。

官网https://42md.cc