42md 文档转换大升级(6)网页抓取:单页提取、整站归档、PDF 批量下载
一个 URL 扔进去就剥广告、留正文;想要一个博客的全部内容,整站抓取一次性到位;研究里要把站内挂着的 PDF(论文、报告、白皮书、课件)一次抓全——网页相关的三件事,42md 一并解决。
「研究某个领域,看了 50 篇博客,想统一收进知识库,复制粘贴一篇就 5 分钟,全做下来一下午没了。」「想备份某博主的所有文章,不知道写什么爬虫工具够轻量。」「论文里要的几十张图片散落在不同子页面,一张张右键存图存到崩溃。」
「网页 → 我的笔记库」这条路,多数人都走过类似的弯路。42md 把这条路上的三件事打包做了:单页提取、整站抓取、整站 PDF 批量下载。
一、单 URL 转 Markdown:剥广告、留正文
把一个 URL 扔给 42md,它会剥离导航栏、广告、推荐栏、评论区、页脚——只把正文留下来,输出干净 Markdown。
下面是抓取维基百科 Markdown 词条的真实样本:
维基百科 Markdown 词条 · URL 转 Markdown
适用站点:
- 维基百科、知乎、微信公众号文章
- Medium、Substack、Hashnode 等海外博客
- 各家个人博客、技术 Blog、新闻网站
- 任何走 HTML 渲染的常规网站
二、整站抓取:博客 / 站点全量备份
研究某个领域,常常要看完一个博主的全部文章;维护自己的知识库,常常想把信任源整站归档。一篇篇手抓不现实——42md 的整站抓取会自动遍历站内链接,并发抓取,一次性产出按章节组织的整个站点。
下面是把 42md 自家博客整站抓下来的真实样本:
42md 博客 · 整站抓取转 Markdown
适合的场景:
- 学术博客 / 个人博客的整站备份
- 公司技术文档 / API 文档的离线归档
- 想把某个领域的高质量博主全部读完
- 研究项目里需要批量素材
详见 整站抓取演示。
三、整站 PDF 批量下载
很多研究场景里要的不止是正文文字,还有站内挂着的 PDF——论文全文、报告、白皮书、课件。
整站 PDF 批量下载 自动识别页面里的 PDF 链接,一次跑完所有 PDF 到手。
适合的场景:
- 课程页面的 PDF 课件批量下载
- 论文站点的 supplementary material 一次拉完
- 研究项目要的多份报告 / 白皮书集中归档
- 备份某领域博主分享的所有 PDF 资料
目前
--assets模式仅支持 PDF。电子书(EPUB / MOBI)批量下载、图片素材集中归档暂未开放。
配额与规矩
整站抓取与资源下载按页数计费,调用前有 Dialog 显示预估消耗与抓取上限。免费用户单篇免费试用,注册即送配额,付费会员有更高每月额度。
为了对站点友好,42md 自带:
- 并发数限制(不会把对方站点抓挂)
- 失败重试 + 配额回滚
- robots.txt 尊重(站点禁止爬取的路径自动跳过)
三步上手
- 打开 42md.cc,进入「知识获取 / 网页抓取」
- 填入 URL,选择「单页 / 整站 / 资源」三种模式之一
- CLI 用户:
42md https://example.com -o site.md
进阶玩法
- 整站抓完后进入 知识编译 流程,让 AI 给每篇文章抽出术语卡 / 新知卡 / 金句卡
- 多个站点的卡片积累后,做 知识专题(选集 / 评传 / 专著等 7 种风格)
- 配合 AI 翻译,把英文站点的文章一键中译
立即体验
互联网上的好内容散在各处。把它们抓回自家知识库——研究效率、学习效率、复习效率都会变两倍。
42md — 你的 AI 知识编译器。更快的知识获取,更深的知识编译,更好的知识策展。
活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。