跳转到主内容

整站抓取 · 一次拉光所有文章

RSS / Sitemap / llms.txt 自动发现 · 多路并发 · 合并输出

智能发现
通过 RSS、Sitemap、llms.txt 三种渠道自动发现页面
多路并发
默认 5 路并发抓取,整站速度比手动快几十倍
只要正文
每页都自动剥离导航、广告、推荐栏,纯文本汇总
Pro 套餐
Pro 每月 1,000 篇 / Pro+ 每月 4,200 篇

立即试一试

下面这个 demo 是 webapp 整站抓取功能真实运行的结果—— 一次性把 42md 官网 5 个页面(首页 / 功能 / 定价 / 文档 / 登录)合并成单份可读 Markdown,便于做知识归档。

42md.cc 整站抓取 · 5 个页面

一次抓取多个页面 · 5 路并发 · 合并 + 自动分页

什么时候你会需要这个

  • 把信任的某个博主 / 文档站的全部文章一次性收入知识库
  • 给 AI 喂一个完整的领域语料(同源博客 / 同主题文档站)做主题归纳
  • 研究项目:把领域内的几个核心站点定期同步到本地,离线检索 + 二次加工

用 42md 把文档站 / 博客收进知识库,能省掉的烦恼

  • 不用一篇篇复制:webapp 入口选择「整站抓取」即可,一次拉光自动转 Markdown 入库
  • 对站点友好:内置请求头规范、同源 1 req/s 间隔、并发受限
  • 失败可恢复:单页失败不影响整站,最终输出报告里能看到哪些没抓到
  • 多种发现策略:站点没 RSS 也没 Sitemap,会从首页开始递归发现链接

常见问题

整站抓取最多能抓多少页?

webapp 默认上限 500 页。如果你的站点更大,可以分批 / 分目录提交(如先抓 /blog/,再抓 /docs/)。

所有网站都支持吗?

绝大多数静态博客(Hexo、Hugo、WordPress、Substack、Ghost 等)都直接支持。部分网站可能因访问限制无法获取完整内容。

整站抓取消耗多少配额?

按抓取的页数计费,与单篇 URL 共享「网页获取」额度。Free 免费体验 42 篇(不能整站);Pro 1,000 篇/月;Pro+ 4,200 篇/月。

与其他场景对比

场景入口链接
整站抓取(转 Markdown 入库)webapp 工作台本页
单篇 URL → Markdownwebapp 工作台 / 主命令URL 转 Markdown
整站 PDF 批量下载CLI 42md tools download --site --type pdf整站 PDF 批量下载

立即体验,把感兴趣的文档站 / 博客一次性收进知识库。