立即试一试
下面这个 demo 是 webapp 整站抓取功能真实运行的结果—— 一次性把 42md 官网 5 个页面(首页 / 功能 / 定价 / 文档 / 登录)合并成单份可读 Markdown,便于做知识归档。

什么时候你会需要这个
- 把信任的某个博主 / 文档站的全部文章一次性收入知识库
- 给 AI 喂一个完整的领域语料(同源博客 / 同主题文档站)做主题归纳
- 研究项目:把领域内的几个核心站点定期同步到本地,离线检索 + 二次加工
用 42md 把文档站 / 博客收进知识库,能省掉的烦恼
- 不用一篇篇复制:webapp 入口选择「整站抓取」即可,一次拉光自动转 Markdown 入库
- 对站点友好:内置请求头规范、同源 1 req/s 间隔、并发受限
- 失败可恢复:单页失败不影响整站,最终输出报告里能看到哪些没抓到
- 多种发现策略:站点没 RSS 也没 Sitemap,会从首页开始递归发现链接
常见问题
整站抓取最多能抓多少页?
webapp 默认上限 500 页。如果你的站点更大,可以分批 / 分目录提交(如先抓 /blog/,再抓 /docs/)。
所有网站都支持吗?
绝大多数静态博客(Hexo、Hugo、WordPress、Substack、Ghost 等)都直接支持。部分网站可能因访问限制无法获取完整内容。
整站抓取消耗多少配额?
按抓取的页数计费,与单篇 URL 共享「网页获取」额度。Free 免费体验 42 篇(不能整站);Pro 1,000 篇/月;Pro+ 4,200 篇/月。
与其他场景对比
| 场景 | 入口 | 链接 |
|---|---|---|
| 整站抓取(转 Markdown 入库) | webapp 工作台 | 本页 |
| 单篇 URL → Markdown | webapp 工作台 / 主命令 | URL 转 Markdown |
| 整站 PDF 批量下载 | CLI 42md tools download --site --type pdf | 整站 PDF 批量下载 |
立即体验,把感兴趣的文档站 / 博客一次性收进知识库。