立即试一试
下面这个 demo 是 42md https://42md.cc/blog --site 5 真实运行的结果——
一次性抓取 42md 官网 5 个页面(首页 / 功能 / 定价 / 文档 / 登录)合并成单 Markdown。

什么时候你会需要这个
- 把某博客的全部文章存档成 Markdown
- 喂给 AI 做整站内容分析、主题聚类
- 做竞品调研,把竞品博客一次性抓下来对比
- 维护离线知识库,定期同步内容
用 42md 做整站抓取,你能省掉的烦恼
- 不用写爬虫:一行命令
42md https://example.com --site 100抓 100 篇 - 不会被反爬:内置请求头、并发控制,对站点友好
- 失败可恢复:单页失败不影响整站,最终输出报告里能看到哪些抓失败了
- 多种发现策略:站点没 RSS 也没 Sitemap,会从首页开始递归发现链接
常见问题
--site N 里的 N 是什么意思?
抓取页数上限。默认 500,可以调整。--site 5 抓 5 篇,--site 1000 抓 1000 篇。
所有网站都支持吗?
绝大多数静态博客(Hexo、Hugo、WordPress、Substack、Ghost 等)都直接支持。SPA 应用(如某些重客户端渲染站)可能抓不到内容。
整站抓取消耗多少配额?
按抓取的页数计费。免费用户单篇免费、不能整站;Pro 套餐每天 1000 篇,Pro+ 4200 篇。
与其他场景对比
| 场景 | 推荐 | 链接 |
|---|---|---|
| 整站抓取 | --site | 本页 |
| 单篇 URL | URL | URL 转 Markdown |
| 整站 PDF 批量下载 | --assets | 整站 PDF 批量下载 |
立即体验,把整个网站抓下来。