整站抓取 · 一次拉光所有文章

RSS / Sitemap / llms.txt 自动发现 · 多路并发 · 合并输出

智能发现

通过 RSS、Sitemap、llms.txt 三种渠道自动发现页面

多路并发

默认 5 路并发抓取，整站速度比手动快几十倍

只要正文

每页都自动剥离导航、广告、推荐栏，纯文本汇总

Pro 套餐

Pro 每天 1000+ 篇 / Pro+ 每天 4200+ 篇

立即试一试

下面这个 demo 是 42md https://42md.cc/blog --site 5 真实运行的结果—— 一次性抓取 42md 官网 5 个页面（首页 / 功能 / 定价 / 文档 / 登录）合并成单 Markdown。

url·下载样本

42md.cc 整站抓取 · 5 个页面

一次抓取多个页面 · 5 路并发 · 合并 + 自动分页

什么时候你会需要这个

把某博客的全部文章存档成 Markdown
喂给 AI 做整站内容分析、主题聚类
做竞品调研，把竞品博客一次性抓下来对比
维护离线知识库，定期同步内容

用 42md 做整站抓取，你能省掉的烦恼

不用写爬虫：一行命令 42md https://example.com --site 100 抓 100 篇
不会被反爬：内置请求头、并发控制，对站点友好
失败可恢复：单页失败不影响整站，最终输出报告里能看到哪些抓失败了
多种发现策略：站点没 RSS 也没 Sitemap，会从首页开始递归发现链接

常见问题

--site N 里的 N 是什么意思？

抓取页数上限。默认 500，可以调整。--site 5 抓 5 篇，--site 1000 抓 1000 篇。

所有网站都支持吗？

绝大多数静态博客（Hexo、Hugo、WordPress、Substack、Ghost 等）都直接支持。SPA 应用（如某些重客户端渲染站）可能抓不到内容。

整站抓取消耗多少配额？

按抓取的页数计费。免费用户单篇免费、不能整站；Pro 套餐每天 1000 篇，Pro+ 4200 篇。

与其他场景对比

场景	推荐	链接
整站抓取	--site	本页
单篇 URL	URL	URL 转 Markdown
整站 PDF 批量下载	--assets	整站 PDF 批量下载

立即体验，把整个网站抓下来。

返回演示中心