跳转到主内容

整站抓取 · 一次拉光所有文章

RSS / Sitemap / llms.txt 自动发现 · 多路并发 · 合并输出

智能发现
通过 RSS、Sitemap、llms.txt 三种渠道自动发现页面
多路并发
默认 5 路并发抓取,整站速度比手动快几十倍
只要正文
每页都自动剥离导航、广告、推荐栏,纯文本汇总
Pro 套餐
Pro 每天 1000+ 篇 / Pro+ 每天 4200+ 篇

立即试一试

下面这个 demo 是 42md https://42md.cc/blog --site 5 真实运行的结果—— 一次性抓取 42md 官网 5 个页面(首页 / 功能 / 定价 / 文档 / 登录)合并成单 Markdown。

42md.cc 整站抓取 · 5 个页面

一次抓取多个页面 · 5 路并发 · 合并 + 自动分页

什么时候你会需要这个

  • 把某博客的全部文章存档成 Markdown
  • 喂给 AI 做整站内容分析、主题聚类
  • 做竞品调研,把竞品博客一次性抓下来对比
  • 维护离线知识库,定期同步内容

用 42md 做整站抓取,你能省掉的烦恼

  • 不用写爬虫:一行命令 42md https://example.com --site 100 抓 100 篇
  • 不会被反爬:内置请求头、并发控制,对站点友好
  • 失败可恢复:单页失败不影响整站,最终输出报告里能看到哪些抓失败了
  • 多种发现策略:站点没 RSS 也没 Sitemap,会从首页开始递归发现链接

常见问题

--site N 里的 N 是什么意思?

抓取页数上限。默认 500,可以调整。--site 5 抓 5 篇,--site 1000 抓 1000 篇。

所有网站都支持吗?

绝大多数静态博客(Hexo、Hugo、WordPress、Substack、Ghost 等)都直接支持。SPA 应用(如某些重客户端渲染站)可能抓不到内容。

整站抓取消耗多少配额?

按抓取的页数计费。免费用户单篇免费、不能整站;Pro 套餐每天 1000 篇,Pro+ 4200 篇。

与其他场景对比

场景推荐链接
整站抓取--site本页
单篇 URLURLURL 转 Markdown
整站 PDF 批量下载--assets整站 PDF 批量下载

立即体验,把整个网站抓下来。