跳转到主内容
版本发布

42md 知识工具大升级(9)download:整站资源批量下载,研究素材一键归档

研究某个领域要收 50 份论文 PDF / 整理某个博客的全部文章 / 把课程站点的课件批量备份——这些「网上资源 → 本地归档」的搬运工作过去多数人都靠手抓。`42md tools download` 一行命令做完:单页或整站索引发现资源 + 8 路并发下载到本地。仅 CLI 提供,不消耗 AI 配额(消耗「网页获取」额度)。这一篇讲它的使用场景、参数、典型工作流。

7 分钟
产品发布downloadCLI整站抓取

一、为什么要做 download

很多人有这样的搬运工作:

  • 研究某个领域要收 50 份论文 PDF——一个个点链接下载到本地
  • 整理某个学术站点的 supplementary material——藏在多个二级页面里
  • 把课程站点的所有 PDF 课件批量备份——网页要一个个翻
  • 学习一个博主时想抓全所有文章 PDF 备份归档

这类「URL → 本地文件」的批量动作过去都靠手抓。42md tools download 把这件事做成一行命令:自动发现资源 + 并发下载 + 原子写盘 + 失败可观测。

二、download 的特色

  • 单页 / 整站双模式——默认扫单页发现的链接;加 --site 走整站索引发现(llms.txt / RSS / Sitemap.xml / 站内链接图)
  • 8 路并发下载——速度比手工快很多
  • 原子写盘——单条走「tmp + rename」,Ctrl+C / 网络中断不留半截文件
  • 逐条进度 [N/M] ✅ filename——大批次下载能看进度
  • 失败可观测——末尾打印前 5 条失败详情,不让批量失败静默
  • 不消耗 AI 配额(消耗「网页获取」额度)

三、怎么用 · CLI

# 单页发现资源(默认 --type pdf)
42md tools download https://example.com/papers

# 整站索引发现
42md tools download https://research.example.com --site

# 限制整站发现页数(默认 500)
42md tools download https://research.example.com --site --site-limit 200

# 指定输出目录(默认 _assets/<时间戳>/)
42md tools download https://example.com/papers -o ./pdfs

# 限制单文件大小(默认 50 MB)
42md tools download https://example.com/papers --max-file-size-mb 100

小技巧:

  • 整站归档先用 --site:会同时尝试 llms.txt / RSS / Sitemap.xml / 站内链接图四种发现方式,覆盖率高于单页
  • 先小后大:第一次跑用 --site-limit 20 试一下,看发现的资源对不对,再放大到全量
  • 资源归档完用主命令转 Markdown42md tools download 严格只下载不转换;下载完用 42md ./pdfs/*.pdf -o ./md/ 显式转 Markdown,可控

注意事项:

  • 当前仅支持 --type pdf(与 webapp 对齐);其它资源类型(HTML / 图片 / 音视频)待续
  • 整站抓取消耗「网页获取」额度(单次 cap:Free 42 / Pro 和 Pro+ 各 420)
  • 当前仅 CLI 提供,webapp 端能力随产品演进逐步开放

四、典型工作流

# 工作流 1:学术站点 supplementary 批量收
42md tools download https://research.example.com/papers --site --site-limit 100
# 然后转 Markdown
42md _assets/20260621-*/*.pdf -q -o ./md/

# 工作流 2:博主全部 PDF 归档
42md tools download https://blog.example.com --site -o ./blog-pdfs

# 工作流 3:单页课件批量
42md tools download https://course.example.com/week-3 -o ./week-3-pdfs

五、实际演示

download 的演示样本即将上线——届时会展示一次「学术站点 30 份 PDF 批量归档」的真实命令输出。当前可以拿一个你常去的站点跑:

42md tools download <你的目标 URL> --site --site-limit 10

看进度条 + 末尾汇报。

六、常见问题

能下载哪些资源类型?

当前仅支持 PDF(--type pdf,与 webapp 对齐)。其它资源类型(HTML / 图片 / 音视频)待开放。

整站发现是怎么工作的?

--site 后会同时尝试四种发现方式,命中即用:

  1. llms.txt —— 站点自带的 AI 友好索引
  2. RSS —— 文章 / 资源订阅源
  3. Sitemap.xml —— SEO 通用站点索引
  4. 站内链接图 —— 兜底,遍历站内可达页面

发现的页面集合按 --site-limit 截断后,逐个再扫资源链接 → 并发下载。

下载半截被 Ctrl+C 怎么办?

不会留下半截文件。每条下载走「tmp + rename」,进程中断 / 网络断的 .tmp 文件会被 Drop guard 自动清理,下次重跑相当于全新开始。

同名文件会覆盖吗?

不会。本进程内路径 claim 机制 + 磁盘探测,同名文件自动追加 _1 / _2 后缀。

消耗什么配额?

消耗「网页获取」额度(不是 AI 生成额度)。单次 cap:Free 套餐 42 条 / Pro 和 Pro+ 套餐各 420 条。

webapp 端有吗?

当前仅 CLI 提供。webapp 端整站资源下载能力随产品演进逐步开放。

七、立即体验

# 安装或升级
curl -fsSL https://42md.cc/mac | bash

# 试一下
42md tools download https://your-target.com --site --site-limit 10

系列回顾


42md — 你的 AI 知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。

活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。

官网https://42md.cc