42md 知识工具大升级（10）download：整站资源批量下载，研究素材一键归档

一、为什么要做 download

很多人有这样的搬运工作：

研究某个领域要收 50 份论文 PDF——一个个点链接下载到本地
整理某个学术站点的 supplementary material——藏在多个二级页面里
把课程站点的所有 PDF 课件批量备份——网页要一个个翻
学习一个博主时想抓全所有文章 PDF 备份归档

这类「URL → 本地文件」的批量动作过去都靠手抓。42md tools download 把这件事做成一行命令：自动发现资源 + 并发下载 + 原子写盘 + 失败可观测。

二、download 的特色

单页 / 整站双模式——默认扫单页发现的链接；加 --site 走整站索引发现（llms.txt / RSS / Sitemap.xml / 站内链接图）
8 路并发下载——速度比手工快很多
原子写盘——单条走「tmp + rename」，Ctrl+C / 网络中断不留半截文件
逐条进度 [N/M] ✅ filename——大批次下载能看进度
失败可观测——末尾打印前 5 条失败详情，不让批量失败静默
不消耗 AI 配额（消耗「网页获取」额度）

三、怎么用 · CLI

# 单页发现资源（默认 --type pdf）
42md tools download https://example.com/papers

# 整站索引发现
42md tools download https://research.example.com --site

# 限制整站发现页数（默认 500）
42md tools download https://research.example.com --site --site-limit 200

# 指定输出目录（默认 _assets/<时间戳>/）
42md tools download https://example.com/papers -o ./pdfs

# 限制单文件大小（默认 50 MB）
42md tools download https://example.com/papers --max-file-size-mb 100

小技巧：

整站归档先用 --site：会同时尝试 llms.txt / RSS / Sitemap.xml / 站内链接图四种发现方式，覆盖率高于单页
先小后大：第一次跑用 --site-limit 20 试一下，看发现的资源对不对，再放大到全量
资源归档完用主命令转 Markdown：42md tools download 严格只下载不转换；下载完用 42md ./pdfs/*.pdf -o ./md/ 显式转 Markdown，可控

注意事项：

当前仅支持 --type pdf（与 webapp 对齐）；其它资源类型（HTML / 图片 / 音视频）待续
整站抓取消耗「网页获取」额度（单次 cap：Free 42 / Pro 和 Pro+ 各 420）
当前仅 CLI 提供，webapp 端能力随产品演进逐步开放

四、典型工作流

# 工作流 1：学术站点 supplementary 批量收
42md tools download https://research.example.com/papers --site --site-limit 100
# 然后转 Markdown
42md _assets/20260621-*/*.pdf --ocr -o ./md/

# 工作流 2：博主全部 PDF 归档
42md tools download https://blog.example.com --site -o ./blog-pdfs

# 工作流 3：单页课件批量
42md tools download https://course.example.com/week-3 -o ./week-3-pdfs

五、实际演示

download 的演示样本即将上线——届时会展示一次「学术站点 30 份 PDF 批量归档」的真实命令输出。当前可以拿一个你常去的站点跑：

42md tools download <你的目标 URL> --site --site-limit 10

看进度条 + 末尾汇报。

六、常见问题

能下载哪些资源类型？

当前仅支持 PDF（--type pdf，与 webapp 对齐）。其它资源类型（HTML / 图片 / 音视频）待开放。

整站发现是怎么工作的？

加 --site 后会同时尝试四种发现方式，命中即用：

llms.txt —— 站点自带的 AI 友好索引
RSS —— 文章 / 资源订阅源
Sitemap.xml —— SEO 通用站点索引
站内链接图 —— 兜底，遍历站内可达页面

发现的页面集合按 --site-limit 截断后，逐个再扫资源链接 → 并发下载。

下载半截被 Ctrl+C 怎么办？

不会留下半截文件。每条下载走「tmp + rename」，进程中断 / 网络断的 .tmp 文件会被 Drop guard 自动清理，下次重跑相当于全新开始。

同名文件会覆盖吗？

不会。本进程内路径 claim 机制 + 磁盘探测，同名文件自动追加 _1 / _2 后缀。

消耗什么配额？

消耗「网页获取」额度（不是 AI 生成额度）。单次 cap：Free 套餐 42 条 / Pro 和 Pro+ 套餐各 420 条。

webapp 端有吗？

当前仅 CLI 提供。webapp 端整站资源下载能力随产品演进逐步开放。

七、立即体验

# 安装或升级
curl -fsSL https://42md.cc/mac | bash
irm https://42md.cc/win | iex

# 试一下
42md tools download https://your-target.com --site --site-limit 10

系列回顾

第（1）篇：总述
第（2）篇：版式优化 lint
第（3）篇：AI 翻译 translate
第（4）篇：AI 摘要 summarize
第（5）篇：AI 优化 improve
第（6）篇：md2pdf Markdown 转 PDF
第（7）篇：md2docx Markdown 转 Word
第（8）篇：md2epub Markdown 转 EPUB
第（9）篇：md2html + md2wechat 双形态 HTML
第（10）篇：download 整站资源批量下载（本篇）
第（11）篇：screenshot 网页全页截图

活水 AI 实验室（42ailab） — 探索智能边界的 AI 创新实验室，以认知科学为基石，推动 AI 与人类智能的深度融合，真正理解并增强智能 —— 碳基的，也是硅基的。

活水MD（42md） — 活水 AI 实验室出品的高性能 Markdown 处理工具。AI 时代的 Markdown，一站式处理：42+ 种格式一行转 Markdown，还支持翻译、摘要、导出等十余种知识工具，并支持知识编译、流程编排、本地引擎与 Agent 调用。