42md 知识工具大升级(9)download:整站资源批量下载,研究素材一键归档
研究某个领域要收 50 份论文 PDF / 整理某个博客的全部文章 / 把课程站点的课件批量备份——这些「网上资源 → 本地归档」的搬运工作过去多数人都靠手抓。`42md tools download` 一行命令做完:单页或整站索引发现资源 + 8 路并发下载到本地。仅 CLI 提供,不消耗 AI 配额(消耗「网页获取」额度)。这一篇讲它的使用场景、参数、典型工作流。
一、为什么要做 download
很多人有这样的搬运工作:
- 研究某个领域要收 50 份论文 PDF——一个个点链接下载到本地
- 整理某个学术站点的 supplementary material——藏在多个二级页面里
- 把课程站点的所有 PDF 课件批量备份——网页要一个个翻
- 学习一个博主时想抓全所有文章 PDF 备份归档
这类「URL → 本地文件」的批量动作过去都靠手抓。42md tools download 把这件事做成一行命令:自动发现资源 + 并发下载 + 原子写盘 + 失败可观测。
二、download 的特色
- 单页 / 整站双模式——默认扫单页发现的链接;加
--site走整站索引发现(llms.txt / RSS / Sitemap.xml / 站内链接图) - 8 路并发下载——速度比手工快很多
- 原子写盘——单条走「tmp + rename」,Ctrl+C / 网络中断不留半截文件
- 逐条进度
[N/M] ✅ filename——大批次下载能看进度 - 失败可观测——末尾打印前 5 条失败详情,不让批量失败静默
- 不消耗 AI 配额(消耗「网页获取」额度)
三、怎么用 · CLI
# 单页发现资源(默认 --type pdf)
42md tools download https://example.com/papers
# 整站索引发现
42md tools download https://research.example.com --site
# 限制整站发现页数(默认 500)
42md tools download https://research.example.com --site --site-limit 200
# 指定输出目录(默认 _assets/<时间戳>/)
42md tools download https://example.com/papers -o ./pdfs
# 限制单文件大小(默认 50 MB)
42md tools download https://example.com/papers --max-file-size-mb 100
小技巧:
- 整站归档先用
--site:会同时尝试 llms.txt / RSS / Sitemap.xml / 站内链接图四种发现方式,覆盖率高于单页 - 先小后大:第一次跑用
--site-limit 20试一下,看发现的资源对不对,再放大到全量 - 资源归档完用主命令转 Markdown:
42md tools download严格只下载不转换;下载完用42md ./pdfs/*.pdf -o ./md/显式转 Markdown,可控
注意事项:
- 当前仅支持
--type pdf(与 webapp 对齐);其它资源类型(HTML / 图片 / 音视频)待续 - 整站抓取消耗「网页获取」额度(单次 cap:Free 42 / Pro 和 Pro+ 各 420)
- 当前仅 CLI 提供,webapp 端能力随产品演进逐步开放
四、典型工作流
# 工作流 1:学术站点 supplementary 批量收
42md tools download https://research.example.com/papers --site --site-limit 100
# 然后转 Markdown
42md _assets/20260621-*/*.pdf -q -o ./md/
# 工作流 2:博主全部 PDF 归档
42md tools download https://blog.example.com --site -o ./blog-pdfs
# 工作流 3:单页课件批量
42md tools download https://course.example.com/week-3 -o ./week-3-pdfs
五、实际演示
download 的演示样本即将上线——届时会展示一次「学术站点 30 份 PDF 批量归档」的真实命令输出。当前可以拿一个你常去的站点跑:
42md tools download <你的目标 URL> --site --site-limit 10
看进度条 + 末尾汇报。
六、常见问题
能下载哪些资源类型?
当前仅支持 PDF(--type pdf,与 webapp 对齐)。其它资源类型(HTML / 图片 / 音视频)待开放。
整站发现是怎么工作的?
加 --site 后会同时尝试四种发现方式,命中即用:
llms.txt—— 站点自带的 AI 友好索引RSS—— 文章 / 资源订阅源Sitemap.xml—— SEO 通用站点索引- 站内链接图 —— 兜底,遍历站内可达页面
发现的页面集合按 --site-limit 截断后,逐个再扫资源链接 → 并发下载。
下载半截被 Ctrl+C 怎么办?
不会留下半截文件。每条下载走「tmp + rename」,进程中断 / 网络断的 .tmp 文件会被 Drop guard 自动清理,下次重跑相当于全新开始。
同名文件会覆盖吗?
不会。本进程内路径 claim 机制 + 磁盘探测,同名文件自动追加 _1 / _2 后缀。
消耗什么配额?
消耗「网页获取」额度(不是 AI 生成额度)。单次 cap:Free 套餐 42 条 / Pro 和 Pro+ 套餐各 420 条。
webapp 端有吗?
当前仅 CLI 提供。webapp 端整站资源下载能力随产品演进逐步开放。
七、立即体验
# 安装或升级
curl -fsSL https://42md.cc/mac | bash
# 试一下
42md tools download https://your-target.com --site --site-limit 10
系列回顾
- 第(1)篇:总述
- 第(2)篇:版式优化 lint
- 第(3)篇:AI 翻译 translate
- 第(4)篇:AI 优化 improve
- 第(5)篇:md2pdf Markdown 转 PDF
- 第(6)篇:md2docx Markdown 转 Word
- 第(7)篇:md2epub Markdown 转 EPUB
- 第(8)篇:md2html + md2wechat 双形态 HTML
- 第(9)篇:download 整站资源批量下载(本篇)
- 第(10)篇:screenshot 网页全页截图
42md — 你的 AI 知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。
活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。