跳转到主内容

整站 PDF 批量下载

站内挂着的 PDF 一次抓完(论文 / 报告 / 白皮书 / 课件)

它适合什么场景

  • 研究某领域,把网站的 PDF 论文一次抓全
  • 课程站点的 PDF 课件批量下载
  • 论文 / 报告 / 白皮书的 supplementary material 一次拉完

目前仅支持 PDF 批量下载。

两种入口

入口行为适合
webapp 工作台自动下载 PDF + 转 Markdown 入知识素材库想直接喂给知识编译 / AI 二次加工
CLI 42md tools download仅下载 PDF 文件到本地目录想先收齐原始 PDF 后离线处理

CLI 端按「PDF 在哪」选两种模式:

# 场景 A:PDF 链接都挂在你给的那一页上(论文 list / 报告库这类索引页)
# → 单页模式,1 次 HTTP 即可发现全部 PDF 链接
42md tools download https://affective-science.org/publications/ --type pdf -o ./pdfs/

# 场景 B:PDF 散落在站点不同子页里(文档站 / 博客这类需要枚举)
# → 整站模式:先索引发现页面(llms.txt / RSS / sitemap),再逐页扫 PDF 链接
42md tools download https://docs.example.com/ --site --type pdf -o ./pdfs/

# 下载完后想转 Markdown:再跑一遍主命令
42md ./pdfs/*.pdf -o ./md/

用 42md 处理这种格式,能省掉的烦恼

  • 不用一份份点击下载:一个网址搞定整站 PDF 收集
  • 元数据自动提取:论文标题、作者、年份、DOI 自动写入 Markdown frontmatter(webapp 路径)
  • 全部支持的格式见演示中心

看其他相关

类型链接
Url To Markdownurl-to-markdown
Web Batch Fetchweb-batch-fetch

立即体验,把站点上的论文 / 报告一次性收齐。