它适合什么场景
- 研究某领域,把网站的 PDF 论文一次抓全
- 课程站点的 PDF 课件批量下载
- 论文 / 报告 / 白皮书的 supplementary material 一次拉完
目前仅支持 PDF 批量下载。
两种入口
| 入口 | 行为 | 适合 |
|---|---|---|
| webapp 工作台 | 自动下载 PDF + 转 Markdown 入知识素材库 | 想直接喂给知识编译 / AI 二次加工 |
CLI 42md tools download | 仅下载 PDF 文件到本地目录 | 想先收齐原始 PDF 后离线处理 |
CLI 端按「PDF 在哪」选两种模式:
# 场景 A:PDF 链接都挂在你给的那一页上(论文 list / 报告库这类索引页)
# → 单页模式,1 次 HTTP 即可发现全部 PDF 链接
42md tools download https://affective-science.org/publications/ --type pdf -o ./pdfs/
# 场景 B:PDF 散落在站点不同子页里(文档站 / 博客这类需要枚举)
# → 整站模式:先索引发现页面(llms.txt / RSS / sitemap),再逐页扫 PDF 链接
42md tools download https://docs.example.com/ --site --type pdf -o ./pdfs/
# 下载完后想转 Markdown:再跑一遍主命令
42md ./pdfs/*.pdf -o ./md/
用 42md 处理这种格式,能省掉的烦恼
- 不用一份份点击下载:一个网址搞定整站 PDF 收集
- 元数据自动提取:论文标题、作者、年份、DOI 自动写入 Markdown frontmatter(webapp 路径)
- 全部支持的格式见:演示中心
看其他相关
| 类型 | 链接 |
|---|---|
| Url To Markdown | url-to-markdown |
| Web Batch Fetch | web-batch-fetch |
立即体验,把站点上的论文 / 报告一次性收齐。