跳转到主内容
版本发布

42md 网页获取大升级:一个链接,抓下整站博客和实验室全部论文

想存档 Paul Graham 全部文章?一个链接,6 分钟,219 篇自动转为 Markdown。想批量下载某个实验室的论文 PDF?同样一个链接搞定。42md 网页获取能力大幅升级。

6 分钟
功能发布网页获取知识获取批量处理

想读完一位博主的全部文章,却要一篇一篇复制粘贴。想拿到某位教授实验室的全部论文 PDF,却要逐个点击下载。

42md 网页获取能力大幅升级——Pro/Pro+ 用户现在可以输入一个网址,整站文章或页面上的全部 PDF,批量获取并转为 Markdown。

三种获取模式

打开 42md.cc 工作台,输入 URL 后可以选择三种模式:

新建获取 — 选择操作模式

模式说明适用用户
网页获取(单篇)提取单个网页正文,去除广告噪音所有用户
网页获取(整站)输入博客或文档站首页,自动发现全部页面并批量转换所有用户
网页获取(PDF)扫描页面中的 PDF 链接,批量下载并转换所有用户

三种模式共用同一份「网页获取」配额,按日重置,按实际成功篇数计算。

案例一:6 分钟拿下 Paul Graham 全部 219 篇文章

Paul Graham 是 Y Combinator 创始人,他的博客 https://paulgraham.com 上有大量关于创业、写作、思考的经典文章。

操作很简单:输入网址,选择「网页获取(整站)」,点击开始。

整站获取进行中

42md 会自动探测站点索引——依次尝试 RSS/Atom feed、sitemap.xml、llms.txt 等,找到页面列表后批量抓取。整个过程大约 6 分钟(17:32 创建,17:38 完成),219 篇文章全部转为 Markdown,一篇没丢。

219 篇全部完成

这些文章会自动进入知识素材列表,可以直接用于知识编译和策展。

案例二:批量获取巴瑞特教授实验室的论文

Lisa Feldman Barrett 教授的情感科学实验室发表了大量论文,页面上列出了所有论文的 PDF 链接。

输入网址,选择「网页获取(PDF)」,42md 会扫描页面中的 PDF 文件,批量下载并转为 Markdown。

PDF 批量获取

这个页面列出了 300 多篇论文 PDF,42md 自动发现并逐个下载转换。单次任务最多处理前 50 篇 PDF,如需获取更多,可以手动复制剩余链接分批提交。

对于学术研究者,这意味着可以快速建立某位学者、某个实验室、某个主题的论文知识库——获取素材后,配合知识编译自动提炼人物卡、术语卡、新知卡等知识卡片。

素材分组查看

获取到几百篇文章后,怎么管理?

同步上线了素材和卡片的分组视图。知识素材和知识卡片现在支持按获取任务分组查看——来自 Paul Graham 的 219 篇文章会归在一组,来自巴瑞特实验室的论文归在另一组,不再混成一团。

素材分组视图

三档配额(按日重置)

网页获取(单篇 / 整站 / PDF 批量)共用同一份配额,按实际成功篇数扣除(一个网页、一个 PDF 文件各计为一篇),每日 0 点重置:

套餐网页获取(单篇 / 整站 / PDF 批量)价格
Free42 篇/日
Pro1,000 篇/日¥199/年
Pro+4,200 篇/日¥499/年

整站获取和 PDF 批量获取是异步处理的,耗时会比单篇获取长。创建任务之后无需等待,过几分钟再回来查看结果即可。

其他限制:整站获取默认上限 500 页,PDF 批量获取单次上限 50 篇,同域名请求间隔 1 秒,单个文件下载上限 100MB。

升级使用

# 安装/升级 CLI
curl -fsSL https://42md.cc/mac | bash

# 整站获取(CLI,Pro/Pro+ 专属)
42md https://paulgraham.com --site

# 批量获取页面上的 PDF(Pro/Pro+ 专属)
42md https://affective-science.org/publications/ --assets pdf

网页版直接访问 42md.cc,输入 URL 选择模式即可。

升级 Pro / Pro+ →


42md — 你的 AI 知识编译器。更快的知识获取,更深的知识编译,更好的知识策展。

活水 AI 实验室(42ailab) — 源自 2023 年成立的活水智能团队,致力于以认知科学为基石,推动人工智能与人类智能的深度融合与科学创新。

官网https://42md.cc