42md-bot 说明

User-Agent: 42md-bot/<version> (+https://42md.cc/bot)

用途

当 42md 用户使用「网页获取（单篇 / 整站 / PDF 批量）」等功能时，平台会以 42md-bot 身份代用户发起 HTTP 请求获取目标页面内容，转换为 Markdown 后返回给用户。此 User-Agent 是 42md 内容处理工具链的一部分，不进行无差别自动抓取（如搜索引擎索引、大规模数据收集）。

当前访问策略

以下数值与策略反映当前实现，可能随版本演进调整。

按 robots.txt 判定访问：每次访问前我们会拉取目标站点 /robots.txt ，按 User-agent: 42md-bot 段（若存在）或 User-agent: * 段判定。若站点对相应路径配置了 Disallow，我方将不再继续请求该路径
同域名频率限制：单实例对同一域名的请求间隔约 1 秒
用户级并发限制：单个账号同时进行的整站 / PDF 批量任务数约 2，避免集中突发流量
用户主动触发：所有请求由用户在 webapp 或 CLI 中明示提交特定 URL 触发，不进行定时 / 周期性 / 无差别批量收集

如何屏蔽 / 退出

如果您是站点所有者，希望禁止 42md-bot 访问您的站点，请在站点根目录的 /robots.txt 添加以下规则（任选一种）：

# 仅禁止 42md-bot
User-agent: 42md-bot
Disallow: /

# 或：禁止所有 bot（含 42md-bot）
User-agent: *
Disallow: /

如需禁止特定路径：

User-agent: 42md-bot
Disallow: /private
Disallow: /admin

我方对 robots.txt 有短期缓存（当前约 5 分钟），缓存到期后下一次访问会重新拉取并按新规则判定。无需联系我们。

关联条款

抓取行为的用户责任 / 数据使用边界，详见用户条款。

联系方式

如果您是站点所有者，发现 42md-bot 访问异常（如高频率、未按预期处理 robots 规则等），或需要其他访问协调，请通过下列方式联系：

Issue 反馈：cnb.cool/42ailab/meta/42md-meta/-/issues （标题以「[bot]」开头便于路由）
电子邮件：42md [at] 42ailab [dot] ai

更新历史

2026-05-19：初版（issue #976 合规护城河）