42md-bot 说明
User-Agent: 42md-bot/<version> (+https://42md.cc/bot)
用途
当 42md 用户使用「网页获取(单篇 / 整站 / PDF 批量)」等功能时,平台会以 42md-bot 身份代用户发起 HTTP 请求获取目标页面内容,转换为 Markdown 后返回给用户。此 User-Agent 是 42md 内容处理工具链的一部分, 不进行无差别自动抓取(如搜索引擎索引、大规模数据收集)。
当前访问策略
以下数值与策略反映当前实现,可能随版本演进调整。
- 按 robots.txt 判定访问:每次访问前我们会拉取目标站点
/robots.txt,按User-agent: 42md-bot段(若存在)或User-agent: *段判定。若站点对相应路径 配置了Disallow,我方将不再继续请求该路径 - 同域名频率限制:单实例对同一域名的请求间隔约 1 秒
- 用户级并发限制:单个账号同时进行的整站 / PDF 批量 任务数约 2,避免集中突发流量
- 用户主动触发:所有请求由用户在 webapp 或 CLI 中明示 提交特定 URL 触发,不进行定时 / 周期性 / 无差别批量收集
如何屏蔽 / 退出
如果您是站点所有者,希望禁止 42md-bot 访问您的站点,请在站点根目录的 /robots.txt 添加以下规则(任选一种):
# 仅禁止 42md-bot
User-agent: 42md-bot
Disallow: /
# 或:禁止所有 bot(含 42md-bot)
User-agent: *
Disallow: /如需禁止特定路径:
User-agent: 42md-bot
Disallow: /private
Disallow: /admin我方对 robots.txt 有短期缓存(当前约 5 分钟),缓存到期后下一次 访问会重新拉取并按新规则判定。无需联系我们。
关联条款
抓取行为的用户责任 / 数据使用边界,详见 用户条款 。
联系方式
如果您是站点所有者,发现 42md-bot 访问异常(如高频率、未按预期处理 robots 规则等),或需要其他访问协调,请通过下列方式联系:
- Issue 反馈:cnb.cool/42ailab/meta/42md-meta/-/issues (标题以「[bot]」开头便于路由)
- 电子邮件:42md [at] 42ailab [dot] ai
更新历史
- 2026-05-19:初版(issue #976 合规护城河)