跳转到主内容

42md-bot 说明

User-Agent: 42md-bot/<version> (+https://42md.cc/bot)

用途

当 42md 用户使用「网页获取(单篇 / 整站 / PDF 批量)」等功能时,平台会以 42md-bot 身份代用户发起 HTTP 请求获取目标页面内容,转换为 Markdown 后返回给用户。此 User-Agent 是 42md 内容处理工具链的一部分, 不进行无差别自动抓取(如搜索引擎索引、大规模数据收集)。

当前访问策略

以下数值与策略反映当前实现,可能随版本演进调整。

  • 按 robots.txt 判定访问:每次访问前我们会拉取目标站点 /robots.txt ,按 User-agent: 42md-bot 段(若存在)或 User-agent: * 段判定。若站点对相应路径 配置了 Disallow,我方将不再继续请求该路径
  • 同域名频率限制:单实例对同一域名的请求间隔约 1
  • 用户级并发限制:单个账号同时进行的整站 / PDF 批量 任务数约 2,避免集中突发流量
  • 用户主动触发:所有请求由用户在 webapp 或 CLI 中明示 提交特定 URL 触发,不进行定时 / 周期性 / 无差别批量收集

如何屏蔽 / 退出

如果您是站点所有者,希望禁止 42md-bot 访问您的站点,请在站点根目录的 /robots.txt 添加以下规则(任选一种):

# 仅禁止 42md-bot
User-agent: 42md-bot
Disallow: /

# 或:禁止所有 bot(含 42md-bot)
User-agent: *
Disallow: /

如需禁止特定路径:

User-agent: 42md-bot
Disallow: /private
Disallow: /admin

我方对 robots.txt 有短期缓存(当前约 5 分钟),缓存到期后下一次 访问会重新拉取并按新规则判定。无需联系我们。

关联条款

抓取行为的用户责任 / 数据使用边界,详见 用户条款

联系方式

如果您是站点所有者,发现 42md-bot 访问异常(如高频率、未按预期处理 robots 规则等),或需要其他访问协调,请通过下列方式联系:

更新历史

  • 2026-05-19:初版(issue #976 合规护城河)