42md 知识工具大升级(13)scan:扫一遍硬盘,该处理的文件一键揪出来
电脑用久了,几百份演示稿、扫描 PDF、大图散落在各个文件夹,想统一瘦身、转换、归档,第一步「先把它们找齐」就很烦——按文件夹翻、靠扩展名搜,还会把同名的证书私钥、损坏文件一起搜进来。42md 新增 scan:一条命令递归扫一个文件夹,按真正的文件类型和体积筛出你要的文件,自动认出真假、剔除损坏,找到后还能直接交给瘦身 / 体检处理,不用再拼一长串命令。并行扫描、跨平台,免费纯本地。
一、为什么要做 scan
电脑用上几年,文件会散成一片:
- 几百份演示稿、扫描 PDF、大图,分布在「课件」「项目」「下载」十几个文件夹里,想统一瘦身腾空间,光「先把它们找齐」就很费劲。
- 按扩展名搜又不靠谱:
.key既是 Keynote 演示稿,也是网站证书的私钥;一搜全混在一起,还可能把下载到一半的损坏文件也算进去。 - 找齐之后,还得一个个手动喂给下一步处理,或者去拼一长串别人看不懂的命令。
这些都是「批量处理」绕不开的第一步。42md tools scan 把它做成一条命令:扫一个文件夹,按你要的类型和体积筛出文件,认准真的、剔掉假的和坏的,找到就能直接交给 42md 处理。
二、scan 的特色
- 按「真正的类型」筛,不只看扩展名——指定
--type keynote / pdf / image / office / ebook等,scan 看的是文件的真实身份。同名的证书私钥、改了后缀的假文件、下载坏掉的半成品,都会被自动认出并剔除,不会混进来误处理。 - 按体积聚焦大头——
--min-size 50MB只挑大文件。瘦身、归档这类需求,价值几乎都集中在少数大文件上,先把它们揪出来就好。 - 找到就直接处理——加
--exec compress(或--exec inspect),scan 找完就把文件并发交给对应工具,一步到位,不用自己拼管道。坏文件出错也只影响它自己,不会拖垮整批。 - 快——并行扫描,多个文件夹同时翻,几千个文件的大目录也很快出结果。
- 默认只给摘要,不刷屏——哪怕扫出几万个文件,终端也只显示总数、总体积和体积排前的十几个,一屏看完要点。想看完整清单:贴进文档用
--format md,导进表格用--format csv,喂给脚本 / AI 用--format json(喂程序首选)。 - 跨平台、免费、纯本地——Mac / Windows / Linux 都能用(
~写法自动适配),文件不出本机,不消耗 AI 配额。
三、怎么用 · Webapp
scan 是命令行能力,网页端入口随产品演进逐步开放。网页用户当前可以在「我的知识库」里处理单个文件,整机 / 整文件夹的批量发现与处理走命令行。
四、怎么用 · CLI
先来个简单的:扫当前目录,看有哪些大演示稿。
# 扫「文稿」文件夹里 ≥50MB 的真实 Keynote
42md tools scan ~/Documents --type keynote --min-size 50MB
找到后直接处理(推荐,省去拼命令):
# 找齐并发瘦身,一步到位
42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress
# 也可以先体检、估算能省多少
42md tools scan ~/Documents --type keynote --min-size 50MB --exec inspect
换类型、换输出格式:
# 找大 PDF,输出成 Markdown 清单贴进笔记
42md tools scan ~/Documents --type pdf --min-size 20MB --format md
# 找图片,导成表格
42md tools scan ~/Pictures --type image --min-size 5MB --format csv
两种衔接方式:--exec 与管道
--exec 是 42md 内置的便捷写法,自动并发、坏文件不拖累整批,省心——但它只认 compress / inspect 两个动作:
42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress
如果想把找到的文件喂给别的命令,用 -0:它把每个文件路径以空字符分隔输出(能正确处理带空格、中文的路径),再用 xargs 接任意命令——这是命令行里通用的拼接方式:
# 与上面 --exec compress 等价,但走通用管道;-P8 是并发数
42md tools scan ~/Documents --type keynote --min-size 50MB -0 \
| xargs -0 -n1 -P8 42md tools compress
一句话:自己人处理就用 --exec(简洁),要接别的工具就用 -0 | xargs(通用)。 两种方式 scan 都已先帮你把假文件、坏文件剔除干净。
小技巧:
- Windows 上把
~/Documents换成~\Documents或%USERPROFILE%\Documents。 - 不加
--type就列出所有受支持的文件;--min-size不写默认不限大小(批量瘦身建议带上,聚焦大文件)。
五、实际演示:把整台 Mac 的演示稿瘦一遍
一次真实的整机瘦身:先用 scan 把硬盘里上千份演示稿按体积揪出来,再直接交给瘦身。
$ 42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress
交给 compress 处理 216 个文件(并发 10)…
✓ 已瘦身 203.0 MB → 36.1 MB(重编码 123 张图,视频原样保留):直播课件_compressed.key
✓ 已瘦身 282.0 MB → 26.0 MB(重编码 140 张图,视频原样保留):情绪课ch08_compressed.key
…
完成:成功 216 / 失败 0
这台 Mac 上散落的演示稿,能压的一次性压完,原本几十 GB 压到不到一半,腾出大片硬盘空间。整个过程里,混在 .key 里的网站证书私钥、几个下载损坏的文件,都被 scan 自动认出、跳过,没有误处理。
瘦身只动以无损格式塞进去的大图,演示和阅读观感基本一致;视频原样保留;瘦身产物另存为新文件,原件不动。
瘦身后归档:把原件挪到移动硬盘
瘦身产物是新文件(带 _compressed 后缀),原件还在原处。确认新文件都能正常打开后,可以把原件挪到移动硬盘归档,把本机空间彻底腾空。
稳妥的做法是「先复制、确认、再删」:用访达把原件拖到移动硬盘,确认拷贝完整、能打开,再删掉本机原件;命令行进阶可以用 rsync 保留目录结构复制过去,核对无误后再删原件。
移动 / 删除不可逆,动手前务必确认三件事:瘦身产物都已生成且能打开、移动硬盘已挂好、空间够用。
六、常见问题
scan 会改我的文件吗?
scan 本身只是「找文件、列清单」,不改任何东西。只有你加了 --exec compress 这类动作,才会调用对应工具去处理——而瘦身也是另存新文件、不动原件。
为什么按扩展名搜会出问题,scan 不会?
.key、.pdf 这些后缀可能名不副实(比如 .key 其实是网站证书私钥,或文件下载损坏)。scan 会看文件的真实身份,自动认出真假、剔除损坏,只把对的文件交给你或下一步处理。
支持哪些类型?
keynote、pdf、image、audio、office(Word/Excel/PPT 等)、ebook(EPUB 等)、markdown、web。可以一次指定多个,用逗号分隔。
Windows、Linux 能用吗?
能。路径写法自动适配,~ 也会自己展开(Windows 上也可用 %USERPROFILE%)。系统应用数据、回收站等目录会自动跳过。
清单能给别的程序用吗?
可以。--format json 输出结构化清单,适合喂给脚本或 AI;--format csv 导进表格;--format md 贴进文档。
七、立即体验
# 安装 / 更新
curl -fsSL https://42md.cc/mac | bash
# 扫一个文件夹,找齐就直接瘦身
42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress
系列回顾
- 第(1)篇:知识工具总述
- 第(2)篇:版式优化 lint
- 第(3)篇:AI 翻译 translate
- 第(4)篇:AI 优化 improve
- 第(5)篇:md2pdf 专业级 PDF
- 第(6)篇:md2docx Markdown 转 Word
- 第(7)篇:md2epub Markdown 转 EPUB
- 第(8)篇:md2html + md2wechat 双形态 HTML
- 第(9)篇:download 整站资源批量下载
- 第(10)篇:screenshot 网页全页截图
- 第(11)篇:合并与拆分 merge / split
- 第(12)篇:inspect 与 compress 大文件瘦身
- 第(13)篇:scan 目录文件发现(本篇)
42md — 你的知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。
活水 AI 实验室(42ailab) — 探索智能边界的 AI 创新实验室,以认知科学为基石,推动 AI 与人类智能的深度融合,真正理解并增强智能 —— 碳基的,也是硅基的。