跳转到主内容
版本发布

42md 知识工具大升级(13)scan:扫一遍硬盘,该处理的文件一键揪出来

电脑用久了,几百份演示稿、扫描 PDF、大图散落在各个文件夹,想统一瘦身、转换、归档,第一步「先把它们找齐」就很烦——按文件夹翻、靠扩展名搜,还会把同名的证书私钥、损坏文件一起搜进来。42md 新增 scan:一条命令递归扫一个文件夹,按真正的文件类型和体积筛出你要的文件,自动认出真假、剔除损坏,找到后还能直接交给瘦身 / 体检处理,不用再拼一长串命令。并行扫描、跨平台,免费纯本地。

11 分钟
产品发布scan批量处理磁盘空间文件整理

一、为什么要做 scan

电脑用上几年,文件会散成一片:

  • 几百份演示稿、扫描 PDF、大图,分布在「课件」「项目」「下载」十几个文件夹里,想统一瘦身腾空间,光「先把它们找齐」就很费劲。
  • 按扩展名搜又不靠谱:.key 既是 Keynote 演示稿,也是网站证书的私钥;一搜全混在一起,还可能把下载到一半的损坏文件也算进去。
  • 找齐之后,还得一个个手动喂给下一步处理,或者去拼一长串别人看不懂的命令。

这些都是「批量处理」绕不开的第一步。42md tools scan 把它做成一条命令:扫一个文件夹,按你要的类型和体积筛出文件,认准真的、剔掉假的和坏的,找到就能直接交给 42md 处理。

二、scan 的特色

  • 按「真正的类型」筛,不只看扩展名——指定 --type keynote / pdf / image / office / ebook 等,scan 看的是文件的真实身份。同名的证书私钥、改了后缀的假文件、下载坏掉的半成品,都会被自动认出并剔除,不会混进来误处理。
  • 按体积聚焦大头——--min-size 50MB 只挑大文件。瘦身、归档这类需求,价值几乎都集中在少数大文件上,先把它们揪出来就好。
  • 找到就直接处理——加 --exec compress(或 --exec inspect),scan 找完就把文件并发交给对应工具,一步到位,不用自己拼管道。坏文件出错也只影响它自己,不会拖垮整批。
  • ——并行扫描,多个文件夹同时翻,几千个文件的大目录也很快出结果。
  • 默认只给摘要,不刷屏——哪怕扫出几万个文件,终端也只显示总数、总体积和体积排前的十几个,一屏看完要点。想看完整清单:贴进文档用 --format md,导进表格用 --format csv,喂给脚本 / AI 用 --format json(喂程序首选)。
  • 跨平台、免费、纯本地——Mac / Windows / Linux 都能用(~ 写法自动适配),文件不出本机,不消耗 AI 配额。

三、怎么用 · Webapp

scan 是命令行能力,网页端入口随产品演进逐步开放。网页用户当前可以在「我的知识库」里处理单个文件,整机 / 整文件夹的批量发现与处理走命令行。

四、怎么用 · CLI

先来个简单的:扫当前目录,看有哪些大演示稿。

# 扫「文稿」文件夹里 ≥50MB 的真实 Keynote
42md tools scan ~/Documents --type keynote --min-size 50MB

找到后直接处理(推荐,省去拼命令):

# 找齐并发瘦身,一步到位
42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress

# 也可以先体检、估算能省多少
42md tools scan ~/Documents --type keynote --min-size 50MB --exec inspect

换类型、换输出格式:

# 找大 PDF,输出成 Markdown 清单贴进笔记
42md tools scan ~/Documents --type pdf --min-size 20MB --format md

# 找图片,导成表格
42md tools scan ~/Pictures --type image --min-size 5MB --format csv

两种衔接方式:--exec 与管道

--exec 是 42md 内置的便捷写法,自动并发、坏文件不拖累整批,省心——但它只认 compress / inspect 两个动作

42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress

如果想把找到的文件喂给别的命令,用 -0:它把每个文件路径以空字符分隔输出(能正确处理带空格、中文的路径),再用 xargs 接任意命令——这是命令行里通用的拼接方式:

# 与上面 --exec compress 等价,但走通用管道;-P8 是并发数
42md tools scan ~/Documents --type keynote --min-size 50MB -0 \
  | xargs -0 -n1 -P8 42md tools compress

一句话:自己人处理就用 --exec(简洁),要接别的工具就用 -0 | xargs(通用)。 两种方式 scan 都已先帮你把假文件、坏文件剔除干净。

小技巧:

  • Windows 上把 ~/Documents 换成 ~\Documents%USERPROFILE%\Documents
  • 不加 --type 就列出所有受支持的文件;--min-size 不写默认不限大小(批量瘦身建议带上,聚焦大文件)。

五、实际演示:把整台 Mac 的演示稿瘦一遍

一次真实的整机瘦身:先用 scan 把硬盘里上千份演示稿按体积揪出来,再直接交给瘦身。

$ 42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress
交给 compress 处理 216 个文件(并发 10)…
✓ 已瘦身 203.0 MB → 36.1 MB(重编码 123 张图,视频原样保留):直播课件_compressed.key
✓ 已瘦身 282.0 MB → 26.0 MB(重编码 140 张图,视频原样保留):情绪课ch08_compressed.key
…
完成:成功 216 / 失败 0

这台 Mac 上散落的演示稿,能压的一次性压完,原本几十 GB 压到不到一半,腾出大片硬盘空间。整个过程里,混在 .key 里的网站证书私钥、几个下载损坏的文件,都被 scan 自动认出、跳过,没有误处理。

瘦身只动以无损格式塞进去的大图,演示和阅读观感基本一致;视频原样保留;瘦身产物另存为新文件,原件不动。

瘦身后归档:把原件挪到移动硬盘

瘦身产物是新文件(带 _compressed 后缀),原件还在原处。确认新文件都能正常打开后,可以把原件挪到移动硬盘归档,把本机空间彻底腾空。

稳妥的做法是「先复制、确认、再删」:用访达把原件拖到移动硬盘,确认拷贝完整、能打开,再删掉本机原件;命令行进阶可以用 rsync 保留目录结构复制过去,核对无误后再删原件。

移动 / 删除不可逆,动手前务必确认三件事:瘦身产物都已生成且能打开、移动硬盘已挂好、空间够用。

六、常见问题

scan 会改我的文件吗?

scan 本身只是「找文件、列清单」,不改任何东西。只有你加了 --exec compress 这类动作,才会调用对应工具去处理——而瘦身也是另存新文件、不动原件。

为什么按扩展名搜会出问题,scan 不会?

.key.pdf 这些后缀可能名不副实(比如 .key 其实是网站证书私钥,或文件下载损坏)。scan 会看文件的真实身份,自动认出真假、剔除损坏,只把对的文件交给你或下一步处理。

支持哪些类型?

keynote、pdf、image、audio、office(Word/Excel/PPT 等)、ebook(EPUB 等)、markdown、web。可以一次指定多个,用逗号分隔。

Windows、Linux 能用吗?

能。路径写法自动适配,~ 也会自己展开(Windows 上也可用 %USERPROFILE%)。系统应用数据、回收站等目录会自动跳过。

清单能给别的程序用吗?

可以。--format json 输出结构化清单,适合喂给脚本或 AI;--format csv 导进表格;--format md 贴进文档。

七、立即体验

# 安装 / 更新
curl -fsSL https://42md.cc/mac | bash

# 扫一个文件夹,找齐就直接瘦身
42md tools scan ~/Documents --type keynote --min-size 50MB --exec compress

系列回顾


42md — 你的知识快刀。更快地获取、更深地编译、更好地策展、更强的工具。

活水 AI 实验室(42ailab) — 探索智能边界的 AI 创新实验室,以认知科学为基石,推动 AI 与人类智能的深度融合,真正理解并增强智能 —— 碳基的,也是硅基的。

官网https://42md.cc