2026-04 Android 高性能文件扫描引擎：从物理遍历到二级分层架构的演进

1. 背景：性能怪兽与消失的掉帧

在高性能设备（如 Samsung S22，搭载骁龙 8 Gen 1）上，用户对 UI 的流畅度有着极高的预期。然而，在处理包含 4000+ PDF 文件的极端场景时，简单的文件扫描逻辑往往会导致明显的 UI 卡顿甚至 ANR。

经过 Trace 分析，我们发现卡顿并非硬件性能不足，而是典型的主线程负载过重。在 120Hz 刷新率下，每一帧的绘制时间仅为 8.3ms。任何在 UI 链路上执行的磁盘 IO（如 File.exists()）或 $O(n)$ 级别的计算，都是对硬件性能的亵渎。

传统的全盘物理扫描方案在现代 Android 开发中面临三大挑战：

为了兼顾合规性与功能完整性，我们设计了分层扫描模型：

为了彻底消除 4000 个文件带来的卡顿，我们引入了数据成品化（Data Ready）机制。

写入侧（Write Side）：无论是来自 MediaStore 还是物理遍历，原始文件数据在进入数据库（Room）前，必须在后台线程（Dispatchers.IO / Default）完成所有重型加工。
- 执行 file.exists() 校验。
- 计算并格式化 sizeLabel（如 "1.2 MB"）和 dateLabel。
读取侧（Read Side）：UI 观察的 Flow<List<PdfFile>> 仅包含已经格式化好的字符串。

严禁在 Flow.map 或 Flow.combine 等操作符中执行磁盘 IO。通过 .flowOn(Dispatchers.Default) 将数据加工逻辑与 UI 收集逻辑物理隔离。

在 4000+ PDF 文件的模拟环境下：

高性能不是“跑得快”，而是“路不堵”。通过二级扫描策略解决合规与深度问题，通过异步预处理管道解决 UI 性能问题，我们将一个底层的文件操作模块升级为了一个高性能的系统组件。

这种架构设计不仅适用于 PDF 管理，在后续的音频处理（EchoFlow）或 AI 知识库构建中，都可以作为通用的基础设施进行复用。在 Android 碎片化的生态中，这种“分层防御 + 数据成品化”的思路，是实现商用级丝滑体验的唯一路径。