数据质量提升与报告增强策略

目标：统一说明系统如何把抓取到的原始数据，逐步提升为适合检索、分析与 AI 总结的高质量输入
适用范围：雪球、公众号、知识星球、微信聊天记录等多种来源

1. 整体思路

本文说明一条从原始抓取到可用于检索、分析与 AI 总结的处理链路。重点不在于“直接把抓取结果交给模型”，而在于先完成清洗、抽取、筛选、评分、检索增强与上下文组织，再进入总结阶段。

原始数据质量提升，不是单点动作，而是一条流水线：

原始抓取 → 按来源原样入库 → 内容抽取 / 文本清洗 → 质量特征计算 → 统一检索层 → 关键词 / 语义混合增强 → 输入组织 → AI 总结

核心原则：

原始数据保留，不要直接把源数据“改写到只剩一份处理后的版本”
来源侧原始结构与统一检索层分离，每个来源保留自己的真实结构，统一检索层只承接“可搜索、可召回、可比较”的公共视图
不是所有来源都用同一套清洗强度，噪音大的来源要强过滤，信号高的来源可以轻处理
不是所有历史内容都应平等进入模型输入，需要经过评分、分流与检索增强筛选
AI 负责总结，不负责替代前面的数据治理

2. 一页式总览：原始数据是如何变成高质量 AI 输入的

阶段	输入	输出	作用
原始抓取	网页/API/附件/消息	按来源保留的原始记录	保留完整原始上下文，保证可回溯
内容抽取	HTML、图片、PDF、附件	可读文本	把不可直接搜索或总结的内容变成文本
文本清洗	原始正文、抽取文本	清洗后的分析文本	去掉噪音，降低检索污染
特征计算	清洗后文本	质量分层与主题特征	让系统知道哪些内容更值得进入总结主干
统一检索层	各来源的清洗文本	可统一召回的公共视图	统一支持关键词检索、语义检索与混合召回
检索增强	近窗文档、历史文档	主题聚类与历史上下文	解决“同主题不同说法”和“缺历史背景”问题
输入组织	当前窗口样本 + 历史上下文	结构化输入	控制模型看到什么、忽略什么
AI 总结	高质量结构化输入	晨报 / 晚报 / 小时报 / 专题分析	输出最终面向人的可读结论

3. 为什么不能把原始抓取结果直接喂给 AI

如果把原始数据直接丢给模型，通常会出现四类问题：

噪音放大
- 目录、合集门槛、图片占位、短回复、闲聊会和真正信息混在一起
- 模型很容易把“看起来像内容”的噪音也总结进去
主题拆散
- 同一主题在不同来源、不同作者处会有完全不同的表达方式
- 不做聚类和混合召回，模型容易把同一件事写成 3-5 条分散要点
历史缺失
- 当前窗口的信息往往只是“延续、强化、反转”中的某一种
- 没有历史上下文，模型只能做静态描述，很难判断这是新变化还是老逻辑复读
高低信号混淆
- 一条高价值订单验证，和十条低质量闲聊，在模型可分配的注意力里往往是平等的
- 如果不做评分和分流，模型容易被“多但弱”的内容带偏

因此，更稳妥的做法不是“抓到就总结”，而是：

先把原始数据变成高质量输入，再让 AI 做总结。

4. 数据质量提升流水线

4.1 原始抓取与按来源原样入库

先把内容按来源原样进入各自的原始数据层，而不是一开始就合并成单一结构。

目的：

保存完整原始上下文
保留来源特有字段
为后续清洗、重算与回溯提供底稿

4.2 附件与正文抽取

对于不是纯文本的内容，需要先把“可读文本”抽出来：

文章正文抽取
图片 OCR
PDF 文本提取
后续可能的音频转写 / 富文本还原

这一步的作用，是把原始附件变成后续可检索、可评分、可聚类的文本输入。

4.3 文本清洗

清洗不是为了“美化文本”，而是为了去掉会污染检索和总结的噪音，例如：

HTML 标签
付费提示 / 合集门槛
图片占位文本
重复模板句
纯互动式短回复
无信息量寒暄

清洗后的文本，会成为后续检索、评分、主题归类与上下文召回的共同基础。

4.4 质量评分

评分的目的不是给内容做“好坏审判”，而是帮助系统判断：

哪些内容适合进【核心动态】
哪些适合只做补充
哪些应进入低信号样本
哪些不该主导全文

常见评分信号包括：

文本长度
是否包含订单 / 出货 / CapEx / 渗透率 / 目标价 / 客户等硬信息
是否包含观点、分歧、判断、验证
是否有高质量正文
是否只是短回复、图片占位、口语化情绪表达

4.5 低信号样本分流

不是所有被抓到的内容都适合作为“主样本”。

报告链路通常会把样本拆成：

有效样本：默认用于总结主干
低信号样本：默认不进入核心动态，除非其中存在独立信息增量

这样做的作用：

不让闲聊、短回复、目录、合集门槛把 AI 带偏
保留可回看性，但不污染主判断

4.6 主题标记

为了提高归组质量，会先给样本打主题标签，例如：

AI应用/模型更新
光通信/CPO/设备链
存储/CPU链
订单/业绩验证

但标签不是静态真理，需要持续调参。

例如：

如果内容只是 AI 需求向封测 / 测试 / 光模块 / 材料 / 电源等硬件链传导
就不应误归入“AI应用/模型更新”
而应按对应硬件链主题或其他交易线索处理

4.7 统一检索层

在统一检索层中，把不同来源的可检索文本投影成可比较的公共视图，统一支持：

结构化过滤
关键词检索
模糊检索
语义检索
混合召回

4.8 报告前检索增强

报告生成前，不是直接“把当前窗口所有文本扔给模型”，而是做：

读取数据侧已经准备好的检索结果与语义索引
对近窗内容做一次轻量新鲜度补齐检查
当前窗口主题聚类
历史相似上下文召回
结构化输入组织

在这种设计里：

主要的向量化与索引工作尽量前移到数据流水线完成
报告生成前只保留小额度的新鲜度兜底

这样既能保证新鲜度，也不会把主要计算压力压在出报告那一刻。

5. 报告检索增强的核心策略

报告类能力通常优先采用：

时间窗主查询 + 关键词 / 语义混合增强

含义是：

当前窗口主事实仍由时间窗硬过滤保证
关键词检索、语义检索与混合召回 主要用于：
- 同主题不同说法合并
- 历史相似上下文补充
- 主题延续 / 强化 / 分歧 / 转向判断
各来源只是过滤维度，不应该每个来源重新发明一套完全不同的搜索逻辑

6. 参数说明：主题聚类阈值、回看范围与上下文数量到底在做什么

这一部分专门解释报告增强里的关键参数。

6.1 主题聚类阈值（`clusterSimilarityThreshold`）

作用： 决定当前窗口内两条样本是否应合并成同一个主题簇。

直觉理解：

阈值更高 → 更保守，只有非常相似的内容才会合并
阈值更低 → 更激进，不同表达更容易被合并

影响：

太高：同一主题被拆散，报告重复
太低：不同主题被硬并，报告失真

6.2 历史回看范围（`contextLookbackDays`）

作用： 历史上下文回看多远。

直觉理解：

天数更短 → 更贴近近期脉络，背景更“新”
天数更长 → 能补更多历史线索，但也更容易把老信息拉进来

影响：

太短：缺乏主题延续背景
太长：容易引入过时信息或扩大噪音

6.3 历史相似度下限（`contextSimilarityThreshold`）

作用： 决定历史语义召回的相似度下限。

直觉理解：

阈值更高 → 只保留更像当前主题的历史内容
阈值更低 → 更容易召回“边上沾一点”的内容

影响：

太高：历史上下文不够，主题延续判断偏弱
太低：历史背景变脏，容易混入口语化、弱相关内容

6.4 单个主题的历史上下文条数（`maxContextPerCluster`）

作用： 每个主题簇最多保留多少条历史上下文给模型看。

直觉理解：

数量更少 → 输入更干净，更适合小时报
数量更大 → 背景更充分，更适合晨报/晚报/周报

影响：

太少：上下文不够，模型容易只看当前窗口
太多：输入过重，模型容易被历史背景带跑偏

6.5 单篇报告展示的主题数（`maxPromptClusters`）

作用： 一个报告里最多展示多少个主题簇。

直觉理解：

更少 → 聚焦主线
更多 → 覆盖更全，但可能稀释重点

6.6 近窗补齐额度（`embedSyncLimit` / `embedSyncRounds`）

作用： 控制报告生成前，为近窗样本补多少语义索引、补几轮。

直觉理解：

更大 / 更多轮 → 覆盖更全，但更慢
更小 / 更少轮 → 更轻量，但可能来不及把近窗样本补齐

补充说明：

这两个参数更像报告侧的 freshness safety net（新鲜度兜底）
它们的意义不是“每次报告都重做一遍向量索引”，而是对近窗里尚未完成语义索引或文本刚变化的文档做有限补齐
更适合的结构是：数据侧负责大部分向量化处理，报告侧只保留小额度兜底
因此这两个参数更适合被理解为“最后一道新鲜度保险丝”，而不是主工作量控制器

6.7 参数的实际调优思路

一般顺序建议：

先调 样本清洗 / 低信号分流
再调 clusterSimilarityThreshold
再调 contextSimilarityThreshold
最后调 回看范围和上下文条数

因为如果脏样本本身没处理好，后面所有参数都会被污染。

7. 按来源的差异化策略

7.1 雪球（Xueqiu）

判断：噪音中等偏高，必须做筛选与分流。

处理策略：

保留时间窗内的雪球原始数据直查能力
用质量特征层做基础质量分级与主题标记
做低信号样本识别：
- 短回复
- 图片占位 / 查看图片
- 评论区互动 / 交流贴
- 过短且无主题、无硬信息增量的帖子
收紧 AI应用/模型更新 标签的使用边界
在输入组织时拆成：
- 有效样本
- 低信号样本
最近窗口的语义索引优先在数据侧完成：
- 同步轮次尾部做有限补齐
- 报告生成前只保留小额度新鲜度兜底
对小时报的历史上下文继续收紧：
- 更高相似度阈值
- 更少的上下文条数
- 过滤口语化 / 跟风式 / 起哄式上下文

结论：

雪球需要 清洗 + 评分 + 低信号分流 + 更严格的上下文管控

7.2 公众号（WeChat MP）

判断：噪音中等，需要清洗，但比雪球更像长文资料流。

处理策略：

保留时间窗内的公众号原始数据直查能力
用质量特征层记录：
- 清洗后正文
- 质量分层
- 主题标签与主主题
做有效文章识别与低信号文章分流
收紧 AI应用/模型更新 标签的使用边界
主入库批次尾部做有限补齐与语义索引更新
正文补全后如文本明显变长，再做小额度语义索引重补
关键词 / 语义混合召回重点用于：
- 同主题长文归并
- 历史文章补上下文
- 减少同主题长文反复展开

结论：

公众号需要 清洗 + 适度评分 + 低信号分流
重点在“长文归并”，不是像雪球那样强力压回复噪音

7.3 知识星球（ZSXQ）

判断：高信号来源，通常不需要做雪球/公众号那种重清洗与重评分。

处理策略：

保留时间窗内的知识星球原始数据直查能力
自动串联附件抽取、检索刷新与语义索引更新
报告增强时：
- 可直接用窗口样本进入聚类
- 以语义检索和混合召回做历史资料补充
- 以圈子 / 时间 / 主题为主过滤维度
默认不必先引入复杂清洗分数体系
如后续某些圈子噪音高，再做圈子级例外规则

结论：

ZSXQ 默认应走：高信号资料流策略
重点是 聚类 + 背景召回，不是先做重筛噪

7.4 微信聊天记录（WeChat Chat）

判断：高噪音、高隐私、高上下文依赖，必须重清洗 / 重评分 / 重过滤。

处理策略：

不建议把每条聊天消息直接当报告样本
应优先按：
- 会话
- 时间段
- 线程 / 话题块
  聚合后再决定是否进入报告层
必须先做：
- 敏感信息边界定义
- 低信号过滤
- 会话窗口级清洗
- 可检索 / 不可检索分层

结论：

微信聊天记录必须走：强过滤 + 强脱敏 + 强上下文聚合
不能直接复用 ZSXQ 的高信号策略

8. 适用边界与迁移条件

这套流程更适合以下场景：

数据来自多个来源，且噪音水平不一致
需要同时支持检索、分析与时间窗总结
当前窗口之外，历史上下文也会影响结论判断
希望在保留原始数据可回溯性的前提下，提高 AI 输出稳定性

如果要迁移到其他场景，建议优先确认以下前提：

是否保留了按来源存放的原始数据
是否能区分高信号样本与低信号样本
是否具备统一检索层，而不是各来源各自为战
是否具备历史上下文召回能力
是否允许按来源设计差异化策略，而不是一刀切复用同一套规则

如果这些前提尚不成立，应先补数据治理和检索层，再讨论总结模型的输出质量。

9. 真实案例：原始抓取数据如何变成可总结输入

下面两个案例用于说明这套方法不是抽象概念，而是可以落到真实处理链路中的。

9.1 案例一：雪球小时报（2026-05-11 20:00-21:00）

这个窗口里，原始抓取到的内容并不天然“适合总结”。里面同时混着：

先进封测设备交期拉长的高质量产业信息
关于光通信估值的观点型讨论
汽车销量与新能源渗透率的数据型讨论
多条短回复、闲聊、图片占位、口语化感想

如果把这些原始帖子直接喂给模型，风险是：

模型会把闲聊也当成“新增动态”
同一主题会被拆散
历史背景会被弱相关口水话污染

处理方式如下：

原始帖子先进入雪球原始数据层
计算质量分层与主题标签
执行低信号样本分流
数据侧优先完成检索刷新与语义索引补齐
报告前只做轻量新鲜度检查
对当前窗口样本做主题聚类
对每个主题簇只召回少量高相关历史上下文
再把“有效样本 + 历史上下文 + 低信号样本”分层组织成模型输入

该窗口在调参后，实际效果是：

原始样本仍全部保留
但模型输入中已拆成：
- 有效样本：3
- 低信号样本：6
口语化历史上下文（如“笑死”“抢不到”“世界和平”等）被过滤出主背景
最终报告聚焦成 3 条主线：
- 先进封测 / 测试设备瓶颈
- 光链估值分歧
- 汽车总量偏弱但新能源渗透率继续走高

这个案例说明：

不是原始数据不够，而是原始数据里“强信号”和“弱信号”混在一起
经过分流、聚类和上下文收口后，模型才能稳定聚焦真正有价值的变化

9.2 案例二：公众号小时报（2026-05-11 20:00-21:00）

公众号的原始数据问题和雪球不同。
它不是回复噪音多，而是经常夹带：

合集门槛
付费提示
目录式文字
标题党或信息密度不高的短文

如果直接把这些文章原文丢给模型，常见后果是：

模型把合集说明、目录提示也总结进去
多篇同主题长文被重复展开
长文里真正重要的订单、景气、验证线索没有被压缩成结构化主线

处理方式如下：

原始文章先进入公众号原始数据层
做正文清洗，得到可用于分析的清洗文本
计算质量分层与主题标签
识别有效文章与低信号文章
主入库批次尾部优先完成检索刷新与语义索引补齐
如果后续正文补全让文本明显变长，再做小额度语义索引重补
报告前只做轻量新鲜度检查
对同主题长文做聚类与历史上下文召回
再把结构化样本交给模型总结

该窗口在实际演练中，表现为：

原始文章数：5
可用文章数：4
低信号文章数：1
最终主线收敛为：
- 存储重估
- 光互联 / 器件 / 连接件景气验证
- SpaceX 硬件链映射
- 上游硅片与材料盈利传导

这个案例说明：

公众号的重点不是“压短回复噪音”
而是“把长文里的有效信息提纯、归并、去重复”

9.3 从案例里可以提炼出的通用经验

无论是雪球还是公众号，真正决定总结质量的，不是“模型聪不聪明”，而是：

是否保留原始数据以便回溯
是否先做清洗和特征计算
是否把低信号样本从主样本里分流出来
是否给模型补了正确、干净、不过量的历史上下文
是否按主题组织输入，而不是把所有文本平铺塞给模型

10. 常见失败模式

这一节专门总结：为什么一套“看起来已经抓到数据”的系统，最后仍然会产出低质量总结。

10.1 直接把原始数据扔给模型

最常见，也最致命。

表现：

模型把目录、付费提示、短回复、图片占位也写进摘要
主线不清楚，噪音和正文混在一起
相同主题被重复写好几次

本质问题：

不是模型不会总结，而是输入本身没有经过治理

10.2 只有清洗，没有分流

有些系统会做基础清洗，但还是把所有内容一股脑交给模型。

表现：

看起来文本已经“干净”了
但低价值样本仍然占据大量输入篇幅
AI 被大量弱信号内容带偏

本质问题：

清洗解决的是“脏文本”
分流解决的是“弱信号样本”
这两件事不能互相替代

10.3 只有评分，没有主题归并

给每条内容打了高低分，但没有做聚类与主题合并。

表现：

高分内容很多，但它们可能其实都在说同一件事
报告看起来“信息丰富”，实际是在重复不同措辞的同一主题

本质问题：

评分只能帮助排序
不能解决“同主题不同说法”这个问题

10.4 历史上下文太少

为了追求输入简洁，把历史背景压得太薄。

表现：

报告只会写“今天发生了什么”
很难判断这是新变化、旧逻辑延续，还是对旧观点的修正

本质问题：

当前窗口信息本身往往是不完整的
没有历史上下文，就很难做“变化判断”

10.5 历史上下文太多或太脏

另一个极端，是拼命给模型补背景。

表现：

历史材料淹没当前窗口事实
小时报写得像长文复盘
甚至把旧信息当作当前新增动态

本质问题：

历史上下文不是越多越好
历史上下文必须控制：相似度、数量、时间范围、语气质量

10.6 标签体系过宽，导致主题误归类

典型例子就是：

只要出现“AI”字样，就都被打进“AI应用/模型更新”
结果封测、测试、光模块、材料、电源这些硬件链内容也被归错类

表现：

主题章节看起来完整，实际上归类混乱
读者会误以为“应用侧有新增”，但实际是硬件链景气传导

本质问题：

标签是辅助系统，不是真理
如果标签边界太宽，反而会污染报告结构

10.7 参数调优顺序反了

很多时候团队一上来就调主题聚类、回看范围和历史上下文参数，但前面的数据治理还没稳定。

表现：

参数越调越多
输出还是不稳定
最后很难判断问题到底出在噪音、评分、聚类还是历史上下文

更合理的顺序是：

先稳住清洗
再稳住低信号分流
再调标签边界
再调主题聚类阈值
最后调回看范围和历史上下文

10.8 把所有来源当成同一种数据

这也是常见错误。

表现：

用同一套规则处理雪球、公众号、知识星球、聊天记录
结果不是过清洗，就是不过滤

本质问题：

雪球更像碎片化交易流
公众号更像长文资料流
知识星球更像高信号研报流
微信聊天记录更像高噪音上下文流

统一框架是对的，但不同来源的策略必须分层。

11. 推荐落地顺序

如果把这套方法迁移到更多场景，建议顺序是：

先从噪音中等、业务价值高的来源开始
再把数据侧向量化处理与报告侧兜底分层清楚
然后把同样的方法复用到高信号来源
最后再处理高噪音、高隐私、高上下文依赖的聊天类数据

原因：

中等噪音来源更容易体现清洗、分流、聚类、检索增强的价值
在来源数量扩展之前，先把“数据侧主做、报告侧兜底”的职责边界收清楚，整体会更稳
聊天类数据的风险与设计边界最多，应最后做

12. 一句话版结论

雪球：要清洗、要评分、要低信号分流、还要更严格的上下文管控
公众号：要清洗、适度评分、偏长文归并
知识星球：默认高信号，不必重清洗，重点做聚类和背景召回
微信聊天记录：高噪音高隐私，必须重过滤、重聚合、重边界控制