如何评价数据价值?

一直想做一个标记系统,因为目前还没掌握文本处理方面的机器学习技术,只能借助标签来做一些过滤、汇总之类的「伪·智能处理」。目前可以想到的一些零碎的点:

主观评价指标

  1. 私密程度。可考虑分成五级:
级别 定义
希望世人知道
希望多数人知道(与少数人有利益冲突,而不愿其知道)
不希望身边人知道
不想人知道
害怕人知道
  1. 内容。
  • 准确性:
级别 定义
模糊想法 / 原始洞见 / 一家之言
经验
规律
  • 完整性:
级别 定义
残缺 / 零星
已能串成线
成体系 / 较完整
  • 一致性。这一条不好评价。和什么冲突呢?是冲突好,还是不冲突好呢?冲突的信息就没有价值了吗?
  1. 意外性。
级别 定义
打卡数据 / 类日志
偶尔出现
极少出现
  1. 主观综合评价
级别 定义
毫无价值 / 残渣
有价值,但还需进一步加工 / 原料
极有价值 / 成品

客观评价指标

  1. 使用频率 / 影响面:
  • 自己掌握的:内容自身的「引用列表」& 自己记录的「查阅日志」。
  • 别人掌握的:如「浏览量」「点赞数 / 喜欢数」……
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容