使用信息熵来确定文本相似度

使用场景 web请求日志

对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。

方法:
针对请求源ip进行聚合, 对聚合结果进行相似度度量
可以使用udaf 也可以使用udf 然后统计样本标准差

首先 计算聚合文本中每条的字符信息熵
使用udf函数计算信息熵的标准差\ 样本标准

计算方差和样本无偏方差区别
一个除以n 一个除以n-1

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容