复习一些数据名词(笔记)

有时候莫名其妙的术语真是妨碍知识普及(比如naive哪里看出能翻译成朴素)。。。书本知识经常复习很有必要(而且应用场景会自己跳出来,把高深的词变得很接地气,也很有槽点)。

时间序列

一阶差分,就是把序列的两个紧邻数据的间隔作为一个新的序列,也就是把13579变成2222。

一阶差分可以把一部分非平稳序列转化到平稳序列,222还真是平稳多了。。。

这就是可以arima的时间序列,总觉得学到了假的。


聚类和离群

"相似"的计算方法是欧式距离或角度距离(余弦),对应前几天随笔写的极坐标也是坐标,所以角度距离和欧式距离完全是一个东西。

"密集"的计算方法是最近的若干个邻近点平均距离的倒数,或给定距离半径内邻近点的数量。基本还是距离。


数值规范(去量纲)

最简单的方法是减平均数(或中位数)再除标准差,思想和差分类似,作用就是把大家凑到差不多的范围。。。。


特征的提取

用白话就是把已经非常相关的多余内容合并,减少列数,压缩的思想(名叫降维,怕了吧,三体看过不)。顺便,小波略有不同,嗯研究一下再写。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容