有时候莫名其妙的术语真是妨碍知识普及(比如naive哪里看出能翻译成朴素)。。。书本知识经常复习很有必要(而且应用场景会自己跳出来,把高深的词变得很接地气,也很有槽点)。
时间序列
一阶差分,就是把序列的两个紧邻数据的间隔作为一个新的序列,也就是把13579变成2222。
一阶差分可以把一部分非平稳序列转化到平稳序列,222还真是平稳多了。。。
这就是可以arima的时间序列,总觉得学到了假的。
聚类和离群
"相似"的计算方法是欧式距离或角度距离(余弦),对应前几天随笔写的极坐标也是坐标,所以角度距离和欧式距离完全是一个东西。
"密集"的计算方法是最近的若干个邻近点平均距离的倒数,或给定距离半径内邻近点的数量。基本还是距离。
数值规范(去量纲)
最简单的方法是减平均数(或中位数)再除标准差,思想和差分类似,作用就是把大家凑到差不多的范围。。。。
特征的提取
用白话就是把已经非常相关的多余内容合并,减少列数,压缩的思想(名叫降维,怕了吧,三体看过不)。顺便,小波略有不同,嗯研究一下再写。