大数据分析总结

第一章 绪论

数据:网络空间的任何事物。

结构化数据、半结构化数据与无结构数据:后两者是研究的主要内容。

大数据定义:狭义指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,广义上指基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。

数据挖掘是统计模型的构建过程。

人工智能:究重心在机器学习和推理机制。算法的理论性强,追求理论的正确性。

数据挖掘: 强调算法的实用性,不关心理论问题的解决,而是关心实际问题的解决

第二章:数据与处理

数据集的类型:记录数据,图和网络数据,有序数据,多媒体数据。

数据预处理任务:是为了提高数据挖掘效率与质量进行的预处理工作,包括数据清理,数据集成,数据变换,数据规约,数据离散化等。

处理噪声数据的方法:分箱---用临近数据进行光滑,如箱均值,中位数,箱边界;回归---将缺失值通过回归函数进行预测。

处理离群点数据:通过聚类进行检测,数据光滑处理,通过外部手段纠正等,有时根据具体情况不需要处理。

数据集成:合并来自多个数据源的数据。

相关系数:线性相关程度

图片: https://uploader.shimo.im/f/KCTf39hcJLM9It7m.png

卡方检验(相关分析):

图片: https://uploader.shimo.im/f/TboWeCcY5fgfg9Xa.png

数据变换:数据的光滑、聚集、泛5化(离散化与分层)、规范化、特征构造等。

第三章 链接分析

PageRank算法(网页的重要程度仅由指向它的网页决定):

转移矩阵是个n*n列的方阵,用来描述随机冲浪者的下一步访问行为

• 如果网页j有k条出链,那么对每条出边链向的网页i,m_ij=1/k

• 其他网页的i对应的矩阵元素mij=0

随机冲浪的过程:

基本算法思想

随机冲浪者位置的概率分布可以用一个n维列向量表示,其中分量j代表位于网页j的概率。该概率即PageRank值,初始n个网页的初始概率都为V_0。

Web的转移矩阵为M。第一步之后,冲浪者的概率分布向量是Mv0,第二步为M^2v0,i步后为M^iv_0.

收敛前提条件:1.图为强连通图 2.不存在终止节点

算法终止条件:M^(i+1)v_0 = M^iv_0 ----迭代前后结果差异足够小,一般50~75次即可收敛

算法优化

处理终止点问题:

将其行列从图中剔除,若产生新的终止点,则迭代删除,直至无终止点。

修改随机冲浪者在Web上的冲浪过程

终止点的PageRank值:

对删除终止点之后的图G,计算出各节点的PageRank值

恢复到原图,但仍然保留G中各节点的PageRank值

对不在G中的终止点及伪终止点:

若所有指向它的网页PageRank都已算出,则它的PageRank=∑这些网页的PageRank/出链数,否则等待其他终止点网页计算PageRank。即按照终止点删除顺序的逆序进行节点的PageRank计算。

采集器陷阱及“抽税法”:采集器陷阱指的是一系列节点,它们可能互相链接,但是却不会链接集合以外的节点,即没有出链指向集合之外。当采集器(爬虫程序)一旦进入采集器陷阱,将无法跳出。

solution:抽税机制--进行随机跳转:允许随机冲浪者以一个较小的概率随机跳转到一个随机网页,而不一定沿着当前网页的出链前进。

图片: https://uploader.shimo.im/f/jHWyyeqxeqkCT1f5.png

其中,β是选定的常数,通常取值在0.8到0.9之间。e是一个所有分量都为1、维数为n的向量,n是Web图中所有节点的数目。

PageRank优点:由于M的稀疏性计算快速,且避免了磁盘的大量使用。可以将稀疏矩阵压缩表示(方法如下,转移矩阵是特殊的稀疏矩阵)

图片: https://uploader.shimo.im/f/ydit1i6wJrgo4lx4.png

图片: https://uploader.shimo.im/f/gjdVDmaSf80NM8bC.png

面向主题的Page Rank

有偏的随机游走模型:识别特定主题的网页集合,作为随机跳转集合的范围,只有该集合中的网页才能共享抽税部分所占的PageRank值。

假定整数集合S由已知属于某个主题的网页,e_s是一个向量,若其分量对应的网页属于S,则该分量置为1,否则为0,面向主题S的PageRank值是图片: https://uploader.shimo.im/f/th4Ni0EDHxkUACgA.png的极限。其中,︱S︱是集合S的大小

链接作弊及应对

人工增加某个特定网页PageRank的方法称为链接作弊,由此得到的信息统称为垃圾

不可达网页(Inaccessible pages),作弊者无法影响的网页,Web中的绝大多数网页

可达网页(Accessible pages),不受作弊者控制,但可以影响的网页

如评论网页,作弊者可以在其上粘贴指向自有网页的链接

自有网页(Own pages),被作弊者完全控制的网页

可能跨越多个域名

垃圾农场:目标是最大化目标网页的PageRank值,技术:在可达网页上尽可能多的构造指向目标网页的链接、构造“链接农场”来形成PageRank值的倍增效应

垃圾农场放大效果计算:令X为所有可达网页为垃圾农场提供的PageRank总量,m为自由网页数量,则目标网页PageRank值y为图片: https://uploader.shimo.im/f/fhCCyQHyzfkF5wtE.png

Solution:

Trust Rank和垃圾质量: 思想是可靠网页不太可能指向垃圾网页。

垃圾质量=(PageRank-TrustRank)/PageRank, 越大越可能是垃圾网页,负数或小正数可能是正常网页

Timed-PageRank:    PageRank算法+时效性,引入时间函数f(t)∈[0,1], t为距上次更新的时间,表示冲浪者沿所在网页的链接继续冲浪的概率,1-f(t) 为跳转到随机网页的概率。

HITS算法(网页的重要程度由与它关联的所有网页共同决定,包含出链和入链)

权威页(authority):某些网页提供了有关某个主题的信息,因此它们具有非常重要的价值,这些网页被称为权威页  例如:课程主页、汽车制造商的网页等

权威度(a=authority):该网页充当权威页的良好程度,通过累加所有链入网页的导航度来估算当前页的权威度。

导航页(h=hub):链向权威页的网页,它们虽然并不提供有关任何主题的信息,但是却可以给出找到关于该主题的网页的信息,因此它们也具有重要价值  例如:院系门户网页、汽车制造商列表等

导航度:该网页充当导航页的良好程度,通过累加所有链出网页的权威度来估算当前页的导航度

Web链接矩阵L:若有n个网页,那么L就是一个n*n的矩阵,如果网页i到j存在一个链接,则Lij=1,否则Lij=0

导航度 h = λLa ,权威度a = μL^Th ,其中λ和μ是代表归一化因子的常数,两个式子通过迭代进行计算,并将每次结果进行最大分量归一化,直至收敛。

第四章 发现相似项

近邻搜索的应用(寻找相似的集合)

如检测抄袭文档,Web镜像检测

集合的Jaccard相似度图片: https://uploader.shimo.im/f/APHprmWnxO0JYd4k.png  计算时注意包和集合的区分  https://www.cnblogs.com/chenxiangzhen/p/10648503.html  链接为各种距离度量

如果数据存在“分数膨胀“问题,就使用皮尔逊相关系数

如果数据比较密集,变量之间基本都存在共有值,且这些距离数据都是非常重要的,那就使用欧几里得或者曼哈顿距离

如果数据是稀疏的,就使用余弦相似度

TF.IDF---- 词项频率乘以逆文档频率

-是对给定词语在少数文档中反复出现程度的形式化度量,正相关于某词在该篇文档的出现频率 和 该词在其他文档的未出现次数。

图片: https://uploader.shimo.im/f/PUQwGlgfwd4AtNQ5.png

K-shingling 算法 (将文档看成一个字符串,K表示划分粒度,可以是k长的子串,也可以是k个单词 等,将文档都用一个或多个k-Shingle集合表示)

k的选择:5-9.太小会造成文档相似性太高,太大也会造成不准确。

shingle的压缩处理:可以将k长字符串通过哈希映射到定长(如四字节)桶编号,将桶编号作为最终的shingle,文档即被表示成桶编号的集合。

将9-shingles映射到4字节整数进行处理,与直接使用4-shingles来表示文档的区别?

答:从适用范围看,4字节的桶编号范围为[0,2^32-1], 9shingles映射到四字节桶编号能够比较充分地保留较长shingles的差异性,即能够较好地进行长文本相似性对比,而4-shingles更适合短文本的差异性比较。但从存储角度来看,由于桶编号是4字节,单篇文本用第一种方法存储shingles约需要四倍文档大小的存储空间,与4shingles的存储大约相同。

基于词的shingle

最小哈希Minhashing:映射到四个字节的shingle集合约为文档4倍大小,还是很大。当文档数增大时不能直接装入内存。该技术用较小的“签名”表示shingle集合,可以较好地估计集合相似度。

集合构造签名包含大量计算,每次计算是特征矩阵的minhashing过程:– 首先选择行号的一个排列进行行变换,每列的最小哈希值为变换后的1所在行的最小行号。

经过随机行打乱后,两个集合的最小哈希值相等的概率等于这两个集合的Jaccard相似度

最小哈希签名:对于表示集合S的特征矩阵M,随机选择n(几百个)个排列转换用于行排列,则每列对应有各自的n个最小哈希值,每列的这些值作为该列的最小哈希签名向量,这些向量构成了一个n行*M的列数 列的签名矩阵,空间更小。

计算过程:显式的排列转换不适用大规模矩阵,通过哈希函数模拟排列的效果。将行号映射到与行数目大致相等数量的桶中,数量很大且哈希结果冲突不频繁时,可以假设r行放在H(r)位置。这样选择n个哈希函数模拟行排列。

具体算法过程参考ppt,签名向量的相似度一定程度上能反映特征向量的相似度。

局部敏感哈希算法(LSH)或近邻搜索:只关注相似的文档,不用分析所有文档时使用。

算法思路:使用函数f(x,y)判断文档相似度,将哈希矩阵中每一列哈希映射到桶中,对每个桶中文档进行相似判断。进行多次哈希操作,尽可能使只有最相似的列在一个桶,将桶中集合作为候选对进行相似判断。目标是尽可能减小伪正例和伪反例

计算过程:

M划分为b个行条,每个r行

行条中每一列哈希映射到k个桶中(k足够大)

候选列对为至少在一个行条中被映射到同一桶中的列对

调整b和r,获得尽可能多的相似对与尽可能少的非相似对

第五章 频繁模式挖掘、关联和相关性

频繁模式:数据集中频繁出现的模式。

k项集:包含k个项的集合。

项的支持频度(支持度计数或计数),项的相对支持度(支持度/全体事务)

频繁项集:项集支持度满足预定义的最小支持度阈值

图片: https://uploader.shimo.im/f/BkbRUd2ClasT4HEV.png

关联规则挖掘:找出频繁项集(满足最小支持度),产生强关联规则(同时满足最小置信度)

X在D中是闭的:不存在真超项集Y,使Y与X在D中具有相同的支持度计数

闭频繁项集:X是闭的和频繁的

极大频繁项集:X在D中频繁,且不存在超项集Y且Y在D中也是频繁的。称X是极大频繁项集。

图片: https://uploader.shimo.im/f/Hvjc16cxMYQiXlSM.png

频繁项集的挖掘策略:

减少候选集的数量(减小M)(剪枝策略)

减少事务的数量(减小N)(不包含任何k项集的事务在候选k+1时删除)

减少比较的数量(减小NM)

先验性质:频繁项集的所有非空子集也一定频繁,即非频繁项的所有超集都是非频繁的。

Apriori算法(思想):

连接步:通过将Lk与自身连接,产生候选(k+1)项集Ck+1

剪枝:扫描数据库,确定Ck+1中每个项的计数,从而确定Lk+1

当没有频繁项集L或候选项集产生时算法终止。

图片: https://uploader.shimo.im/f/51D61kUzgKcbUJBI.png

图片: https://uploader.shimo.im/f/8IrWuOtOa8kGWhyE.png

图片: https://uploader.shimo.im/f/2JgmCbCQNHExTJRD.png

项的表示优化:

将字符串项哈希转化为整数

三角矩阵:用一位数组存储作为二项集的映射(ij映射为数组下标)

用三元组存储项对

2-项集计数内存优化:无法在内存中对所有项集计数,减少需要计数的2-项集数目,扫描两遍

第一遍扫描:建立项名与整数映射表,建立计数数组,下标为对应的项集映射整数,扫描并计数。

第一遍扫描后:检查项的计数值,确定频繁1项集,将其按照数量m进行1-m编号,在计数数组中将对应值改为编号。

第二遍扫描:用三角矩阵法,空间为2m^2,也可用三元组方法

PCY算法:第一次扫描时,将每个事务产生的二项集散列到不同桶中,并增加桶计数,扫描结束后用bitmap来记录哪个是频繁桶,生成候选项集选择时,留下在频繁桶中的候选集,不在候选集的则删除。

效果: 如果大部分桶都是非频繁的,那么第二次扫描需要计数的项对数目会显著降低。与Apriori相比,项对的表示只能采用三元组法,只减少了2-项集的计算,如果不能减少至少2/3的频繁对,则PCY并不比Apriori算法更好。

多阶段算法:第一遍扫描同SPY,在第二次扫描时用里一个哈希函数建立第二张哈希表,第二张哈希表与第一张桶数目接近,进行第二次扫描时进行哈希的项对{i,j}:i,j都是频繁项,且{i,j}

在第一遍扫描中被哈希到一个频繁桶。两个bitmap。

候选二项集的条件:i和j都是频繁项,{i,j}哈希到第一张表的某个频繁桶中,同时也哈希到第二张表的某个频繁桶中

效果:第二张哈希表的计数值之和,显著低于第一张哈希表的计数值之和,期望第二张表中频繁桶的数目远低于第一张表。

多哈希算法:在第一次扫描时同时使用两个哈希函数和两张独立的哈希表,就得到了多阶段扫描的好处。

风险:使用两张哈希表,但每张表的桶只有PCY的一半。

期望:只要PCY中每个桶的平均计数值远小于支持度阈值,就可以使用两张一半大小的表并期望大部分桶都是非频繁的。

Apriori的进一步改进:

较少比较次数,不再将每个事务与每个候选项集进行比较,而是将事务与存在哈希桶中的候选项进行比较

构造哈希树,可以明显减少比较次数

频繁模式增长:

• 将代表频繁项集的数据压缩到一棵频繁模式树(FP-树),• 建立频繁模式树之后,采用递归的分治方法直接挖掘频繁项集

方法:扫描第一次并计数,由长度为1的频繁模式开始,构造条件模式基并排序。

扫描第二次,将事务也同序排序并构建FP树。。。。。

保持了用于频繁模式挖掘的全部信息,没有打断任何事务中的长模式。简洁性。

垂直数据格式:• 确定k-项集的支持度:对它的任意(k-1)子集求交集

图片: https://uploader.shimo.im/f/BLUHHjw79O81Jm9h.png图片: https://uploader.shimo.im/f/BQCT63MEf4QTWMzg.png

优点:计算快,无需扫描数据库

缺点:不适合大规模TID列表

图片: https://uploader.shimo.im/f/9UfE6ImUgekTg1o5.png

有限扫描算法:只选择购物篮的随机子集看做数据集。

伪正例:再做一次扫描去除。

伪反例:放松支持度阈值减小数量。

SON算法:两次扫描去掉所有伪正例和伪反例。

方法:先分块,计算后将各块的频繁项集合并,第二遍扫描确定最终的频繁项集。

产生关联规则:• 给定频繁项集L,找出L的所有非空子集f(f⊂L) ,且满足规则f→{L–f}满⾜足最小置信度阈值要求

图片: https://uploader.shimo.im/f/Y9jdC9K2v34JBWUf.png

按照该原则可以优化剪枝方法。

候选规则的生成:

合并两条在规则的后件中有共享前缀的规则。连接(CD=>AB,BD=>AC)可以生成候选规则D => ABC,

删除规则D=>ABC,若其子集CD=>AB不不具有高置信度的话

模式评价:

置信度的局限性。各种度量都有其局限性。

度量的对称性与非对称性。

序列数据:

子序列:序列列 <a1 a2 … an>包含于另一个序列列 <b1 b2 … bm> (m ≥ n) ,如果i

存在整数i1 < i2 < … < in 使得 a1 ⊆ bi1 , a2 ⊆ bi2, …, an ⊆ bin

GSP算法

第六章 聚类分析

无监督学习,即无先验类划分。可以单独用来了解数据分布,也可以作为其他数据挖掘任务的与处理过程。

簇的中心:

质心点:平均。

中心点:最有代表性的点。

评价聚类的质量:

相异/相似矩阵 ,距离函数的定义

聚类方法:层次聚类和划分聚类。

层次聚类:–创建给定数据集的层次分解。 形成一系列嵌套的簇,组合成层次树。

划分聚类:– 将数据对象分解为不重叠的子集(簇)。 每个数据对象都在唯一的子集中。

簇间的距离

• 单链:一个簇中的对象与另一个簇中对象距离的最小值

• 全链:一个簇中的对象与另一个簇中对象距离的最⼤大值

• 均值:一个簇中的对象与另一个簇中对象距离的平均值

基于质心的距离或基于中心(主观选择)的距离

簇的半径:簇中成员对象到质心的平均距离

簇的直径:簇中逐对对象的平均距离

层次聚类的优点:不需假设簇的数量,数量由树状图的切割方式得到

缺点:不不同的方法都会遇到下列列的⼀一个或多个问题:

–对噪声和离群点比较敏敏感

–难以处理理不不同规模的簇或者凸形状的簇

–将较大的簇分开了了

凝聚聚类算法:

计算相似矩阵

每个点看做独立的簇

重复以下过程:合并最近的两个类,更新相似矩阵,直到只有一个类

空间复杂度为O(N方),相似度矩阵存储为n方大小,时间复杂度是O(n3)或O(n2logn)相似矩阵进行n步查询。

距离度量方法:

使用单链(MIN)度量方法的优点与缺点:能够处理非椭圆形状的簇,但对噪声和孤立点非常敏感.

使用全链(MAX)度量方法的优点与缺点:对噪声和离群点不敏感,但可能使较大的簇破裂,偏好形成球形的簇

使用均值度量:两个簇的相似度是两个簇间所有点对相似度的平均值。是全链和单链的折中,对噪声和离群点不敏感,但也倾向于形成规则的图形。

birth算法

是一种能够高效处理大数据聚类的基于树的层次聚类算法

线性扩展:通过一次扫描发现较好的簇结构,并且通过少数几次新的扫描提⾼高簇的质量量

缺点:对插⼊入数据顺序是敏敏感的

– 限制了了叶节点的规模,⽣生成的簇不够⾃自然

– 倾向于形成球形的簇

– 只适合于数值数据

K-means聚类

图片: https://uploader.shimo.im/f/wfzsOSiUclE5Jo68.png

质心初始随机化,通常在计算中将簇中点的均值作为下次迭代的质心

评价标准为SSE:每个点到最近簇的距离的平方和

图片: https://uploader.shimo.im/f/polmcnnAT2sG48Wf.png

K-means对初始点选择十分敏感

解决方法:

多运行几次

抽样,使用层次聚类确定初始质心

选择多于K个初始质心,从中选择合适的质心

二分K-means

空簇的处理:

选取一个新的质心点替代,可以是对SSE贡献最大的点,即离质心最远的点,也可以在具有最大SSE的簇中选择点,这可以导致簇的分裂从而降低SSE。

预处理与后处理

预处理:数据规范化,删除离群点

后处理:排除可能代表离群点的小簇,分裂松散的簇与合并较近的簇

二分K-means

首先将所有点作为一个簇,然后将该簇一分为二。之后选择一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。而划分就是上面提到的K-均值的思想了,利用上面的函数k设为2来划分。通过不断重复的操作,直到达到需要的簇数量。

通过测量量不不同k值情况下聚类结果的质量,通常可以分析出正确的k值

K-means的缺点:

当簇有着不不同的 规模  密度  不不规则形状,数据包括离群点时,k-means可能出现问题

BFR算法:

在高位空间进行聚类,思想是假设簇的行状满足以质心为期望的正态分布。

CURE算法(欧式空间):可以处理不同形状的类

点分配的大规模聚类算法,

1.抽取一部分数据在内存中进⾏行行聚类

- 理理论上,可以采⽤任何的内存聚类算法

- 由于簇可以是任意形状,通常采用层次聚类的⽅方法

- CURE算法的特点是能够处理理形状古怪的簇

2.从每个簇中,选择一小部分点作为簇的代表点,选出的点之间尽量量相距较远

3.将每个代表点移动一段距离

- 距离其位置到簇质心的距离乘以一定比例,如20%

- 这一步必须在欧式空间下进行,否则“两点间线段”没有定义

1.当两个簇的某对代表点(分别来自不不同的簇)之间足够接近,就将两个簇合并;

- “接近”的距离可以自行定义;

- 重复该过程,直到没有⾜够接近的簇为止;

2.进行点分配。

费欧式空间的聚类:

基于密度的聚类方法:

两个参数:

Eps:每个对象邻域的半径

MinPts 稠密区域的密度阈值,一个对象邻域内点的最小数量。

图片: https://uploader.shimo.im/f/q0202pMDPnExujTz.png

• 核心点:一个数据点的𝛆-邻域中至少包含MinPts个数据点

• 边界点:一个数据点的𝛆-邻域中包含的数据点的数量量少于MinPts,但是数据点位于某个核心点的𝛆-邻域中

噪声点:既不是核心点,也不是边界点的数据点

直接密度可达:对于核心点q和数据点p,p是从q直接密度可达的,如果p在q的𝛆-邻域内。

密度可达:数据点p是从q(关于𝛆和MinPts)密度可达的,如果存在一个对象链,p1, …, pn, p1 = q, pn = p ,并且对于pi ,pi+1 是从pi 直接密度可达的。图左图片: https://uploader.shimo.im/f/lGSKBE3mWhs0KpQT.png图片: https://uploader.shimo.im/f/ci9RPy1pHKsA51Yi.png

密度相连:数据点p和q是(关于𝛆和MinPts)密度相连的,如果存在一个数据点o,使得p和q都是从o(关于𝛆和MinPts)密度可达的。

依靠与基于密度的簇的定义:一个簇是密度相连的数据点的最大集合

这样的定义可以在有噪声的空间中发现任意形状的簇

DBSCAN算法:

能有效的处理理噪声数据

• 能有效处理理不不同形状和规模的簇

不适合同簇密度不同的数据与高维数据

去除噪声点:

图片: https://uploader.shimo.im/f/n0QbSJeaRoUm6tM5.png

聚类评估的主要任务:估计聚类趋势,确定簇的数量,评价聚类质量。

深度学习两章

图片: https://uploader.shimo.im/f/RmlzM0SAxaY9MDLq.png

                图片: https://uploader.shimo.im/f/mh10DAcZpzoDZfpM.png                                                                                                           

图片: https://uploader.shimo.im/f/6Zgj2WzbI4sBOH4K.png

通用逼近定理:神经网络能以任意精度逼近功的连续函数,即使对于只有一个隐藏层的神经网络,这结论依然成立。

损失函数:如平方误差SSE,交叉熵等

梯度下降图片: https://uploader.shimo.im/f/osA2n3zBKQAOnysH.png,达到局部最小值

可采用自适应学习率,如随迭代次数不断减小学习率

AdaGrad算法  每个参数在各自维度上收敛速度不相同,根据不同收敛情况分别设置学习率,即每次迭代自适应地调整每个参数的学习率。

反向传播算法:利用输出误差估 计层的直接前导,再其利用其估计更前一层误差,逐反传下去直至获得所有其他各层的误差估计,基于此修正权值。

收敛判定:误差最小,一般取误差函数局部梯度零点。

数据集拆分:留出法,k-折交叉验证

CNN三大特点:局部连接,权值共享,池化算法(maxpooling或meanpooling)

通过kernel近似卷积的计算,CNN具有参数更少,收敛更快,能进行区域特征识别的优势。

第二部分

第一章  多元数据的数学表达与统计描述

随机变量与随机(变量)向量 参见随机过程

总体期望与方差,协方差矩阵图片: https://uploader.shimo.im/f/kpJD7RfyajUpNDxe.png

二阶距存在才有方差哦

图片: https://uploader.shimo.im/f/Ld1x5emyudEPvBlT.png

图片: https://uploader.shimo.im/f/P09cCzkiFU4FnCpR.png

相互独立:联合分布等于边缘分布乘积,密度函数同理图片: https://uploader.shimo.im/f/HzyxJ1k35AIZzaPP.png

不相关:相关系数为0

图片: https://uploader.shimo.im/f/M82godBiRR0ZKviY.png

图片: https://uploader.shimo.im/f/XusevrfvKygmFPeD.png

图片: https://uploader.shimo.im/f/TBcHGkI81Co3lrG4.png

图片: https://uploader.shimo.im/f/YIVXbchsa5c3jGot.png

图片: https://uploader.shimo.im/f/TOjsx1QzeTourYKA.png

图片: https://uploader.shimo.im/f/oNQkGn5AoTMbs6iV.png

样本协方差与样本协方阵

图片: https://uploader.shimo.im/f/5inoqF4EFWsRVImD.png

图片: https://uploader.shimo.im/f/h2MxcondUtI5zIjL.png

图片: https://uploader.shimo.im/f/fqwoaX0QoBsQ80mk.png

图片: https://uploader.shimo.im/f/JFAcPMPwMGM8vbM8.png

数据的基本统计描述:

中心趋势度量:均值、中位数、众数、中列数

数据的散布:极差、四分位极差(Q3-Q1)、方差、标准差d

图形化表示:盒图(五数概括)、分位图、直方图、分位数分位数图、散点图

均值与加权平均:对极端值敏感,可以丢弃极端值

数据的相似性与相异性:

相异性矩阵

标称属性比较:

图片: https://uploader.shimo.im/f/6Qlj0cprdT0WqyEn.png

二元相异性:

图片: https://uploader.shimo.im/f/liTCkUEUG84jr4bt.png距离度量:

图片: https://uploader.shimo.im/f/qckc5tbXJa4MY9r0.png

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容