统计数据分析的原理
大规模网页排名算法:pagerank
网页排名是网络搜索引擎的核心
PageRanks是用于测评一个网页的“重要性”或“影响力”的方法
决定因素:
* 该网页的导入链接数
* 这些导入链接的重要性
* 有向图
* 邻接矩阵
* 超链接矩阵(hyperlink matrix)
* 矩阵的特征向量和特征值
* 如何求解矩阵的最大特征向量
数据科学的数学基础
矩阵和线性代数(矩阵是描述线性代数的参数)
矩阵的运算:
矩阵围绕向量的加法和乘法展开的
向量是有序的数字列表
关系代数(抽象的查询语言)
概率论
统计(概率论与数理统计)
概览
统计:设计
统计分析方法
统计学、概率论和数理统计之间的区别和联系
微积分
机器学习基础(machine learning foundation)
统计建模:线性回归模型
c.f.机器学习模型
场景确定
[1] 建模目的预测值和真实值之间的差距越小越好
定义损失函数
特征提取
决定模型形式和参数
模型评估
[1] 我好柔弱啊,表格还是不会设置啊
实践:用python来进行线性回归模型的实现
使用Numpy,生成x和y
使用pandas,由x和y 生成dataframe
使用matplotlib,将数据可视化
保存数据为csv格式
使用pandas读取训练数据
使用scikit-learn,训练模型
计算MSR和R2,评估模型
使用matplotlib,将模型结果可视化
将互联网作为有向图,并用邻接矩阵表示
转为超链接矩阵
求该超链接矩阵的最大特征向量
求得的特征向量值就是对应网页的PageRank值
算法模式总结
幂迭代法:乘到某一个值是会有收敛(稳定不变),此时我们叫这个稳定不变的值,叫矩阵的最大的特征向量。
如何求矩阵的最大特征向量?
[2] 矩阵的重要应用
[1] 数学的奇妙:将PR问题转换成了求解矩阵的特征向量问题
定理:超链接矩阵H的最大特征向量即为该矩阵的PageRank 值
所有元素非负
每个元素的总和为1
又名随机矩阵,马尔可夫矩阵
Def:邻接矩阵中的元素除以对应节点的出度
超链接矩阵
尝试计算 网页的PageRank的值
#Supplement: