今天的内容参考的是
https://github.com/bzamecnik/neural.cz/blob/master/content/boston-dataset-exploration.md
使用的数据集还是之前提到的3个品种小麦种子数据
需要示例数据的可以直接留言
数据集包括3个品种的小麦种子7个指标,这7个指标分别是
- A 面积
- B 周长
- C紧凑度
- LK 长度
- WK 宽度
- A_coef 偏度系数
- LKG 腹沟长度
- 最后一个变量target是小麦所属种类,分别是0,1,2
第一次使用python直接在电脑上安装anaconda3就好了,我之前录制过一个视频进行介绍,可以参考
第一步启动jupyter lab (我用的是win10系统的电脑)
win+快捷键 输入cmd按回车 打开命令行窗口,然后再命令行输入 jupyter lab
按回车键 jupyter lab在默认浏览器启动
点击Notebook下的python3新建一个窗口
接下来就是输入命令了
导入pandas模块读入数据
import pandas as pd
df = pd.read_csv("D://Rstudio_default_working/kaggle/Seed_Data.csv")
df.head()
去掉最后一列target,因为计算相关系数用不到
df1 = df.drop('target',axis=1)
接下来就是导入seaborn模块绘制相关系数的热图了
import seaborn as sns
sns.heatmap(df.corr())
显示相关系数
这里相关性分析默认的好像是皮尔逊相关性分析
更改其他的方法
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!