在学习了《R语言实战》第四章及视频课之后,便想利用所学知识对自己的专业进行表格分析。不管行不行吧,先拿个表格练练手再说。
选取的是某天从网上看到的二线城市的综合维度表格。
这个表格是图片,所以第一步是自己输入为excel表格。
第二步是导入excel文件,我练习了三种办法:
1. 粘贴 read.table(“Clipboard”)
2. 将excel存为csv文件:mydata<-read.table("third.csv",header=FALSE,sep=",")
直接导入excel文件
library(readxl)
setwd("E:\\")
mydata<-read_excel("third.xlsx")
文件导入很顺利,但出现以下问题:
1.计算机无法将所有内容当做数值型参数,即使我特定的选取了某些列,来计算平均值等也无法输出。除非把表头的字符都省掉,比如mydata<-mydata[-1]这个语句,把第一列去掉。
如果重新手动输入,也可以建立一个没有字符的数据框。暂时只用了本轮涨幅、人口规模、所在省人口,人均GDP这四个指标。
输出如下:
这样当然可以计算平均值。
然后试着做了一下线性分析:选取第一列本轮涨幅,和第二列人口规模
线性分析的截距还看不出来,
散点图如下:可见这些二线城市人口规模比较集中,但涨幅有高有低。
再然后练习了一下结对的散点图
>pairs(mydata[,1:4])
>plot
好像也不存在线性关系。第二列的散点图比较垂直,是因为这些二线城市的人口规模多集中在800-1000万的人口之间。
继续努力,这篇迟点改进,比如加入其它指标,或者分析其它关系。所以算是未完待续吧。
如果能指正本小白,为什么导入excel表后,header第一行和第一列都是字符的情况下,如何算出平均数等,那就太好了,感恩~