利用R语言做菜鸟级表格分析

在学习了《R语言实战》第四章及视频课之后，便想利用所学知识对自己的专业进行表格分析。不管行不行吧，先拿个表格练练手再说。

选取的是某天从网上看到的二线城市的综合维度表格。

图片来自网络

这个表格是图片，所以第一步是自己输入为excel表格。

第二步是导入excel文件，我练习了三种办法：

1. 粘贴 read.table（“Clipboard”）

2. 将excel存为csv文件：mydata<-read.table("third.csv",header=FALSE,sep=","）

直接导入excel文件

library(readxl)

setwd("E:\\")

mydata<-read_excel("third.xlsx")

文件导入很顺利，但出现以下问题:

1.计算机无法将所有内容当做数值型参数，即使我特定的选取了某些列，来计算平均值等也无法输出。除非把表头的字符都省掉，比如mydata<-mydata[-1]这个语句，把第一列去掉。

如果重新手动输入，也可以建立一个没有字符的数据框。暂时只用了本轮涨幅、人口规模、所在省人口，人均GDP这四个指标。

输出如下：

这样当然可以计算平均值。

然后试着做了一下线性分析：选取第一列本轮涨幅，和第二列人口规模

线性分析的截距还看不出来，

散点图如下：可见这些二线城市人口规模比较集中，但涨幅有高有低。

再然后练习了一下结对的散点图

>pairs(mydata[,1:4])

>plot

好像也不存在线性关系。第二列的散点图比较垂直，是因为这些二线城市的人口规模多集中在800-1000万的人口之间。

继续努力，这篇迟点改进，比如加入其它指标，或者分析其它关系。所以算是未完待续吧。

如果能指正本小白，为什么导入excel表后，header第一行和第一列都是字符的情况下，如何算出平均数等，那就太好了，感恩~