Data Science with R in 4 Weeks - Week 3 - Day2

Regression Analysis

回归分析是非常有用的分析方法,而线性回归又是回归分析中常用的方法。有一个著名的说法,90% 的问题可以用regression analysis解决。

这一节介绍regression analysis,并通过一个例子来说明现行回归分析在实际业务中的应用。

我们使用 http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/

的dataset作为演示的例子。

pima <- read.table(file="pima-indians-diabetes.data", header=F, sep=",")


glucose,bmi, insulin的最小值都是0。这有些异常。bmi不太可能是0。这里的0有可能是缺失的数据,NA。我们需要对这样的数据重新编码,因为0 会被当做一个数值,从而影响最后的结果。

对缺失的数据进行编码

> pima$glucose[pima$glucose==0] <- NA

> pima$bp[pima$bp==0] <- NA

> pima$triceps[pima$triceps==0] <- NA

> pima$insulin[pima$insulin==0] <- NA

> pima$bmi[pima$bmi==0] <- NA

同样的,class应该表示类别,而不是简单的一个数值。我们让class作为categorical data。

pima$class <- factor(pima$class)

重新再检查一下数据

可以做一个简单的linear model :

> test.lm <- lm(bmi ~ triceps, data = pima)


multiple regression


结果显示,npreg,age 与bmi没有显著的线性关系。R square 只有 45.7%。model fit的并不好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一个大三学生的反思 今天早上古代文学课,一个学音乐的和我们一届的学生给我们讲了一节关于宋词词牌名的课,对,...
    蓝色叉烧包阅读 3,613评论 0 0
  • 阳光好的院子里,麻雀扑腾细微而金黄的响声 枯萎的月季花叶子也是好的时光有序 而生活总是把好的一面给人看...
    一抹凌霄阅读 2,939评论 0 1
  • 在Spring Boot集成mybatis框架搭建完成后,进行了一个例子的简单练手。由于在上篇文章中已经讲过了一个...
    Ni火华阅读 4,778评论 0 1
  • 春节假期期间,看了台剧《荼靡》,很喜欢,杨丞琳把两个郑如薇都演得自然流畅,故事充满现实性,引发了我深深的思考。 剧...
    soltsolt阅读 3,101评论 0 1