使用R预测网页流量

本案例使用回归模型预测互联网排名前1000的网站在2011年的访问量。数据由 NeilKodner提供。

数据描述

我们的数据有很多特征,在这里,主要考虑五列;

rank site category unique-visitors Page-Views hasad inEnglisth
1 facebook social Networks 88000000 9.1e+11 yes yes
2 youtube Online Vieo 80000000 1.0e+11 yes yes

...

rank 表示网站排名
site 表示站点
category 表示类型
unique-visitors 表示Ip访问量
page-views 表示站点浏览量
isenglish 站点是否是英文
hashad 是否有广告

基本分析

使用图形直观的认识一下数据
作出pageViews 和 uniquevisitors关联的散点图。

library(ggplot2)
top.1000.sites <- read.csv('ML_for_Hackers/05-Regression/data/top_1000_sites.tsv',sep = '\t',stringsAsFactors = F)
ggplot(top.1000.sites,aes(x=PageViews,y=UniqueVisitors))+
  geom_point()
image.png

看上去十分糟糕,数据都集中在一个地方。尺度不适合,可以对数据进行变换。
观察Pageviews的密度图。


变换前

完全不可理会。
尝试观察进行变换后的密度图

ggplot(top.1000.sites,aes(x = log(PageViews))) +
 geom_density()
变换后

耶耶耶,好像非常不错!

作出变换后的散点图。并作出预测曲线。

ggplot(top.1000.sites,aes(x = log(PageViews),y = log(UniqueVisitors))) +
  geom_point() + 
  geom_smooth(method = 'lm',se = F)
变换后的散点图

这样的结果还是不错的,我们可以拟合具体的直线。

建立线性模型

lm.fit <- lm(log(PageViews)~log(UniqueVisitors),data = top.1000.sites)
summary(lm.fit)

Call:
lm(formula = log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites)
Residuals:
Min 1Q Median 3Q Max
-2.1825 -0.7986 -0.0741 0.6467 5.1549
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.83441 0.75201 -3.769 0.000173 ***
log(UniqueVisitors) 1.33628 0.04568 29.251 < 2e-16 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.084 on 998 degrees of freedom
Multiple R-squared: 0.4616, Adjusted R-squared: 0.4611
F-statistic: 855.6 on 1 and 998 DF, p-value: < 2.2e-16

得到的结果 斜率和截距的t检验通过,回归方程的F检验通过,R 0.4616,相关系数有点低。

增加变量个数:

lm.fit- lm(log(PageViews)~HasAdvertising + log(UniqueVisitors)+ InEnglish,
           data = top.1000.sites)

结论

注意对数据的尺度进行变换。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言 最先接触编程的知识是在大学里面,大学里面学了一些基础的知识,c语言,java语言,单片机的汇编语言等;大学毕...
    oceanfive阅读 8,442评论 0 7
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,153评论 2 89
  • 《情人》~玛格丽特•杜拉斯 因为看王小波《沉默的大多数》这本书,王小波的一句话:读过了杜拉斯的《情人》就...
    嘉妈007阅读 3,290评论 0 1
  • 在好友的推荐下,看了这部豆瓣评分历史最高的《肖申克的救赎》。 影片是在瑞德的视角下展开的,安迪被认为杀害了偷情的妻...
    喜猫与你阅读 3,914评论 3 4
  • “下一位。” 信用社橱窗里的中年女储蓄员眼皮都没抬一下,手一直握着鼠标,眼睛扫着面前的电脑屏,机械地准备自己下一个...
    云水禅心ZLM阅读 2,087评论 7 2

友情链接更多精彩内容