在家没事大家一起来分析nCov2019的数据吧

最近国内的朋友们都在家没事无聊,不如自己download最新病情数据做点简单的新型冠状病毒的数据分析吧!

在这里首先致谢Guangchuang Yu实现了一个R包可以自动下载拿到当前最新的病情数据(https://github.com/GuangchuangYu),数据应该来自腾讯。所以,一旦拿到每天每省每市的感染(confirmed), 疑似(suspect), 死亡(dead), 治愈(heal) 的人数,我们可以尝试用数据回答几个简单有趣的问题。我个人觉得我下面的一些分析适合中小学生的数学和编程能力。感兴趣的不妨试一试?!

根据目前每日confimed确诊染病人数,可否预测明天的染病人数?
大家拿到数据以后,可以尝试做几个regression analysis。每日确诊的病人数量符合线性分布,指数分布,多项式分布,还是什么分布呢?在此我先给出几个简单的尝试,抛砖引玉。

从下面的两个图中,很显然每日confirmed的染病人数不服从线性方程、也不服从指数方程。

左:线性; 右:指数

继续尝试,我们发现好像每日confirmed的染病人数服从polynomial (3次方)或者generalized additive model.

左:polynomial; 右:generalized additive model

所以,按照polynomial(3次方)的拟合, 我们得到的model如下。你可以看到,我们的model的R-squared is 0.9987, p-value is very significant. 有了方程,我们便可以根据Coefficients预测明天的可能会感染的人数。你要不要来试一试?

Call:
lm(formula = confirm ~ poly(date_numeric, 3), data = num_day)

Coefficients:
           (Intercept)  poly(date_numeric, 3)1  poly(date_numeric, 3)2  
                  3815                   20365                   11613  
poly(date_numeric, 3)3  
                  3146

Residuals:
    Min      1Q  Median      3Q     Max 
-448.01  -79.27   -2.68  144.17  257.33 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             3814.71      44.99   84.80  < 2e-16 ***
poly(date_numeric, 3)1 20364.75     206.15   98.78  < 2e-16 ***
poly(date_numeric, 3)2 11612.94     206.15   56.33  < 2e-16 ***
poly(date_numeric, 3)3  3146.24     206.15   15.26 2.35e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 206.2 on 17 degrees of freedom
Multiple R-squared:  0.9987,    Adjusted R-squared:  0.9985 
F-statistic:  4388 on 3 and 17 DF,  p-value: < 2.2e-16

当然,你也可以随便画出每个省现在的感染新型冠状病毒的人数。下面是我用R画的图。当然你有时间有兴趣,也可以画每个市的分布图来预测些有趣的东西。


bian'c

今天就到这儿吧,有兴趣的同学可以向我要代码,我很愿意分享。
(对于死亡人数的模拟我就不做了)

Fan at Boston
2020-02-02

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,647评论 1 12
  • 定位: -定位指的就是将指定的元素摆放到页面的任意位置-通过定位可以任意的摆放元素-通过position属性来设置...
    张露锋阅读 153评论 0 0
  • 小时候爱去网吧打游戏,父母对我经济封锁,零花钱对我来说经常是极度渴望而又无法拥有的东西。 这样的生活经历,让成年后...
    眼睛歪了阅读 123评论 0 0
  • 今天是我工作第80天,天气阴下午下雨,每一位车间都要保持干净,昨天我们按照领导的安排做好了卫生打扫,检查应该还没过...
    昵称阳光青年莒县阅读 115评论 2 2