纽约市开放数据集研究2——2012至2019机动车交通事故

完整项目地址:www.kaggle.com/weiyunchen/nypd-mv-collisions

序言

北京第三区交通委提醒您:道路千万条,安全第一条。行车不规范,亲人两行泪。

加载数据

相信通过序言,大家已经基本了解了这是一个怎样的数据集,它统计了从2012年到2019年在大城市纽约发生的1454053起交通事故。


缺失值处理


可以看到,缺失值主要分布在一些附加信息的特征中,尤其是第三四五辆机动车的信息几乎全部为缺失值,这说明大型多辆机动车的交通事故占极少数

由于这是一个交通事故的统计数据,因此若记录的某些数据没有对事故损失的具体描述,既几项关键信息数据的记录均为缺失值,那么这些数据就是没有意义的数据,这些关键信息的缺失不仅给计算造成了负担,也会影响我们后续的分析。

该数据集的关键信息即为伤亡信息的数据,我们按照这些条件进行查找看是否存在无意义的数据或统计错误的数据。



根据上面的查询结果,可以看出虽然某些伤亡人数信息存在缺失值,但并不存在这些信息均为缺失值的数据,也就是说某些信息记录的某类伤亡人数为缺失值值等价与该事故造成的该类伤亡人数为0,说明该数据集中的每条数据对事故的关键信息都是存在一定记录的,我们只需要小改就可以。



我们注意到该数据集对每起事故的肇事车辆预设的最大登记数为5,但大部分肇事车辆数都达不到5,因此对肇事车辆的信息记录的位置会存在很多缺失值,接下来我们查看是否存在跳跃记录的情况,既不按照表格顺序填写肇事车辆信息

上面的结果可以看出,在第三辆肇事车辆数据为空值的情况下,第四辆和第五辆也均为空值,这说明该数据集对肇事车辆的统计确实是按照表格顺序填写的,因此我们可以根据第三辆肇事车辆数据是否为空值判断肇事车辆是否不少于三辆

通过以上分析,我们得出结论,除了死伤人数及经纬度信息外,其他列的空值都是文字信息,且基本都是按照正常的逻辑填写,对我们稍后的分析不会产生影响,因此为了尽可能还原数据的特征,我们暂时不做处理。

对于死伤人数及经纬度信息的缺失值。我们将死伤人数的空值替换为0,经纬度的空值替换为U


处理完伤亡人数的缺失值以后,我们可以额外补充一列死伤人数之和的特征。

地理因素分析

接下来我们对事故发生的地理位置进行分析,由于该数据集结构清晰信息简炼,所以我们只需要将该数据集中的重要信息表现在地图上即可。


我们首先利用LOCATION变量对每个地点的事故发生次数进行统计生成了新数据集count_loc,然后在原来的数据集上对特征进行了筛选重新组成了一个新的数据集new_loc,该数据集是对每一个事故地点的地理特征信息的记录。

接下来我们将这两个数据集合并成一个新数据集the_loc,该数据集既包含事故发生地点的地理特征信息,又标明了每个地点的事故发生次数。


可以看到该数据集总体的结构非常清晰。

由于原始数据是对12年到19年的所有交通事故的记录,共145万起交通事故,因此若将这些事故地点全部标记到地图上是不美观且没有意义的,数据分析的最终目的是寻求规律,因此我们仅将事故最高发的2000个地点在地图上标记并打上标签,其中标签含义如下:

  • Lat : 纬度
  • Lng : 经度
  • ZIP CODE : 邮编
  • ON STREET NAME : 附近街道名称
  • BOROUGH : 行政区
  • Incidents : 事故发生次数




基于时间序列的综合分析

我们猜想,交通事故的发生频率与时间、人口甚至人文风气等因素都存在很大的关系,设想一下:在上下班时间,一个路口挤满了人,在阴天雨季,道路能见度低,路面湿滑,此时,一个熟悉的声音在耳畔响起
北京第三区交通委再次提醒您:道路千万条,安全第一条。行车不规范,亲人两行泪
通过流浪地球,我们感受到了北京第三交通委的热切关怀,通过不厌其烦的提醒来唤起大家对交通安全的重视,这也从侧面反映了交通事故和当地的环境存在很大的联系,接下来我们先对纽约的五个行政区进行对比分析

行政区-时间序列分析

  • 首先,我们利用BOROUGHdate这两个变量交叉组合对原来的数据集重新排序分类,并统计每一类的伤亡人数NUMBER OF PERSONS INFLUENCED之和,得到一个新的数据集time_place_person
  • 然后,通过BOROUGH变量的五种不同的取值将一个数据集切分成五个平行的数据集df1df5
  • 由于这五个平行数据集拥有相同的时间序列标签date,因此我们利用date作为母结点,将五个平行的数据集重新合并成一个数据集df
  • 五个平行数据集合并后,各自的维度value组成了五个平行的value_行政区,也就相当于我们将原始数据集中一维的 value 切分为了五个平行的维度 value_行政区 并重新映射到时间序列里




    可以看出,交通事故的发生具有一定的季节周期性和地域性

月、日、时-时间序列分析






将上面的数据集更换为month_0和hour_0,我们便得到了小时和月份的时序图



时间序列分解图

下面我们将时间序列分解为趋势,季节和残差分量



ACF和PACF自相关图



可以看到,自相关和偏自相关都是12阶拖尾,说明交通事故的发生频率具有季节变动特征,可以用ARMA模型进行分析

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352