在贵阳交通事故致因分析数据大赛中,需要对事故数据进行预处理。
事故数据的预处理涉及到很多内容,事故的发生时间的处理是个可简单可复杂的事情。
在给出的数据中,17898个事故中,发生时间1069种不同时刻。从统计上来说,按照每个时刻进行统计没有足够的统计意义。因此需要将发生时刻进行离散化处理。
一般可以有以下几种方式:
1、以小时为单位离散化
将发生的时刻按照所处的时间段归入所处小时。如8:32归入8-9点时间段。在处理的时候,起始点为00分到59分。
2、按其它时间段
可以按照其它长度时间段进行离散化。如2小时或者3小时。处理方法如上。
3、按高峰期
不同的城市,高峰期的分布回有所不同,但一般会把时间分出如下时间段。早低峰、早平峰、早高峰期、午平峰、晚高峰、晚平峰、夜低峰。其中早低峰和夜低峰在此是我定义的时段。早低峰指的是1:00-5:00。夜低峰指的是23:00-1:00。主要是在午夜和后半夜的时段。
4、按日落时间
还有一种方法是按照日出和日落的时间来划分的。因为事故的发生和当时的光线有关。1月份的18点和7月份的18点,光线有着极大的不同。另外在没天不同时刻,太阳升起和落下的光线回对驾驶员的视线造成影响。如夕阳产生的眩光会造成驾驶员短暂的失明,从而造成事故。这时在进行离散化时要根据月份的推移,将不同的时间归入不同的时间段。可以参考的时间段可以为深夜、黎明前、日出、日出后、上午、中午、下午、日落前、日落、日落后、夜晚、半夜等。