芝加哥犯罪记录数据集可视化分析报告
数据集:芝加哥犯罪(Chicago Crimes)
这个数据集包含从2001年到2017年被报道过的发生在芝加哥城的犯罪事件(除谋杀案外,每个受害者都有数据)。数据来自芝加哥警察局的CLEAR(公民执法分析和报告)系统。
数据文件:Crimes.csv
数据的预处理过程
1. 最初的数据文件是一个不标准的csv文件(Crimes_-_2001_to_2017.csv),使用Excel软件打开后,重新转存为一个标准的csv文件(Crimes.csv)。
2. 数据量过于庞大(100万+条),在进行某些可视化分析时会导致服务器崩溃,因此在分析前会适当删减数据。在大致查看过csv文件后,发现数据是随机排序的,因此直接只选择前一半的数据进行分析。
3. 数据的部分属性的名称为多个单词组成的词组(含空格),在使用时(作为标识符)不方便,因此去除这些属性的名称各个单词之间的空格。
初步的分析问题
1. 哪些年份的犯罪记录最多(Year)?
2. 芝加哥的罪犯有多少已逮捕(Arrest)?
3. 芝加哥的罪犯有多少是家庭的(Domestic)?
4. 芝加哥的犯罪主要集中在哪(Longitude and Latitude)?
5. 芝加哥的犯罪有哪些类型(PrimaryType and Description)?
发现和见解
我们的分析从个体变量图开始,以评估分布和数据质量。随着我们的进展,我们为我们的分析问题建立多维的视图。
哪些年份的犯罪记录最多(Year)?
这个柱状图显示了芝加哥每年的犯罪记录数量。数据集的分布不均匀,而且不符合我们所认知的应有的实际情况,因此,应该是该数据集发生了错误。但是由于犯罪记录得其他属性特征都与年份不具有相关性,所以不影响对其他属性的分析。
芝加哥的罪犯有多少已逮捕(Arrest)?
这个扇形图展示了芝加哥的犯罪记录中有多少罪犯已被逮捕。令人惊奇的是,竟然有72.18%的记录是FALSE(更新年份:2017),即有72.18%的犯罪记录的罪犯还未被逮捕,而仅有27.82%的犯罪记录的罪犯已被逮捕。
芝加哥的罪犯有多少是家庭的(Domestic)?
这个扇形图展示了芝加哥的犯罪记录中有多少是家庭的。可以看出仅有12.58%的犯罪记录是家庭的(即家庭暴力等),而其他87.42%的犯罪记录为非家庭的,即社会性犯罪。
芝加哥的犯罪主要集中在哪(Longitude and Latitude)?
这个散点图展示了芝加哥犯罪的地理位置分布情况,由散点的密集程度(散点的透明度)展示芝加哥犯罪主要集中的位置。对比右侧的芝加哥地图可以看出,各个区的交界处以及河流湖泊等水域分布的地方是犯罪发生的高峰和低谷区(这种极端的差异可能是由数据集不完整造成的)。同时可以看出,犯罪多分布在芝加哥南区、西区以及人口分布密集的市中心。
芝加哥的犯罪有哪些类型(PrimaryType and Description)?
这个力导向图展示的是芝加哥犯罪的基本类型以及每个基本类型下的子类型描述。由于设置的画布较大,以及力导向图的数据会展示到画布之外的特点,截图中所展示的数据并不全面。但是,我们仍能看出,犯罪的基本类型具有多样化的特点。同时,有的基本类型的子类型描述基本重叠,而这几种犯罪的基本类型也大致类似(如,攻击、殴打等);而有的基本类型的子类型描述与其他毫无关联,是相对独立的犯罪类型(如,诈骗、毒品、武器违禁等)。
总结
芝加哥犯罪的逮捕率低,多为社会性犯罪,且类型多样。犯罪多分布在芝加哥南区、西区以及人口分布密集的市中心,各个区的交界处以及河流湖泊等水域分布的地方是犯罪发生的高峰和低谷区。