2018-02-28 代码大纲

代码大纲


数据预处理

第一步

/macinfo/origin2normal_test2.py
功能:数据预处理第一步。将原始数据打散。
/macinfo/macdata/origin_info.csv/macinfo/macdata/normal_origin_info.txt

第二步

/macinfo/nromal_origin_info_deljizhan.py
规定日期范围:
start_time ='2017-09-11 00:00:00'
end_time ='2017-11-13 00:00:00'
功能:获得出现地点大于两个地方的mac对应的info
/macinfo/macdata/normal_origin_info.txt/macdata/normal_origin_info_del_oneplace.txt

第三步

/fp_growth/macycl.py
沿用上述日期范围
实现功能:得到出现天数大于n(这里取静态值10)天的macinfo
/macinfo/macdata/normal_origin_info_del_oneplace.txt /fp_growth/data/normal_origin_info_10days.txt

mac列表
/fp_growth/phonetypelist.py
实现功能:得到mac列表
/fp_growth/data/normal_origin_info_10days.txt/fp_growth/data/type_macs.csv

数据增维

/macinfo/normalinfoAdd.py
实现功能:增加打散后数据的维度
/fp_growth/data/normal_origin_info_10days.txt/macdata/normalinfo_add.txt
数据索引1
/macinfo/normalinfoTransform.py /macinfo/normalinfoTransform_update.py
实现功能:将地点降为地点类型/将时间戳降为时段
时间戳、地点mac
/fp_growth/data/normal_origin_info_10days.txt/macdata/normalinfo_trans.txt
/fp_growth/data/normal_origin_info_10days.txt/macdata/normalinfo_trans_v2.txt

数据索引2

/macinfo/normalinfoTransform2.py
实现功能:日期、macplaceinfo
重新索引后的数据格式:起始时间1,终止时间1,place id1……
/macdata/normalinfo_trans.txt/macdata/path/macid+pathinfo.txt


数据呈现

根据日期统计记录数目

recordsByDay.py recordsByDay_2.py
根据日期统计记录数目 并保存结果输出文件
/fp_growth/data/normal_origin_info_10days.txt/macdata/records/normal_origin_info_ByDays.txt/macdata/records/datecountsByDay.csv

以小时为单位统计记录数目

recordsByDayHours.py
根据小时统计记录数目 并保存结果输出文件
/macdata/normalinfo_add.txt/macdata/records/datecountsByDayHours.csv

根据日期统计mac出现个数

recordsByMac.py recordsByMac2.py
根据日期统计当天出现的mac和date根据日期统计mac出现的个数
/fp_growth/data/normal_origin_info_10days.txt/macdata/records/normal_origin_info_date_mac.txt/macdata/records/datecountsByMac.csv

以小时为单位统计mac出现个数

recordsByMacHours.py recordsByMacHours2.py
根据日期小时统计当天出现的mac和date根据日期小时统计mac出现的个数
/fp_growth/data/normal_origin_info_10days.txt/macdata/records/normal_origin_info_datehour_mac.txt/macdata/records/datecountsByMacDayHours.csv

热力图

heatmap.py
生成baidumapAPI对应格式数据集
/fp_growth/data/normal_origin_info_10days.txt/plot/plotdata/longlatcount.csv

统计节假日/非节假日 平均记录数/分布记录数

holiday.py
代码1:统计节假日和非节假日的平均记录数
代码2:关于节假日和非节假日的记录分布情况
输入数据:/macinfo/macdata/normalinfo_add.txt
结果数据:/plot/plotdata/节假日分布统计.txt 节假日记录数.txt

统计节假日/非节假日 不同的mac数目(总览)

holidaymac.py
输入数据:/macinfo/macdata/normalinfo_trans.txt
结果数据:/plot/plotdata/人员分布.txt

统计mac按照时间和地点分布情况

macCountByDisTime.py
macCountByDisTime4.py
macCountByDisTime6_24.py
输入:/macinfo/macdata/normalinfo_trans.txt
输出:/plot/plotdata/maccountbyday.csv
/plot/plotdata/maccountbyday_4ranges.csv
/plot/plotdata/maccountbyday_24ranges.csv

手机型号统计

phonetype.py phonetype2.py
输入数据:
/fp_growth/data/type_macs.csv /macinfo/macdata/macDevinfo.txt
输出数据:
/plot/plotdata/phonetypecount.csv


数据查询

通过pid起止时间查询
通过pid、星期、规定时段查询

getNormalinfo_to_file.py


算法模块

关联算法

/fp_growth/FP_Growth_sampling.py

  1. 输入起止时间start_time end_time、时间采样间隔delta_min 输出maclist
  2. 输入mac地址、最小置信度minsup 输出关联mac
    输出:/fp_growth/data/related_maclist.txt

聚类算法

人员特征矩阵生成

统计每个人时间特征矩阵(关于地点出现的次数)
/K_means/Count_Array.py
/K_means/Count_Array_update.py
/K_means/Count_Array_update2.py

/macinfo/macdata/normalinfo_trans_v2.txt
user_count_array_includex.csv
user_count_array_includex_1.csv
user_count_array_includex_1_extra.csv
矩阵合并 K均值聚类
三个矩阵合并
dataframendarray
数据归一化
PCA降维
K均值聚类
图像生成
结果保存到本地

文件生成:
/K_means/data/user_TimeArray.csv
/K_means/data/user_TimeArray_includex.csv

聚类结果数据特征:

/K_means/data/K_means/n_clusters.txt

聚类图像生成

/K_means/K_means_plot.py
输出:/K_means/img/n_clusters.png

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容

  • sqlmap用户手册 说明:本文为转载,对原文中一些明显的拼写错误进行修正,并标注对自己有用的信息。 ======...
    wind_飘阅读 2,039评论 0 5
  • 香港,一个对什么都要求速度快的地方;一个既冷酷又有人文关怀的城市。香港的生活方式和广东相近,两地人民食物口味相仿,...
    我是晓晓阅读 337评论 2 4
  • 有着些许麻木 她就这样站着 在大雨滂沱中 若有若无的望着那栋以人去楼空的地方 那儿的一砖一瓦 写满了所有的沧桑变化...
    魏然zeo阅读 68评论 0 0
  • 见到arts centre后的testing grounds,额外感动,还有这样一片土地,为了像我们一样的人。最近...
    98633f187524阅读 303评论 0 0
  • 序号 学号 简书链接 20171207【W9】作业汇总 ① 38 王玉蓉 ② ...
    雾浓浓hx阅读 221评论 8 2