竞赛首页
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231620
本文地址
http://www.jianshu.com/p/a9c8fc185cb6
复赛的全队躺尸状态没人整理、、、这里主要是初赛部分,个人前期的一些思路,且做备份。。。有空再完善吧。。。有空吧。。。
1.题目概述
场景目的:商场+支付宝口碑,当用户在商场逛街时,定位其所在店铺,在其付费前推送相关优惠券,使其享受优惠/促进消费,提高用户体验。
定位根据:当用户使用支付宝付费时,后台采集了此时手机的状态(用户ID、时间、GPS定位、wifi信号强度及连接)、被扫码的商店的信息(商店ID、商场ID、商店消费水平、商店位置)。这样有了当手机此状态下,在此商店附近
2.分析与思考
1.问题的目标是定位到商店,所能使用的信息是在店时的wifi状态、GPS状态,及其他的一些人、店、时间信息。
2.GPS信号存在异常值,不同商店的GPS重叠严重,但除异常值外也可以呈现出聚集状态,有些商场甚至可以呈现清晰轮廓。
3.WIFI信号最为关键,但wifi信号也常常不稳定,如:(wifi搜索缺失)同一个商店并不总能搜到那个wifi,即使是个很强的wifi或连接过的wifi;(wifi强度稳定性)同一个商店对同一个wifi的强度浮动。但相对表达来说wifi最强势。
4.WIFI信息的提取可以考虑两个方面,一个是wifi序列的方面,即检索到的wifi都纳入特征提取;一个是特征wifi方面,如top1的wifi、最稳定的wifi等。
5.GPS信息的提取以KNN聚类、距离的计算为主。
6.时间信息的提取以热度、周期为主。
3.多分类
传统的wifi室内定位方法有三角定位、wifi指纹识别等。适合本题即为wifi指纹识别法(http://www.cnblogs.com/rubbninja/p/6120964.html),即多分类的方法,但其通常采用KNN模型及其变形,且每个定位点综合为一套wifi指纹,与传统指纹识别不同的是,本例中手机采集wifi信息时,手机信号不一致、wifi类型不一致、人所在的位置范围也不定点。
所以,在本题中,采用麦芽的香气开源的方案即可,一方面采用全部数据可以解决每个定位点(shop)一套指纹的不准确,另一方面采用xgb等模型比KNN好太多、、、
4.二分类
二分类的选择理由在于,多分类的缺点:一个商场就要训练一个模型;shop被作为标签后,无法对shop进行信息的挖掘....(应该还有,反正就这么说服自己了、、)但多分类融合二分类效果奇佳
二分类的构建思路如图,以row_id和shop_id为key,进行特征工程模型训练预测后得到了row-shop的概率,取row中概率最高的作为预测的shop。
在构建负样本是,全集则是商场其他商店为负样本,通常采用一定的规则(日后可做特征)缩减负样本比例,提高正样本的覆盖率。我选择的是对训练集和测试集保持一致的方法作候选集。
特征的构建也是从以上分析中的角度进行思考,常规的计数、比例、排序、组合以及二分类特有的组内。
据drop-out所开源,采用规则后对负样本进行随机采样,保留所有正样本也可达到同样效果且数据量更小
5.候选与特征
5.1 候选
wifi 计数top历史、GeoKNN聚类、类LCS规则(其中一条归一化用了测试集数据,复赛废除了)
5.2 特征
1.第N强wifi作为【前M强wifi】与店铺交互次数与平均强度和排序
2.连接wifi与店铺的【连接】/【交互】次数与平均强度
3.类LCS系列,体现wifi序列信息,主要是对相关特征做加权来综合,如wifi强度rank,历史bs强度、计数、rank,强度差及归一化等
4.热度,主要是hour-shop/cate
5.组内比例【组内的作用是平衡不同row之间的差异】
6.强度差 强度差的绝对值均值方差等
7.位置相关
6.可视化
用QGIS做的可视化,其实并没有从中看出什么厉害的东西,加深理解吧就算是。
黑色的是商店坐标,可见其偏的很任性。。。同色的是同一个shop的。此商场属于轮廓很清晰的了。
我感觉像“商业街”,不过也有大佬说就是商场内,还是傻傻分不清楚。
http://www.jianshu.com/p/25ae219369b8
7.体会
1.从信息量的角度思考——什么特征代表的是哪方面的信息;还有什么方面的信息没提出来;已经提的信息是否还有改进空间;
2.从业务出发思考——这个业务需要哪方面信息来表达,这个信息体现为特征应该怎么提取。
3.保持交流很重要,否则会迷失在自己的局限内。。
4.有自己作品后再找组队,八字没一撇在群里瞎喊是没有未来的。。。
5.团队中保持自己的独立性,或者独立开发,或者合理分工...要么会做得很迷==
6.路漫漫其修远兮。。。
7.以上、初赛合队前的基本如此,合队之后也再加了一部分特征,主体还是大佬的╮(╯╰)╭,等决赛?再说吧、