【竞赛】商场中精确定位用户所在店铺(初赛)

竞赛首页
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231620
本文地址
http://www.jianshu.com/p/a9c8fc185cb6

复赛的全队躺尸状态没人整理、、、这里主要是初赛部分,个人前期的一些思路,且做备份。。。有空再完善吧。。。有空吧。。。

1.题目概述

场景目的:商场+支付宝口碑,当用户在商场逛街时,定位其所在店铺,在其付费前推送相关优惠券,使其享受优惠/促进消费,提高用户体验。
定位根据:当用户使用支付宝付费时,后台采集了此时手机的状态(用户ID、时间、GPS定位、wifi信号强度及连接)、被扫码的商店的信息(商店ID、商场ID、商店消费水平、商店位置)。这样有了当手机此状态下,在此商店附近

2.分析与思考

1.问题的目标是定位到商店,所能使用的信息是在店时的wifi状态、GPS状态,及其他的一些人、店、时间信息。
2.GPS信号存在异常值,不同商店的GPS重叠严重,但除异常值外也可以呈现出聚集状态,有些商场甚至可以呈现清晰轮廓。
3.WIFI信号最为关键,但wifi信号也常常不稳定,如:(wifi搜索缺失)同一个商店并不总能搜到那个wifi,即使是个很强的wifi或连接过的wifi;(wifi强度稳定性)同一个商店对同一个wifi的强度浮动。但相对表达来说wifi最强势。
4.WIFI信息的提取可以考虑两个方面,一个是wifi序列的方面,即检索到的wifi都纳入特征提取;一个是特征wifi方面,如top1的wifi、最稳定的wifi等。
5.GPS信息的提取以KNN聚类、距离的计算为主。
6.时间信息的提取以热度、周期为主。

3.多分类

传统的wifi室内定位方法有三角定位、wifi指纹识别等。适合本题即为wifi指纹识别法(http://www.cnblogs.com/rubbninja/p/6120964.html),即多分类的方法,但其通常采用KNN模型及其变形,且每个定位点综合为一套wifi指纹,与传统指纹识别不同的是,本例中手机采集wifi信息时,手机信号不一致、wifi类型不一致、人所在的位置范围也不定点。
所以,在本题中,采用麦芽的香气开源的方案即可,一方面采用全部数据可以解决每个定位点(shop)一套指纹的不准确,另一方面采用xgb等模型比KNN好太多、、、

wifi指纹识别

4.二分类

二分类的选择理由在于,多分类的缺点:一个商场就要训练一个模型;shop被作为标签后,无法对shop进行信息的挖掘....(应该还有,反正就这么说服自己了、、)但多分类融合二分类效果奇佳
二分类的构建思路如图,以row_id和shop_id为key,进行特征工程模型训练预测后得到了row-shop的概率,取row中概率最高的作为预测的shop。
在构建负样本是,全集则是商场其他商店为负样本,通常采用一定的规则(日后可做特征)缩减负样本比例,提高正样本的覆盖率。我选择的是对训练集和测试集保持一致的方法作候选集。
特征的构建也是从以上分析中的角度进行思考,常规的计数、比例、排序、组合以及二分类特有的组内。

据drop-out所开源,采用规则后对负样本进行随机采样,保留所有正样本也可达到同样效果且数据量更小
二分类示意图(概率应/100)

5.候选与特征

5.1 候选

wifi 计数top历史、GeoKNN聚类、类LCS规则(其中一条归一化用了测试集数据,复赛废除了)

5.2 特征

1.第N强wifi作为【前M强wifi】与店铺交互次数与平均强度和排序
2.连接wifi与店铺的【连接】/【交互】次数与平均强度
3.类LCS系列,体现wifi序列信息,主要是对相关特征做加权来综合,如wifi强度rank,历史bs强度、计数、rank,强度差及归一化等
4.热度,主要是hour-shop/cate
5.组内比例【组内的作用是平衡不同row之间的差异】
6.强度差 强度差的绝对值均值方差等
7.位置相关

6.可视化

用QGIS做的可视化,其实并没有从中看出什么厉害的东西,加深理解吧就算是。
黑色的是商店坐标,可见其偏的很任性。。。同色的是同一个shop的。此商场属于轮廓很清晰的了。
我感觉像“商业街”,不过也有大佬说就是商场内,还是傻傻分不清楚。


m_7168
http://www.jianshu.com/p/25ae219369b8
m_7168

7.体会

1.从信息量的角度思考——什么特征代表的是哪方面的信息;还有什么方面的信息没提出来;已经提的信息是否还有改进空间;
2.从业务出发思考——这个业务需要哪方面信息来表达,这个信息体现为特征应该怎么提取。
3.保持交流很重要,否则会迷失在自己的局限内。。
4.有自己作品后再找组队,八字没一撇在群里瞎喊是没有未来的。。。
5.团队中保持自己的独立性,或者独立开发,或者合理分工...要么会做得很迷==
6.路漫漫其修远兮。。。
7.以上、初赛合队前的基本如此,合队之后也再加了一部分特征,主体还是大佬的╮(╯
╰)╭,等决赛?再说吧、

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350