用户画像准确性评测初探 ——拨开python大数据分析的神秘面纱

Part1 用户画像评测回顾与总结

1、为什么做用户画像评测?

将时钟拨回到2018年初,大家迫切想打破以往资讯推荐无章可循的局面,而今日的推荐算法也似乎演成了神话,用户意图这个词在WiFi管家团队被一再提及,继而AI推荐布局被推到了前台。

用户意图识别的优劣取决于对用户实时需求的了解程度,此事古来难。AI团队率先做的尝试是在一些特定场景下猜测用户意图,进行意图相关推荐,如住酒店用户,地铁上用户等,这是算法可以做的事情,那测试在这个过程中可以做些什么呢?算法验证相对滞后,有什么可以先行的呢?用户意图识别首要识别对用户场景,如果场景错了,后面的工作就无法关联起来。如,住酒店,是个动态场景,尝试进一步拆分成可衡量的静态场景,如,什么人(性别,工作,偏好等)?什么时间(出行时间)住什么酒店(酒店位置,级别等)?这些我们是有后套标签系统的,经过了解这些标签系统已经有些尝试应用,但是标签本身准确性却无从评估,因此,用户标签准确性评测就在懵懂中筹备开始了。

2、用户画像准确性怎么做?

感谢先行者浏览器团队,提供了最初的评测思路,他们的考虑很周全。而我在具体的实践过程中,根据业务的实际情况制定了最终的评测方案(下图),从第一轮标签提取开始,就暴露出各种细节问题,好在都一一解决了。

简单列下可供后来者借鉴的几个注意项: 视频资料学习分享 企(Q)鹅群 519970686

(1) 问卷设计的原则:每一个问卷题目与后台标签对应关系提前考虑好,有的一对一有的一对多。问卷的每一个选项要与对应标签的取值对应好关系,这会大大简化后期脚本处理工作。

(2) 问卷下发回收:最初下发了label数量>9的用户,用>8的用户补了1k,结果实际回收率不到50%,于是追加了>8的全量用户,总共4k多个,实际回收依然不足1k,而此间耗费了将近2周的时间。

(3) 关键字选取:整个过程关键字是imei,但下发问卷时,众测平台关键字却是qq,这就在数据处理上又需要多一层转换处理了。

(4) 标签系统提数:标签系统的数据是周期性更新,更新频率高,建议问卷回收后进行二次提数,尽可能减少时间差造成的数据不一致。

(5) 脚本处理:因为涉及的数据量比较大,涉及到比较多文件的处理,强烈建议装两个库,jupyter notebook(交互式笔记本,可及时编写和调试代码,很好用),还有一个大数据处理的pandas,对于excel的操作实在便利太多。

(6) 经纬度处理:经纬度数据没法下发问卷,因此问卷题目设计成问具体地址,大楼,小区等。数据转换接入了地图的逆地址解析接口,然后再对比具体位置信息,这里的对比也是纠结了1天时间,最终精确到2个中文字符的维度。

3、用户画像准确性怎么分析?

至问卷回收完毕,实际工作才完成一半,接下来就是远超预估的复杂繁琐的数据处理及分析过程了。我想用下面这张图来描述整个分析过程。

整个分析包括四部分:

(1) 黄框:活跃用户数据处理。

1.为什么要做?

活跃用户主要下发问卷前用,这里为什么还需要做分析呢?这里的分析工作是可以省掉的,方案最后会说,先来看这里的目标是什么。因为问卷没有收集imei数据,而lable标签是根据imei进行统计的,因此这里需要多做一层merge处理,以使问卷可以补足缺失的imei信息。

2.是否可优化?是否存在风险?

细心的读者可能已经发现,这里存在一个隐患!可能导致样本数量减少,因为用户的qq和imei其实不是一一对应的,可能存在一对一或一对多情况,如果下发imei用户更换qq完成了问卷,这里的merge就会导致部分样本数据反查不到imei数据从而丢失样本。庆幸的是本次测试丢失样本数不到10个,否则我可能要从头再来了。

3.如何规避?

在用户问卷设计中让用户主动反馈imei信息。前期设计没有考虑清楚key值的设计造成了这个隐患,同时还增加了分析的工作量。

(2) 蓝框:系统lable数据处理。

1.为什么要做?

细心的读者会发现,系统lable在最初已经提取了,用于做单个用户lable数量的过滤分析,这里还可以直接用原来的数据么?

答案是非常不建议!因为后台数据会周期性更新,最初提取的数据已经不能表征问卷用户当前的上报数据了。所以lable数据重新提取这一步不能省。

(3) 红框:问卷数据处理。

1.为什么要做?

问卷设计的原则是便于用户理解选择,与代码数据上报实现差异很大,所以这里的数据解析是必须的,也是结果分析最核心的部分。

2.做了什么?

这里我花费了大量的时间写脚本、调试,这里大量采用pandas,感谢它大大简化了我的代码量。为了便于大家熟悉了解pandas的用法,我这里会截取部分代码来看。

Action1:drop冗余数据

经验:感谢pandas,定义droplist,通过dataframe的drop方法,两行代码:

Action2:按lableid重新定义列名

Action3:常规各列数据处理(举个栗子)

(4)绿框:diff结果分析

1.做了什么?

在脚本处理上经纬度会更复杂,但思路大同小异,便于解说,这里以常规数据举例。

关键点1:利用dataframe将一行取出来存成array:

关键点2:定义diffresult文件列名:

关键点3:遍历每一列数据,过滤掉不存在lable:

关键点4:循环遍历比较系统数据和用户数据:

在本part最后,再总结下不足,主要有如下三方面: 视频资料学习分享 企(Q)鹅群 519970686

(1) 样本覆盖全面性不够:覆盖具有局限性,不能代表所有的用户;

(2) 无法全自动化监控:问卷设计及提数暂时无法自动化,也就仅限于一次摸底;

(3) 样本数量不足:单个用户的标签不全,导致标签整体数量偏少。

Part2 pandas使用总结

1、jupyter环境准备(web交互式笔记本,python快速编码运行调试神器)。

(1)pip install jupyter

解决:下载ipython-5.7.0-py2-none-any.whl,notebook-5.5.0-py2.py3-none-any.whl放到python的Scripts目录下,pip install xxx.whl。

(2)再次pipinstall jupyter

(3)使用jupyter notebook

new-选择对应类型可打开交互式笔记本界面。

2、Pandas擅长做什么?

(1)快速读写csv、excel、sql,以原表数据结构存储,便捷操作处理行、列数据;

(2)数据文档行列索引快速一键重定义;

(3)强大的函数支持大数据文件的快速统计分析;

(4)可以对整个数据结构进行操作,不必一行行循环读取……

如果您有上述需求,不妨继续往下看。

3、pandas安装

(1)安装:一般用pip,安装第三方库前不妨先更新下pip。

python -m pip install -U pip

pip install pandas

(2)导入

import pandas as pd

(3) 帮助

查看python第三方库帮助,利用python自带pydoc文档生成工具

Step1:配置pydoc服务

Cmd下python –m pydoc –p 1234

Step2:浏览器打开http://localhost:1234/

4、Pandas数据结构

series:带标签的一维数组,标签可以重定义。

dataframe:二维表格性数组,导入读取的csv、excel就是这种结构,可以直接对行列做操作。

举个例子:

读取表格——得到类型是DataFrame的二维数组question_data:

其中的一列df[‘num’]就是一维数组series,像个竖起来的list。

5、pandas的数据处理

(1)数据检索处理。

(a)查询首尾;

(b)查询某行,列;

注意:iloc、loc、ix(尽量用ix,避免搞不清楚index和行号)。

loc:主要通过index索引行数据。df.loc[1:]可获取多行,df.loc[[1],[‘name’,’score’]]也可获取某行某列iloc:主要通过行号索引行数据。与loc的区别,index可以定义,行号固定不变,index没有重新定义的话,index与行号相同。

ix:结合loc和iloc的混合索引。df.ix[1],df.ix[‘1’]。

(c)按条件查询指定行和列;

(d)多条件查询;

(2)数据增删改处理。

(a)增删行;

(b)增删列;

(c)行列数据相连:参看(3)(c)。

(3)多表数据处理;

(a)merge;

eg:合并两张表:

stu_score1 = pd.merge(df_student, df_score, on='Name')——内连接,交集。

stu_score1

stu_score2 =pd.merge(df_student, df_score, on='Name',how='left')——左连接,以左边为准。

stu_score2

how参数:inner(默认),left,right,outer,分别为内、左、右、外连接,inner为交集,outer为并集。

(b)join——how原则同merge,默认how=‘left’

主用于索引拼接列,两张表不同列索引合并成一个DataFram,比较少用。

(c)concat——axis=0,按行合并,axis=1,按列合并

stu_score2 = pd.concat([df_student,df_score], axis=0)。

stu_score2

(4)数据统计处理;

(a)df.describe()

根据某列计算一系列统计值,df[‘xxx’].describe(),返回如下数据表:

(b)df.set_index(‘列a’)与df.reset_index(‘列a’)

需要对某列数据处理时可以通过set_index()设为索引,再用df.sort_index()进行排序,然后再通过reset_index()设回数据。

(5)文件读写处理; 视频资料学习分享 企(Q)鹅群 519970686

以csv为例

df = pd.read_csv("D:/pandas_test.csv", encoding='utf-8')

df.to_csv(r"D:\test.csv", index=False,sep=',', encoding='utf_8_sig')

写文件时设置encoding='utf_8_sig'可解决中文乱码问题。

(6)数据集批量处理。

(a)apply和applymap

df[‘’].apply(函数)对某列数据应用函数,df.applymap(函数)对整个表应用函数。

(b)groupby

根据某列或某几列分组,本身没有任何计算,返回,用于做分组后的数据统计,如:

group_results = total_result.groupby(['lable', 'diff_value']).size()返回每个分组的个数,常用的有max(),min(),mean()

如上是本次脚本分析涉及到的功能,此外,pandas还有作图功能,这次暂未用到,就不展开说啦。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容