Python爬取2万条相亲数据!看看中国单身男女都在挑什么

话不多说,我们今天就以“ 世纪佳缘 ”这个相亲网站为例子,爬取搜索页面当中所有的用户信息,包括“用户ID”、“年龄”、“城市”、“学历”、“属相”等内容,使用的工具是爬虫工具pycharm。

首先老规矩,爬虫之前我们先分析一些目标网页的构成,我们进入世纪佳缘的搜索页面,摁下F12打开开发者工具,找到网页选项,看一下网页的Request URL和请求方式、user-agent等基本信息:

请求方式是post,说明我们不用去源代码里找标签了,所有的数据都存放在网页的json文件当中,这倒是方便很多,我们直接通过链接直接获取API文件,不需要进行网页解析,点击HTR后点击“请求”就能看到表单数据了。

很显然,“sex”就是性别,“f”是“female”的缩写,“p”代表着页码,因为搜索页面一共有10页,所以我们需要构造一下完整的请求url:http://search.jiayuan.com/v2/search_v2.php?key=&sex=f&stc=1:11,2:18.24,3:155.170,23:1&sn=default&sv=1&p=1&f=select

当网页页码发生变化的时候,我们发现url当中只有p值发生了变化,因此只需要改变p值就能构造对应的URL。

好了,网页的构成都分析好了,下一步就要开始在pycharm当中写爬虫了,通过上面的url,我们可以获取到服务器返回的 json格式的用户信息,部分源代码如下:

爬取的过程就不详细讲解了,因为世纪佳缘的网站还需要进行模拟登陆,所以需要登陆后将 cookie 放入爬虫的请求头中,这样便可正确访问数据。经过爬取后的数据清洗后如下:

注:excel数据集的下载方式可以直接拉到文末获得!

BI可视化分析

有了数据之后,我们下一步就是进行数据可视化分析了,这里我们把清洗好的数据导入到FineBI当中,在FineBI的主页创建Excel数据集,位置我们可以放在任意的一个业务包里:

下一步为了能够在不改变源数据表的情况下进行数据加工和编辑,因此使用自助数据集的方式,将excel表当中的所有指标全部添加:

在FineBI当中,我们可以对数据进行很多加工操作,比如过滤、分组汇总、新增列、排序、合并等等:

因为我们已经在excel当中清洗过数据了,所以这次就不用进行加工处理了,直接选择创建一个可视化组件,命名为“相亲”:

然后我们就进入了可视化操作页面,我们只需要将指标和维度拖入到横纵坐标轴上,选择对应的图表类型,比如这里选择了“柱状图”,就能自动展示出图表:

当然我们也可以对指标和维度进行编辑,比如排序、分组、过滤等等:

然后可以对图表进行一些优化,比如颜色、大小、标签等等,一个基础的可视化图表组件就完成了:

结论分析

1、单身男女的学历情况分析

整体上看高学历的人数占比是很小的,大多数是大专和本科毕业,但是其中硕士的单身比例也非常高,因为一般来说,学历越高婚姻率越低;下面我们再看一下不同性别的学历情况:

整体上看,女性的学历程度比起男性要低一些,大专以下的女性比例高,本科以上的男性比例高,这个也可能跟高学历的人数有关;

2、单身男女的婚姻状况

没想到,占比最大的婚姻状况竟然是离异,说明相亲网站上市场最大的对象是离异男女,占到了50%的比例;

我们再用性别维度进行拆解,发现整体比例是差不多的,但是男性的丧偶比例要高一下,未婚比例要比女性要低很多,说明相亲市场中未婚的还是以女性为主。

3、单身男女的年龄、身高情况

首先是年龄情况,可以看到相亲网站上用户的整体年龄偏大,主要的群体以30-40岁为主,但是男性的年龄分布出现了明显的断层,40岁-50岁的比例是很小的,但是55岁以上的比例又远超女性,看起来大龄剩男都是因为离异或者丧偶;

而女性在55岁之前的单身比例都比较高,55岁之后就断崖式下降了,看起来单身女性是个在各个年龄段都存在的问题啊。

下面我们再来看一下单身男女的身高情况:

很显然,单身女性在“160cm”、“165cm”出现了两次高峰,单身男性在“170cm”、“175cm”出现了两次高峰。 据说女性不过160、男性不过175都很难找对象,看起来大家在填资料的时候,都或多或少往这两个数值上靠,整体上能看出来,个子不高确实不太好找对象。

为了更明显地看出男女身高与年龄的情况,我特意做了张分布图:

4、单身男女的择偶观分析

这张图横坐标代表个人的年龄,纵坐标代表着择偶对象的心仪年龄高,基本上男女都呈现正相关的线性关系,但是男性明显对比自己年龄低的更喜欢,而女性则相反。

我们再来看一下单身男女对于未来配偶的条件分析:

果然有房有车才是大家最关心的条件,这也不能说错,因为单身年龄越大,对于生活的要求是偏高的;

5、单身男女的城市分布分析

为了方便看出分布情况,我采用了热力地图,实际上从数据上可以看出单身数量最多的城市都是一线城市,包括:上海、成都、广州、北京、天津等地。

因为爬取的信息有限,因此分析结论不是非常深入,仅供大家娱乐,祝大家早日找到心仪对象,明年七夕不单身!

声明:本文内容来源于网络,如有侵权请联系删除

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容

  • 三四天的微信聊天,好像也没有那么尴尬,一点点语句的累积,也能模糊的勾勒出她的模样。于是,带着一点点的小期待,顺便在...
    剑客侠肠阅读 915评论 0 0
  • 黑色的海岛上悬着一轮又大又圆的明月,毫不嫌弃地把温柔的月色照在这寸草不生的小岛上。一个少年白衣白发,悠闲自如地倚坐...
    小水Vivian阅读 3,108评论 1 5
  • 渐变的面目拼图要我怎么拼? 我是疲乏了还是投降了? 不是不允许自己坠落, 我没有滴水不进的保护膜。 就是害怕变得面...
    闷热当乘凉阅读 4,246评论 0 13
  • 感觉自己有点神经衰弱,总是觉得手机响了;屋外有人走过;每次妈妈不声不响的进房间突然跟我说话,我都会被吓得半死!一整...
    章鱼的拥抱阅读 2,172评论 4 5
  • 夜莺2517阅读 127,720评论 1 9