数据来源:马蜂窝
采集时间:2019.03.04——2019.03.05
采集数据:
1、来自马蜂窝的所有国内旅游城市(地区);
2、每个城市(地区)在马蜂窝旅游网上的游记总篇数,这些游记归属各个分类下的篇数;
注:马蜂窝旅游网将用户发表的游记划分为四类:景点、美食、购物和娱乐,其中购物和娱乐类下游记数量较少,在爬虫过程中我们将购物和娱乐统一归为休闲类。
3、每个城市(地区)在马蜂窝旅游网上对应的当地热门美食排行榜(包括美食名称和人气指数,即提到该美食的游记数量);
4、每个城市(地区)在马蜂窝旅游网上对应的当地热门景点排行榜(包括景点名称和人气指数,即提到该景点的游记数量);
假设和约束:
1、依据马蜂窝旅游网的思路,我们将“游记数量”视为“人气指数”,即某城市游记数量越多,则人气指数越高,推论该城市在旅游方面越热门;
2、我们无法得知马蜂窝旅游网将游记进行分类的具体标准和依据,在数据分析过程中,根据行业经验假设马蜂窝旅游网首先对游记文本进行分词后根据词频获取每篇游记关键词,并对关键词赋予分类的属性,如对关键词“厦门馅饼”和“小吃”赋予“美食”的分类属性,对关键词“温泉SPA”和“酒吧”赋予“娱乐”的属性;然后当游记样本达到一定量时会得到一个相对稳定的关键词库;最后,所有的游记根据游记中所出现的关键词进行分类。
按照上述假设的分类推理可知:每个城市(地区)有游记总数不等于这个城市(地区)各个分类下游记篇数的总和。因为可能存在没有被分类的游记,也可能存在所属多个分类的游记。
分析结果:
1、将各个城市(地区)的游记总量由高到低进行排序,取前二十的城市(地区)进行观察。
厦门和三亚遥遥领先,在杭州之后趋于平稳。
2、将游记总量前二十个城市(地区)在地图上进行表示。
这些城市在地域分布上主要集中在东南部。
3、继续在马蜂窝挖掘“前两名”厦门和三亚的信息,把游记中大家对这两个城市的印象用词云表示。(人气越高字号越大)
4、来看下各个热门旅游城市(地区)下哪些类别的游记最多。
厦门和丽江作为领先的前两名,确实完全不同类型的旅游城市,大家对厦门的印象多是景点,然而丽江却是休闲类,可能是购物和酒吧(娱乐属性)较多吧。
在这里,单独把西塘拿出来做了下印象分析。因为在第一张可知,西塘、阳朔、泸沽湖的游记总量并不多,没有挤进前二十,但是被精准分类的游记比较多,推断西塘可能是特色鲜明的旅游地区,比较容易被打上分类的标签。
5、我们接着上一个话题看厦门和丽江的城市类型。把两个城市单独拿出来做了城市类型的雷达图。
城市类型对比更鲜明了。
6、把景点类前二十名拎出来。
厦门依然很优秀。
7、把景点类城市前两名的热门景点挖出来。
厦门各个景点的人气指数分布还算均衡,但是杭州就比较极端了,地标性的西湖独占大头。
8、再看看美食类。
西安美食多是众所周知,但是厦门在美食方面也是甩了第二名的西安好几条街。
9、看看厦门和西安都有什么好吃的。
厦门沙茶面排第一。
西安排肉夹馍排名第一毋庸置疑。
但是厦门的美食漏斗变化相对平缓,比较而言西安美食漏斗在凉皮之后有抖降的趋势。由此推出西安的美食特色性非常强,只有几种代表性特别强的食物。
10、最后简单看下休闲类的城市排名。
根据前面的数据大致也能猜到第一名非丽江莫属了。