python+scrapy爬取应用商店数据

爬取流程:

1、定义提取的数据字段列表item或Item Loaders

2、定义Spider类的爬取规则,获取爬取数据列表item或Item Loaders.

     爬取利器:Xpath,CSS选择器,Beautiful soup,re

3、定义分析、处理和存储数据i列表。
      分析、处理、存储的方法可以放在管道pipeline里。

4、定义配置列表,包括代理,管道pipeline及spider组件等。

      代理也可以放在中间件里设置。


开动,这是我的第一个爬虫项目,好久没有写代码了,生疏了不少。

上代码:爬取豌豆荚下单个APP的历史更新记录,描述,分类和所有评论等关键数据。
ps,这里只爬单个的,爬取所有app或者某个分类的app信息这里不贴了,原理类似,很简单。

Spider部分代码如下:


上面取得是所有评论数据,因为有的评论超过几千,所以这里我取了最多30页也就是300条,够了。

获取后,然后在pipeline里把数据存到csv文件,pipe定义数据展示格式没做好,只做了循环,没有对数据的展示 进行处理,等事情忙完了再改这个吧~~



本来想自己码代码进行自然语言处理和数据挖掘,通过数据清洗,分词,实体抽取,然后词频统计和用户情感分析,分析出好评对应的标签有哪些,中差评对应的标签有哪些,好评和中差评的占比各自是多少,用户评论在时间上的变化趋势的,地域分布特点(但是豌豆荚界面里没有地域这个字段啊。。),用户手机的占比情况(结果豌豆荚里面没有用户手机这个字段。。)



用户关注焦点分析如下:

可以看到用户关注什么,然后针对性的完善。
发现这样的可视化我是无法通过肉眼很快的知道权重和排序,更浪费时间。最后用excel表列出关注度排序,如下:




接着进行了情感分析,总体好评54.73%多于中差评45.13%:

还有的数据分析有空再弄吧。

我要记得爬热点和热点词频(运营用,比如震惊)。。



另外,词云工具大家还可以用图悦,tagul。

     

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 这两天摸索了下scrapy,刚看文档的时候觉得有点生无可恋,scrapy框架个人还是觉得比较难懂的,需要学习的地方...
    Treehl阅读 10,959评论 7 10
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 14,368评论 4 46
  • 原文出处: Cer_ml 1.目标 这两天要弄一个大作业,从水木社区和北大未名社区的实习板块,爬取实习信息,保存在...
    PyChina阅读 4,429评论 0 5
  • 【阅读】在工作中运用刻意练习原则 【思考】 1.在学校里,被要求要好好掌握本质,有时候还要背出来,这就是掌握知识的...
    小影有理想阅读 1,267评论 0 0
  • ————赠偶遇又错过的人 在超越千山万水的同一个瞬间, 我们一同许下了彼此的心愿—— 愿,愿这愿望能在梦里实现...
    李想主义阅读 1,508评论 0 1