Python爬虫-Amazon评论【附工具】

一个小改改时不时找我做一个Google扩展来下载Amazon的评论以提高工作效率,奈何时间一直不在这一块,刚好同学也接到了这个需求,就打算一起做一个。

最后商量还是做一个Gui,Google扩展有时候感觉有些不方便,顺带了解一下Python中的标准库tkinter。

最后分工我来做界面,同学来写下载解析那一块,说说一下思路,其实还是很简单的,就跟普通的爬虫差不多。

  • Gui提供2个参数,一个是站点,一个是产品Asin,Gui的具体界面就不仔细说了
  • 通过2个参数,可以构建一个种子Url,先会检测产品是否存在(404)
  • 检测通过后,然后开始开启线程递归下载
  • 下载完成后,解析数据保存到本地
  • 判断是否存在下一页,存在则修改header继续下载解析,直到最后一页

没有使用代理,因为数据量小,防止被ban,加了一些延时请求,如果有需要的朋友可以自行添加。

最后建议一下,简单的页面可以是用tkinter,复杂可以使用其他Gui库,比如pyqt,tkinter实现复杂的页面有点费劲。

源码以及下载地址https://github.com/DisasterMeng/Gui-Amazon-Review
,求星星😊,如有错误,欢迎斧正。

result.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 8,133评论 1 3
  • 100+ 经典技术书籍,涵盖:计算机系统与网络、系统架构、算法与数据结构、前端开发、后端开发、移动开发、数据库、测...
    玥玥籽阅读 5,368评论 0 2
  • python 也是很值得学习的一门工具。学好python和R。 1环境管理 管理 Python 版本和环境的工具 ...
    Liam_ml阅读 10,278评论 1 51
  • 原文链接: http://www.jianshu.com/p/9c6ae64a1bd7 GitHub 上有一个 A...
    李绍俊阅读 11,265评论 0 92
  • 迷茫、焦虑,好像是这个时代的代名词,每天海量的新闻大篇幅的笔墨都在描写刻画、加深人们的这一状态,仿佛不处于迷茫、焦...
    是龙姑娘阅读 1,540评论 1 1