廿陆- Python 爬虫 异步改为同步加多进程 以及 某著名社交网站爬虫设想

1. 前言

前几天折腾了很久之后,发现有很多结果出来不满意,反正是我自己个人的项目,所以其实没什么所谓。
但精益求精总是要的吧,反正在家闲着也是闲着。

2. 异步爬虫改回同步爬虫

因为发现渲染JS需要使用浏览器,而 Pythonselenium 包无法作为异步同时处理,所以我还是把程序改回同步并且使用 Supervisor 来做多进程
详情可看之前的,逆向做就是了。
廿壹-爬 URL 、Python 异步 、Supervisor 安装配置等事宜

3. 人工清理数据

在前期做的页面增加了页面是删除含某些关键字的样本以及显示数据库规模的页面。
其实主要是发现爬出来的数据,很多都是不太像样,有很多广告,有很多不需要的信息,有很多重复捉取的信息。
前期项目:
廿肆-Django 建设 WebApp 管理 MongoDB 数据库内容

4. MongoDB 随机抽样

刚做了很久测试,发现

aggregate([{'$match': dictFilter}, {'$sample': {'size': intLimit}}])

的确是随机抽样的,那就好。

5. 某社交网站爬虫

网络上应该是有专门的爬虫软件的,但我觉得我可能需要自己练练手,所以我选择某个有公开帖子社交网站论坛来爬。

其中可能比较重要的东西有两样:

  • 针对网站的网页信息 Tag 、 Class 捉取,要针对网站定制化
  • 针对链接的处理
  • 针对用户建立单都记录并管理
  • 是否有展开性的数据记录(如用户关系)
  • 因为数据均为较新的,所以不怕捉到旧的数据

这个可能需要先制定好框架,可以沿用前期已经做好的泛用爬虫做基础。

6. 睡觉

就这样先吧,做下去或不做下去也没啥所谓的其实我觉得。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 《这就是搜索引擎》这本书的第二章是关于爬虫的,干货很多(文章几乎没有废话,所以复制居多),可以参考搜索引擎是如何构...
    SeanCheney阅读 2,141评论 0 20
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,489评论 1 99
  • 爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,...
    真依然很拉风阅读 9,748评论 5 114
  • 23岁研究生一枚,大二开始接触运动。(就是意识到锻炼身体的重要性以及开始把运动作为生活的一部分)从最初的跳郑多燕健...
    N皮脸阅读 174评论 0 0
  • 不以人为本,则多纷争 我们都知道那个六尺巷的故事。那首诗很好记,千里家书只为墙,让他三天又何妨?万里长城今...
    覃榜言阅读 949评论 3 14