廿陆- Python 爬虫异步改为同步加多进程以及某著名社交网站爬虫设想

1. 前言

前几天折腾了很久之后，发现有很多结果出来不满意，反正是我自己个人的项目，所以其实没什么所谓。
但精益求精总是要的吧，反正在家闲着也是闲着。

2. 异步爬虫改回同步爬虫

因为发现渲染JS需要使用浏览器，而 Python 的 selenium 包无法作为异步同时处理，所以我还是把程序改回同步并且使用 Supervisor 来做多进程。
详情可看之前的，逆向做就是了。
廿壹-爬 URL 、Python 异步、Supervisor 安装配置等事宜

3. 人工清理数据

在前期做的页面增加了页面是删除含某些关键字的样本以及显示数据库规模的页面。
其实主要是发现爬出来的数据，很多都是不太像样，有很多广告，有很多不需要的信息，有很多重复捉取的信息。
前期项目：
廿肆-Django 建设 WebApp 管理 MongoDB 数据库内容

4. MongoDB 随机抽样

刚做了很久测试，发现

aggregate([{'$match': dictFilter}, {'$sample': {'size': intLimit}}])

的确是随机抽样的，那就好。

5. 某社交网站爬虫

网络上应该是有专门的爬虫软件的，但我觉得我可能需要自己练练手，所以我选择某个有公开帖子的社交网站或论坛来爬。

其中可能比较重要的东西有两样：

针对网站的网页信息 Tag 、 Class 捉取，要针对网站定制化
针对链接的处理
针对用户建立单都记录并管理
是否有展开性的数据记录（如用户关系）
因为数据均为较新的，所以不怕捉到旧的数据

这个可能需要先制定好框架，可以沿用前期已经做好的泛用爬虫做基础。

6. 睡觉

就这样先吧，做下去或不做下去也没啥所谓的其实我觉得。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

廿陆- Python 爬虫异步改为同步加多进程以及某著名社交网站爬虫设想

廿陆- Python 爬虫异步改为同步加多进程以及某著名社交网站爬虫设想

1. 前言

2. 异步爬虫改回同步爬虫

3. 人工清理数据

4. MongoDB 随机抽样

5. 某社交网站爬虫

6. 睡觉

相关阅读更多精彩内容

友情链接更多精彩内容

廿陆- Python 爬虫 异步改为同步加多进程 以及 某著名社交网站爬虫设想

1. 前言

2. 异步爬虫改回同步爬虫

3. 人工清理数据

4. MongoDB 随机抽样

5. 某社交网站爬虫

6. 睡觉

相关阅读更多精彩内容

友情链接更多精彩内容

廿陆- Python 爬虫异步改为同步加多进程以及某著名社交网站爬虫设想