公司: 房价网
地址: 协和路787号 长宁区 淞虹路站附近
岗位: 爬虫工程师(leader)
薪酬: 不高
工作内容: 把之前的java一套改成python, 并且开发新的项目. 算是重构. 然后利用新的技术来开发, 比如把爬虫做成微服务.
收获:
学到了一些新构思: 爬虫端做成微服务的模式, 我感觉类似于Prometheus那样的, 每个爬虫都有一个node_module, 里面包含该爬虫的抓取信息, 数据统计, 监控等, 然后有个主控端去请求那些node, 再汇总到一起, 主控端到node之间有个channel. 在汇总数据时, 做数据清洗, 然后做数据挖掘.
建议把pandas练熟, pandas在处理数据的时候, 要得到相同的结果有很多种方法, 但是只有一种方法是最快的.
还了解到一个IDE---- Atom-IDE.