关键词:linux服务器 多线程 爬虫技术
代码大意:自动获取某网站的大量信息,包括id,评价,粉丝等数量的信息。网页大概有70W个网页。
问题:每次大概数据采集访问到5000个网页的时候就出现killed,如何解决?
查了一下网上公开的资料:使用的内存过多被OOM了,killed
措施:转移到本地计算机运行;补充服务器内存;改变存储方式(以前是写入exl里面,结果发现有内存泄露,最终导致killed。解决方案将其储存在文本文档中.txt文件,很好的解决了这一问题)
关键词:linux服务器 多线程 爬虫技术
代码大意:自动获取某网站的大量信息,包括id,评价,粉丝等数量的信息。网页大概有70W个网页。
问题:每次大概数据采集访问到5000个网页的时候就出现killed,如何解决?
查了一下网上公开的资料:使用的内存过多被OOM了,killed
措施:转移到本地计算机运行;补充服务器内存;改变存储方式(以前是写入exl里面,结果发现有内存泄露,最终导致killed。解决方案将其储存在文本文档中.txt文件,很好的解决了这一问题)