周五,对近几天的实训活动进行一个小结。
这是我们项目的核心——前后端的交互等活动
对于我本身想做的知乎用户信息爬取,数据的爬取以知乎话题下内容为爬取对象。打算通过python设计实现爬虫程序,对知乎问答社区的资料进行了爬取,作为研究问题文本分类的数据。这些数据的来源是用浏览器获得的,浏览器获取的其实是一系列的文件,其中包含有HTML格式部分、CSS样式部分以及JavaScript执行层部分。浏览器将加载和理解这些数据,并通过渲染就得到了图这边的显示。因此爬虫得到的就是这些文件,通过分析和过滤这些代码文件,就可以实现对图片和文字的爬取。
此外也遇到了很多问题
在爬虫过程中,程序错误状态码主要是遇到以下几种情况:
200:请求已成功,请求所希望的响应或数据体将随此响应产生。
403:服务器已经理解请求,但是拒绝执行它。(解决方法:重新登录知乎账号,更换Cookie)
404:请求失败,请求所希望得到的资源未被在服务器上发现。(原因:网页丢失或被删除)
410:被请求资源在服务器上已经不再可用,而且没有任何已知转发地址。(原因:资源丢失)
500:服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。一般来说,这个问题在服务器端的源代码出现错误时出现。
在上述几种错误码中,403、410、500会导致程序的中断,需要处理后重新运行起来。其中,403表示我们的Cookie过期或者因为访问太过频繁,被服务器端拒绝执行,但我们的账号没有被封,重新登录账号,更换新的cookie即可。410是由于资源不可再用,500表示内部服务错误,二者均是服务器端不可知的错误造成的。