心理学专业的人学习爬虫有很多困难,但是还是一点点艰难地学习,记录下自己的学习成果。
学习爬虫的目的:
(1) 获得相应的资料,可以方便爬取文章、书籍、图片、量表,由于研究的原因经常去一些论坛,也可以批量获取论坛的文字、图片、视频信息。
(2) 熟悉python的语法。
(3) 熟悉后端的一些结构。
相关工具以及版本:
(1) python 3.6.3 Anaconda
(2) requests库。发送http请求
(3) BeautifulSoup 4.4。解析代码,能够得到一个BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出。
(4) 操作系统:macOS 10.14
例子:爬取https://ibaotu.com/ui/15-91803-0-0-0-1.html的ui设计图片。
注:
1. 类似该例子的方法适合爬取html的内容,并且是在网页上直接呈现的内容。
2. 不能获取还没有下拉加载的内容。
3. Requests的get请求使用了headers参数,这个是用来模拟浏览器的。Chrome浏览器,按F12,刷新,network-request hearders-user agent。