2018-03-01 python3 爬虫(一)

学了一段时间的爬虫,想记录一下,但是突然没有了思路。 其实学的还是有一点乱的,主要是对python3的包还不是很熟练。

感觉学爬虫,得现有python的基础知识才行:

1 python 打开创建文件,写入文件
2 python 的正则表达 列表 和 字典的知识
3 对request包的使用 (获取网页信息)
4 对BeautifulSoup包的使用 (处理获得信息)

现在还不是很熟练和清楚,感觉网路爬虫的套路是这样的:

模拟浏览器登录网页 ——> 获取网页信息——>找出自己想要的——> 格式化储存

这里包括了 文字,图片,影像 。 里面的坑不少,每个步骤都有要注意的地方,还有一些网站有反爬虫的机制,所以我感觉还是要从基础的开始学习,然后爬一些简单的网站。

我根据网上的教程,爬了一本小说下来,但是基本是模仿教程的代码,后来我自己编写了一个爬虫,把我自己维护的网站上所有合影全部下载保存到自己的电脑里面,才真正算学会了一点点皮毛。就先记录这么多,后面再慢慢学:


我的脚本

其中
headers 是用来模拟浏览器登录的,只要使用谷歌chrome ,右击检查就可以了

target是目标网站

requests.get()是用来把整个网页代码拿下来

BeautifulSoup 是使用解析器解析格式化的网页文件

find_all 函数 是用来查找特定的标签

replace 函数是 把信息再整理清楚

get 函数可以解析指定的标志后面的路径

最后,如果是保存图片,记得要使用"wb",二进制的模式

学的比较乱,不过至少是个自己编写的可以运行的爬虫了,后面再慢慢学。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容