学了一段时间的爬虫,想记录一下,但是突然没有了思路。 其实学的还是有一点乱的,主要是对python3的包还不是很熟练。
感觉学爬虫,得现有python的基础知识才行:
1 python 打开创建文件,写入文件
2 python 的正则表达 列表 和 字典的知识
3 对request包的使用 (获取网页信息)
4 对BeautifulSoup包的使用 (处理获得信息)
现在还不是很熟练和清楚,感觉网路爬虫的套路是这样的:
模拟浏览器登录网页 ——> 获取网页信息——>找出自己想要的——> 格式化储存
这里包括了 文字,图片,影像 。 里面的坑不少,每个步骤都有要注意的地方,还有一些网站有反爬虫的机制,所以我感觉还是要从基础的开始学习,然后爬一些简单的网站。
我根据网上的教程,爬了一本小说下来,但是基本是模仿教程的代码,后来我自己编写了一个爬虫,把我自己维护的网站上所有合影全部下载保存到自己的电脑里面,才真正算学会了一点点皮毛。就先记录这么多,后面再慢慢学:
我的脚本
其中
headers 是用来模拟浏览器登录的,只要使用谷歌chrome ,右击检查就可以了
target是目标网站
requests.get()是用来把整个网页代码拿下来
BeautifulSoup 是使用解析器解析格式化的网页文件
find_all 函数 是用来查找特定的标签
replace 函数是 把信息再整理清楚
get 函数可以解析指定的标志后面的路径
最后,如果是保存图片,记得要使用"wb",二进制的模式
学的比较乱,不过至少是个自己编写的可以运行的爬虫了,后面再慢慢学。