第一步:引入爬虫利器包
首先,我们需要引入requests和BeautifulSoup包来让我们获取到数据,而在使用BeautifulSoup中,一般会提示需要在函数()中添加features="html5lib",所以我们也引入html5lib。
灰色的部分即在整个代码里没有被使用到的,至于为什么html5lib呈灰色,小白我也不太明白。
第二步:我们先定义一个类
这个习惯要掌握好,这是让我们有面向对象的思维,而不是直接面对过程。也便于以后一层一层嵌套的继承。不会丢在一起乱七八糟。然后我们在这个类的初始化函数 def __init__中,我们可以定义一些类里面的全局变量。我们这里面以纵横中文网的一篇小说《大侠萧金衍》为例。链接地址:http://book.zongheng.com/showchapter/779260.html
第三步:我们需要看看这个小说有多少章节,并把每个章节的名字给爬取出来
在类里面,我们定义一个函数为Geturlandtitle,我们在这个函数里面实现获取每一章节的名称和跳转的url,以备下个函数获取每一章节里面的文本。老套路,先用requests.get()获取到代码,并使用 .text 输出为str,然后输入给BeautifulSoup,根据标签来获取内容。由于一个网站往往是各种标签层层嵌套,所以最好多使用BeautifulSoup中的 find/find_all 来逐步精确定位到数据源的代码块。我们这里先精确到带有 class = ‘col-4’ 的 <li> 标签,然后再精确到它下面包含的 <a> 标签。在此需注意,BeautifulSoup返回回来的是一个bs4的玩意儿,我们需要用find_all函数把想要的标签给找出来,然后再把结果用str()转成BeautifulSoup可以认识的,重复。
最好find_all函数返回的是一个<a>标签的list,那么此时我们需要for...in这个list,在这里需要提到,如上图,我们是直接 for each in SecondA,那么每一次循环是,each其实是被SeacondA[0],SecondA[1]这些给赋值,而不是从0到SecondA的最后一个索引数。因为现在Python是面对对象了。还需要实现以前那种效果的话,需要这样写:
继续我们的爬虫旅程,循环的用get去获取每个<a>标签中的内容,get()是要看<a>标签中有些什么。获取后再推入刚才初始化过的对应空集合中。
第四步:我们通过上面获取到的url来获取每个章节中的内容
我们假设上一个函数已经把每个章节跳转的url都推入了self.url这个list中,然后我们对这个list进行for循环,然后跟上面的操作类似,逐步的提取对应章节中的文本文件。然后print出来看看是否有些不需要的空格啊,没用的文本信息之类的,使用函数移除掉。然后同理把内容塞入初始的空list中。
第五步:把爬出来的数据写入对应文件。这里我们以txt为例
首先我们定义一个writer函数,初始化函数的输入变量为(name,path,content),name是小说章节名称,path是小说爬出来的数据写到本地文件的路径,content是小说章节下的内容。write_flag = True 这个不知道有啥用,似乎删除后也不会报错,也能正常运行并输出结果txt,暂且不管。然后我们使用with open ... as...,这里有两个知识点:1:open和with open ... as的区别,2:文件打开模式的选择。
1、open和with open ... as的区别
file = open("test.txt","r")
for line in file.readlines():
print line
file.close()
open需要在最后加一个close()语句,而且如果出现了异常,就无法关闭对象。而with open的好处在于,如果出现了异常,也会自动关闭,还不用写close()语句。
2、文件打开模式
我们因为是要提取所有的文章内容,所以我们需要用‘a+’的模式。我们的代码如下:
最后一步:我们实例化这个类,然后调用它的各个函数,最终使用writer函数写入本地的txt中。
这里有几个点需要注意:
1、if __name__=='__main__’:这个代表着整个代码块从这里开始执行,而不是去执行上面class中的内容
2、dl = Downloader(),是实例化了这个类
3、Python默认是单线程的,所以我们看到 dl.Geturlandtitle() 以及 dl.GetContent()是不会出现异步的问题的。
今天的笔记结束,放出小小成果: