Python爬虫实例（2）

在上一篇我们已经把要怕的网页抓取到了，接下来就是细化内容。

image.png

首先我们看到左侧导航栏就是课程的目录，那么我们可以先把课程目录已经对应的链接爬出来。

我们使用美丽的汤 BeautifulSoup来实现这一目的
接上篇文章，先导入包：

image.png

接下来我们打印一下soup看下结果：

image.png

我们要抓取的数据是链接以及标题，去掉没用的信息，从上图中我们看到，我们需要的是<div class="design" id="leftcolumn">下面的所有a标签中的信息

image.png

看下效果：

image.png

已经把想要的内容抓取过来了，现在就是截取href的链接内容以及title内容，我们注意到，href链接没有网站的网址，我们可以自己拼接上：
依然打印出来看看效果：

image.png

正式我们想要的内容，接下来就利用循环抓取全部的内容吧：

image.png

image.png

这样我们就将抓取的内容写入到文件里保存起来了。需注意，文件内容包含数字，在将list写人文件时，要先转换成字符串。

image.png

有了以上的内容，我们就可以得到Python3所有的课程列表以及链接了。