Python爬虫实例(2)

在上一篇我们已经把要怕的网页抓取到了,接下来就是细化内容。


image.png

1.页面内容分析

首先我们看到左侧导航栏就是课程的目录,那么我们可以先把课程目录已经对应的链接爬出来。

2.抓取目录以及目录链接

我们使用美丽的汤 BeautifulSoup来实现这一目的
接上篇文章,先导入包:


image.png

接下来我们打印一下soup看下结果:


image.png

我们要抓取的数据是链接以及标题,去掉没用的信息,从上图中我们看到,我们需要的是<div class="design" id="leftcolumn">下面的所有a标签中的信息


image.png

看下效果:


image.png

已经把想要的内容抓取过来了,现在就是截取href的链接内容以及title内容,我们注意到,href链接没有网站的网址,我们可以自己拼接上:
依然打印出来看看效果:


image.png

正式我们想要的内容,接下来就利用循环抓取全部的内容吧:


image.png

3.将内容写入文件

image.png

这样我们就将抓取的内容写入到文件里保存起来了。需注意,文件内容包含数字,在将list写人文件时,要先转换成字符串。

image.png

有了以上的内容,我们就可以得到Python3所有的课程列表以及链接了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,822评论 0 10
  • 简介 用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者...
    JasonShi6306421阅读 1,262评论 0 1
  • 简介 用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者...
    保川阅读 5,990评论 1 13
  • 1,正确,不能依赖大众。 听大多数人怎么说,参考少数人的意见,最后自己拿主意。 正确,需要逻辑推理,需要大量论证。...
    呆呆草阅读 335评论 0 0
  • 敬爱的李老师,智慧的马教授,亲爱的跃友们: 大家好!我是来自山峰教外教育的张洪霞 今天是我的日精进行动...
    洪霞张阅读 190评论 0 0