无标题文章

抓取四川大学公共管理学院动态新闻及详情页

赵静       信管

因为我们小组重新重置了阿里云,所以需要重新配置环境,

开始抓取

抓取的spider如下:

spider1


我选择从more那一页进行抓取,即

可以看到url

抓取这一页的每个新闻的url,再进一步抓取详情页的标题、时间、内容、图片等信息。

当spider 1 时,可以正确的爬取标题、时间、内容,结果如下:

把抓取图片的代码加入,抓取图片的url

spider2

当spider2 时,就是把图片抓取加进去时,并不能抓取图片的url

综上:成功实现抓取标题、时间、内容,未成功地抓取图片url.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # 一度蜜v3.0协议 --- # 交互协议 [TOC] ## 协议说明 ### 请求参数 下表列出了v3.0版协...
    c5e350bc5b40阅读 3,858评论 0 0
  • 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫当我们在浏览器中输...
    Python程序媛阅读 2,271评论 0 0
  • 0410晨读感悟 第一步,选择目标、做足准备。 第二步,扫清障碍、腾出时间。 第三步,拆解目标、及时反馈。 第四步...
    黄箭口香糖阅读 2,615评论 0 1
  • 人生最苦逼的就是遇到一个人渣,你还跟他生了孩子,跟人渣的人渣父母生活在一起,你无法挣脱,无力反抗,你知道一旦你做出...
    焦糖可丽饼阅读 715评论 0 0
  • 即将步入九月,无论塞北还是江南,一言不合就降温。眼见窗外狂风肆虐,席卷尘土而来,我迅速地关上了窗,却恰好夹进了一片...
    橙芮阅读 3,856评论 0 1