爬虫简介

MOOC 北京理工大学嵩教授 视频整理
https://www.youtube.com/watch?v=PxMWOcsTKyk&list=PL0UXr5Kg5RSEZx6sxYtHVUBN4aePAMSQS

目录

第一章 Requests库
第二章 BeautifulSoup库
第三章 Re库
第四章 Scrappy库

案例一:京东商品页面的爬取
案例二:亚马逊商品页面的爬取
案例三:百度260搜索关键词提交
案例四:网络图片的爬取和储存

网络爬虫的限制

来源审查: 判断User-Agent进行限制

检查来访HTTP协议头的User-agent域,只响应来自服务器或者友好爬虫的访问

发布公告: Robots协议

告知所有爬虫的爬取策略,要去爬虫遵守

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 上一节已经介绍过了一些爬虫的基本概念:爬虫知识入门「零」— 爬虫简介,这一节将会开始技术方面的介绍 这一节我们需要...
    终可见丶阅读 13,839评论 1 33
  • 爬虫是什么 网页的本质,是设备通过读取服务器数据库的内容,按照既定格式投射到显示屏上的过程。 我们在电脑,手机或者...
    117他爸阅读 286评论 0 1
  • 文:郑元春 人生苦短,我用Python 由于最近需要做些大数据分析的工作,所以就学习了写下爬虫了,毕竟数据才是分析...
    北静王阅读 1,222评论 0 8
  • 第一章 :网络爬虫简介 1.网络爬虫是什么? 2.网络爬虫何时有用? 3.背景调研 检查robots.txt 大都...
    Bugl0v3r阅读 503评论 0 2
  • 很多人都和我说过想学爬虫,但是不知道该怎么学,完全没有方向。所以这些最初萌动的想法,也随着不断遇到的问题,逐渐消失...
    终可见丶阅读 28,191评论 8 105