爬虫学习总结

断断续续学了一点爬虫,算是入了个门,很多时候对一些基本点还是不够熟悉,特此来总结归纳一下

分析网页数据包

数据来源:构造get请求或post请求,ajax加载

获取原数据方式

urllib库使用较为复杂,而requests相较更为方便,且功能基本包括。
使用requests库根据url等参数请求,判断状态码解决异常处理问题

import requests
from requests.exceptions import RequestException
def get_one_page(url):
    try:#异常处理来增强爬虫的健壮性
        response=requests.get(url)
        if response.status_code==200:#判断请求代码
            return response.txt#此时返回的是源代码,可以返回.content二进制文件形式
        return None
    except RequestException:
        return None

多页爬取是观察规律采用组合url

url='http:www.baidu.com&page='+str(offset)#offset作函数参数传进来
url='链接:%s?offset=%s异常'.format(start_url,i)#利用forma函数

原数据清洗获得数据

利用re(正则)库提取,利用xpath或者css提取,或者转化为字典列表等python数据类型提取
requests.json()直接将json数据转为字典型数据

数据保存

保存为txt,csv文件或者保存到数据库中

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容