爬虫(总结)

infos={

     "

user-agent:   ,

"

}


通过正则方便加引号变成字典形式:

  ret=re.sub(r"(.+?):(\s*)(.+)",r" '\1':'\3',",infos)

print('{'+ret+'}')

(二)urllib和urlib2的区别

urllib可以对数据进行编码

#不指定编码形式

data = urllib.urlencode(get_param)

#指定编码形式

data=urllib.parse.urlencode(data).encode('utf-8')

(三)爬虫遇到的问题 ssl

def sslwrap(func):

@wraps(func)

def bar(*args, **kw):

    kw['ssl_version'] = ssl.PROTOCOL_TLSv1

    return func(*args, **kw)

    return bar

ssl.wrap_socket = sslwrap(ssl.wrap_socket)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 现在慢慢开始对爬虫的一些工作做一个总结,这是第一篇文章,整理聊下做一个爬虫系统时的一些感悟。 一、在(反)爬虫路上...
    小怪聊职场阅读 11,030评论 6 80
  • Python语言特性 1 Python的函数参数传递 看两个如下例子,分析运行结果: 代码一: a = 1 def...
    伊森H阅读 8,207评论 0 15
  • 网络编程 一.楔子 你现在已经学会了写python代码,假如你写了两个python文件a.py和b.py,分别去运...
    go以恒阅读 6,430评论 0 6
  • 我曾经在农村见过一只公狗百米加速追赶一只母狗,急转和漂移,穿过人群,跨过树枝。最终把他的前腿跨在母狗的后背上,将杰...
    路人狗阅读 3,097评论 0 1
  • 05:08 bia几……bia几………… bia几……bia几………… 喔嗯……喔嗯…………吭!吭!吭!吭! 随着...
    余小头阅读 2,695评论 0 1