爬虫

静态网页

  • urllib2
    x=re.compile(r"title>.*?<\title")
    y=re.search(x,str)

  • 正则表达式

  • re

  • requests

  • beautifulsoup

动态网页

  • 抓包工具

模拟登陆

  • cookielib
  • headers设置
  • 表单数据的提交
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 1,482评论 0 6
  • http header 消息通常被分为4个部分:general header即头部, request header...
    徐薇薇阅读 32,105评论 0 5
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,814评论 6 28
  • 01 我越无所适从/越会事与愿违/在交错的时空/灵魂加速下坠/梦却了无影踪 我开学返校后,妹妹时会拿妈妈手机给我发...
    绯瑜阅读 307评论 0 1
  • 价值观这种东西,就像一只无形的手,在不知不觉中就决定了我们选择以什么样的方式度过一生。努力拓宽生活范围,增加生活阅...
    刘彦BNU阅读 320评论 0 1