240 发简信
IP属地:北京
  • 代理

    什么是代理? 代理就是代理服务器(proxy server),存在的目的:代理网络用户访问服务器获取数据 为什么使用代理? 因为在爬虫爬取数据的...

  • Resize,w 360,h 240
    scrapy

    Scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛 Scrapy架构图(绿线是数据流向):im...

  • xpath

    什么是xpath? 什么是xml? xpath语法的路径表达式(常用) bs4_usod(Beautifulsoup4)? 方法

  • pyquery

    什么是pyquery? find(selector) : 使用css选择器查找filter(selector) : 根据id或者class过滤节...

  • urllib 正则

    urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 urllib的模块: request:...

  • 七层协议 http和https

    七层协议的目的: 实现不同的系统互联之间的数据通讯,实现数据的传输. 七层协议分为: 应用层 表示层 会话程 传输层 网络层 数据链路层 物理层...

  • 爬虫

    爬虫: 以上平台或者机构不能够提供我们需要的数据,这时就需要爬虫工程师,根据需求从互联网上抓取数据? 什么是爬虫? 就是一段自动抓取互联网数据的...

  • 正则

    正则表达式1, 正则表达式的写法:var re=new RegExp('规则', '可选参数');var re=/规则/参数;2、规则中的字符1...