240 发简信
IP属地:上海
  • 120
    爬虫思路——Selenium下载猫眼电影top100

    需求:爬取猫眼top100 movie 包含内容 ['序号', ‘电影名称’, ‘主演’, ‘上映日期’, ‘评分’] 数据保存为csv格式文档 步骤: ...

  • 120
    爬虫思路——Selenium获取Cookies

    需求: 使用selenium 获取网页 Cookies 爬虫当中的cookie的作用 1 模拟登录 (有的网站你加上cookie也登录不了) 2 反反爬(检查cookie),...

  • 120
    爬虫思路——Selenium豆瓣登录

    需求:用selenium完成登录豆瓣账号 使用selenium前, 需要安装浏览器驱动 此处使用Chrome浏览器,安装浏览器驱动chromedriver Chrome浏览器...

  • 120
    爬虫思路——BS4(各地气温信息)

    需求: 爬取中国天气网 所有城市对应的温度把数据保存到csv当中 步骤: 拆解需求: 需要用到的模块发起网页请求 import requests 使用BS4 解析网页,获取所...

  • 120
    爬虫思路——Xpath(douban movie 250)

    需求: 豆瓣top250电影:https://movie.douban.com/top250 爬取 电影的名字 评分 引言 详情页的url 1-10页 保存到csv文件当中 ...

  • 120
    爬虫思路——正则表达式

    需求: 爬取http://www.weather.com.cn/weather/101020100.shtml 爬取最近7天的天气预报,包含内容 ['日期', ‘天气’, ‘...

  • 120
    爬虫错题集

    1. response = urllib.request.urlopen(req)获取的response对象没有.content方法 代码如下: 报错界面如下: ...

  • 120
    L14_多线程爬虫

    多线程基本介绍 有很多场景中的事是同时进行的,比如开车的时候手和脚共同来驾驶汽车,再比如唱歌跳舞同时进行 如何创建线程 · 方法一:通过函数 使用 threading 模块...

  • 120
    图形验证码识别

    Tesseract 安装以及简介 阻碍我们爬虫的,有时候正是在登录或者请求一些数据时候的图形验证码。 因此这里讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被称为光学...

  • 120
    L10-13_Selenium的使用

    爬虫和反爬虫的斗争历史 爬虫建议 · 尽量减少请求次数 · 保存获取到得HTML,供查错和重复使用 · 关注网站的所有类型的页面 · H5页面 · APP · 多伪装 ...

  • 120
    L08-09_BS4

    BS4基本概念 Beautiful Soup是一个可以从HTML或XML文件中提取数据的网页信息提取库 源码分析 · 安 装 pip install lxml pip in...

  • 120
    L07_lxml 和 xpath

    Xpath简介 基本概念 XPath(XML Path Language)是一种XML的查询语言,他能在XML树状结构中寻找节点。 XPath 用于在 XML 文档中通过元素...

  • 120
    L05-06_正则表达式

    正则表达式概念 · 概 念 · 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来...

  • 120
    CSV 模块使用

    什么是CSV? CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用以存储表格数据,包括...

  • 120
    L02-04_爬虫网络请求模块

    1. urllib. request模块 · 版 本 python2 :urllib2、urllib python3 :把urllib 和 urllib2 合并, url...

  • 120
    L01_爬虫前导知识

    爬虫的前导知识 · 端口 · 数据通信的原理,数据传输分为几步? · 找到对方IP · 数据要发送到对方指定的应用程序上。为了标识这些应用程序,给这些网络应用程序都...

  • 120
    Lesson_15 异常与文件操作

    1. 异常简介 · 程序在运行过程中可能会出现一些错误。比如:使用了不存在的索引,两个不同类型的数据相加等这些错误,称之为异常 · 处理异常: 程序运行时出现异常,目的并...

  • 120
    Lesson_14 模块(核心)

    1. 模块 · 模块化指将一个完整的程序分解成一个个的小模块 · 通过将模块组合,来搭建出一个完整的程序 · 模块化的有点: · 方便开发 ( 开发时,功能模块区分开)...

  • 120
    Lesson_13 面向对象(下)(核心)

    0. 继承的引入 1. 继承简介 · 继承是面向对象三大特性之一 · 通过继承我们可以使一个类获取到其他类中的属性和方法 · 在定义类时,可以在类名后面的括号中指定当前...

个人介绍
弱水三千,只取一瓢。