240 发简信
IP属地:安徽
  • 六.提升爬虫的速度

    章将介绍如何提升爬虫的速度,主要有3种方法:多线程爬虫、多进程爬虫和多协程爬虫。相对于普通的单线程爬虫,使用这3种方法爬虫的速度能实现成倍的提升。 1 并发和并行,同步和异步...

  • 二.动态网页抓取

    前面爬取的网页均为静态网页,这样的网页在浏览器中展示的内容都位于HTML源代码中。但是由于主流网站使用JavaScript展现网页内容,和静态网页不同的是,使用JavaScr...

  • 四.数据存储

    1 把数据存储至TXT 2 把数据存储至CSV 可见csv_reader把每一行数据转化成了一个列表(list),列表中从左至右的每个元素是一个字符串。把数据写入CSV的方法...

  • 三. 解析网页

    本章主要介绍使用3种方法提取网页中的数据,分别是正则表达式、BeautifulSoup和lxml。 1 使用正则表达式解析网页 常见的正则字符和含义:略 首先,我们介绍Pyt...

  • 一. 静态网页抓取

    1 安装Requests 2 获取响应内容 上例的说明如下: (1)r.text是服务器响应的内容,会自动根据响应头部的字符编码进行解码。 (2)r.encoding是服务器...

  • 1. BeatifulSoup简介

    1.1 运行BeautifulSoup 第一个参数为html信息,第二个参数为解析器参数,可供选择的解析器有(html.parser, lxml, html5lib)。各有优...