登录注册写文章

爬虫入门（二）：单线程爬虫

爬虫入门（二）：单线程爬虫

date: 2016-09-25 17:38:42

python

Requests介绍与安装

Windows环境下:pip install requests
Linux环境下：sudo pip install requests

第三方库安装技巧

少使用easy_install因为只能安装不能卸载
多用pip方式安装
撞墙了怎么办？请戳->第三方库安装技巧

将下载的后缀为whl的文件改为zip, 解压文件，获得requests文件，拷贝到C盘的python/lib文件夹中。

第一个网络爬虫

Requests获取网页源代码

直接获取源代码
修改http头获取源代码

爬取python吧首页的源代码
<pre>
import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text
</pre>

单线程爬虫的基本原理：使用requests获取网页源代码，再使用正则表达式匹配出感兴趣的内容。

向网页提取数据Get与Post

Get是从服务器上获取数据
Post是向服务器传送数据
Get通过构造url中的参数来实现功能

分析目标网站

网站地址：https://www.crowdfunder.com/browse/deals
分析工具：Chrome-审核元素-Network

Requests表单提交功能

核心方法：Requests.post
核心步骤：构造表单-提交表单-获取返回信息

最后编辑于：2017.12.08 01:52:40

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 134,991评论 19赞 139
一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 12,788评论 6赞 28
《Django by Example》第二章使用Django高级功能增强你的Blog
在上一个章节，我们已经创建了一个基础的Blog程序。现在我们将使用一些Dajngo高级功能，去实现一个完整的blo...
金金刚狼阅读 3,620评论 1赞 12
老北京秘制羊蝎子
羊蝎子就是羊脊骨，因其形状酷似蝎子，故而俗称羊蝎子其实，如果喜欢喝羊汤的主们儿！可以不用这些调料制作。只用葱姜蒜，...
半糖老杨阅读 933评论 3赞 5
UITableView实战总结（一）——分隔线的使用
一、基本使用方法： 1、隐藏分隔线的三种方式： 2、仅隐藏顶部和底部分隔线：(详见UITableView实战总结（...
嘿Xialongyi阅读 351评论 0赞 0

赞1赞

赞赏

手机看全文