登录注册写文章

Python终究大招之爬虫：初窥门径（1）

圣人便无名

Python终究大招之爬虫：初窥门径（1）

Python终极，当前看来无法是三个方向：
1.web后端配套django等
2.网络爬虫方向的数据分析
3.机器学习神经网络方向

下面对三大法之一的网络爬虫略作叙述

网络爬虫大抵可分为下面四类：
1.通用型网络爬虫尽可能大范围爬虫
2.聚焦型网络爬虫有目的性的针对型爬虫
3.增量型网络爬虫针对增量信息，内存消耗小，难度大，去重之类的
4.深层型网络爬虫深层爬虫，反反爬

爬虫的用途：
1.科学研究
。。。。额，这个有点伟光正
2.web安全
你爬我，我爬你，美滋滋

产品研发
了解产业方向等信息
4.舆论监控
开门，查水表

爬虫的基础知识
1.Python基础语言
2.W3C标准
html,css,javascript,xpath,json等

http标准
http请求方式，过程，cookie状态等
4.数据库
SQLSite,mysql,redis,mongoDB等

数据库用于爬取得数据存储，

不求多熟悉，要了解相关的概念。

python网络爬虫技术
1.爬取
urlib,urlib3,request,selenium,scrapy等
模拟向浏览器发生http请求
2.解析
数据解析库，lxml，beautifulsoup4,re,pyquery，xpath等

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

无标题文章
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
小迈克阅读 8,153评论 1赞 3
爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,197评论 45赞 523

Python网络爬虫
1. 概述本文主要介绍网络爬虫，采用的实现语言为Python，目的在于阐述网络爬虫的原理和实现，并且对目前常见的...
Lemon_Home阅读 7,972评论 0赞 21
【18188】七绝•芦塘落日
题记：景色再好也是给别人看的，而日子苦不苦却只有自己知道。西风渐起野生寒，一望芦花瑟浅滩。纵使斜阳涂暖色，余...
凿冰而钓阅读 6,997评论 60赞 82
平安夜，你有一份礼物等待查收~2017-12-24 苏农团青汇
如往年一样的圣诞街景或许这时你在重要的备考阶段与同学交换着苹果或许你至今还未进入状态怀念着各奔东西的老同学...
flyflyfly嘭阅读 806评论 0赞 0

2赞3赞

赞赏

手机看全文