Python终极,当前看来无法是三个方向:
1.web后端配套django等
2.网络爬虫方向的数据分析
3.机器学习神经网络方向
下面对三大法之一的网络爬虫略作叙述
网络爬虫大抵可分为下面四类:
1.通用型网络爬虫 尽可能大范围爬虫
2.聚焦型网络爬虫 有目的性的针对型爬虫
3.增量型网络爬虫 针对增量信息,内存消耗小,难度大,去重之类的
4.深层型网络爬虫 深层爬虫,反反爬
爬虫的用途:
1.科学研究
。。。。额,这个有点伟光正
2.web安全
你爬我,我爬你,美滋滋
- 产品研发
了解产业方向等信息
4.舆论监控
开门,查水表
爬虫的基础知识
1.Python基础语言
2.W3C标准
html,css,javascript,xpath,json等
- http标准
http请求方式,过程,cookie状态等
4.数据库
SQLSite,mysql,redis,mongoDB等
数据库用于爬取得数据存储,
不求多熟悉,要了解相关的概念。
python网络爬虫技术
1.爬取
urlib,urlib3,request,selenium,scrapy等
模拟向浏览器发生http请求
2.解析
数据解析库,lxml,beautifulsoup4,re,pyquery,xpath等