闲话少说,先列出学习内容索引(后期内容会有增删,相关文章更新后会在本文加链接):
一、Python基础
1. Python入门
(1). Python语言特点-Python与爬虫的简单介绍
(2). 环境配置-Python简单入门指北-环境配置
(3). Linux环境配置-Python环境配置2-Linux和虚拟机
2. Python基础
(1). 基本语法-Python基础-语法初试
(2). 数据类型-Python基础-简单数据类型
(3). 控制结构-Python基础-一般控制结构
3. Python进阶
(1). 数据结构-Python进阶-简单数据结构
(2). 自定义函数-Python进阶-自定义函数基础
(3). 面向对象-Python进阶-自定义类基础
(4). 第三方库管理和虚拟环境Python进阶-第三方库管理和虚拟环境
(5). 微型程序结构设计
4. Python精进
(1). 装饰器-Python精进-装饰器与函数对象
(2). 迭代器和生成器
(3). 函数式编程
二、简单的爬虫入门
1. 请求地址
(1). urllib
(2). requests
2.网页解析
(1). BeautifulSoup
(2). lxml
(3). PyQuery
3.正则表达式
(1)正则表达式入门
(2)Python正则表达式
(3)原始字符串-Python正则表达式-为什么要用原始字符串
三、关系数据库入门
1.MySQL
2.SQLite 3
3.Python与关系数据库
四、HTML基础与Javascript入门
五、并发与分布
六、网络基础和web框架(flask)入门
Flask实例-笔记应用Qotes
七、scrapy框架
八、反反爬策略
九、爬虫实例
1. 静态网页
(1). 静态网页爬虫实例1-简书搜索关键词制作词云
<br >
你好!
本文作为专题的第一篇文章,主要介绍一下专题的内容。
正如专题名所指出,本专题旨在踏踏实实地逐步学习python环境中的爬虫技术。希望能对想要学习操作爬虫获取信息的任何人都可以提供有益的建议,实际学习范围包括互联网技术的方方面面。
爬虫技术现在看来已经不是新鲜技术了,那么我们是否还有学习的必要呢?我觉得是有的。
首先,对于不熟悉python语言的初学者来说,爬虫是非常好的学习路线。简单的爬虫可以即时反馈,这有利于激励初学者的学习兴趣。而随着学习深入,可以慢慢涉及数据处理、文件操作、线程与进程管理、程序测试与优化等内容,后期可以接触更多的外部库以及框架的尝试。一边操作爬虫一边熟悉python编程特点,在我看来对于初学者来说是不错的学习方法。
对于有一定计算机知识基础的同学来说,爬虫也是非常好的巩固知识,丰富视野,完善知识架构的实践载体。爬虫是实用性很强的程序,这要求我们把知识转化为输出,我们可以在过程中深入理解计算机网络,网站架构,信息管理等方面的相关知识。
更何况,爬虫本身就是有趣而强大的工具。
附加说明:
在学习内容中,我会在尽量详细地给出学习建议的同时,给出推荐的相关公开课以及博客文章。一般给出的链接都是经过作者本人亲身体验过,会尽量把坑填上。
文章内容默认环境为Windows 10+Powershell+VSCode,采用Anaconda进行Python版本及扩展控制,采用github托管代码。还有最关键的,默认Python版本为Python3.6.0。
学习过程中不会推荐太多书籍,一般即使推荐也是动物书系列,对广告反感的同学不必担忧。
原则上模块知识以入门为主,但实际深入程度略有不同,读者可以自行斟酌。
该索引长期更新,内容会有变动。
争取日更。