怎么学爬虫

一直以为,学习一门语言最快的办法就是项目实践,带有目的性的去搜寻学习资料比从头开始效率高得多。一直都有学python的想法,毕竟是互联网从业人员,不会一门脚本语言真是说不过去。最近工作上有需要用到爬虫的地方,于是用空余时间开始学习。

我的想法是,简单粗暴的实现目标,性能代码美观什么的都是浮云。

之前了解过Python和HTML,基础语法和结构都了解,有需要时再去看。找了一圈资料后,发现主要有一下两个方面需要了解。

1.Python相关的模块

一种是urllib、requests加上BS4等模块组合,request处理http网络协议之类的,BS4负责解析网页的结构数据。这类应该相对容易入门,网络上也普遍推荐requests+BS4的组合;

另一种就涉及到框架,scrapy、pyspider,这种相对进阶,以后可以作为进阶任务,目前暂时不考虑。

2.RE正则表达式

不管哪里的爬虫教程,正则表达式都是必修课。况且正则表达式在许多语言下都很通用,虽然形式略有差别。想起之前有一次要在一个demo里添加校验身份证号码的表达式,学习正则还是比较重要的。

爬虫需要的知识远不止这么多,但我的第一阶段只是爬取静态数据,这些知识已经足够。

下一篇文章开始认真记录一下学习记录。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容