登录注册写文章

网络爬虫

网络爬虫

项目简介

网络爬虫的方式来获取信息目前在工业领域是一个高效率从网络上获取信息的方式，作为一个项目的介绍，在这个项目中，我们使用Scrapy(一个用Python写的开源框架)。这个框架最初被设计用来做网络爬取，后来也可以被用来提取数据使用的APIs或者是一般意义上的网络爬虫。尽管Scrapy对网络爬虫来说是一个非常详细的基础应用架构，但是在实际的编程过程中仍然会遇到许多实际的困难。eg:工程JavaScript和IP被锁死。

项目描述

目标

第一个目标：建立一个Scrapy项目用来在XiaomiApp商店或者其它App的商店里爬取内容。
第二个目标：在MogoDB里储存爬取的项目，安装Python MogoDB驱动同时修改pipelines.py来使被爬取的数据插入MogoDB。
第三个目标：通过下一个页面链接来爬取更多的数据，目前为止你仅仅爬取了首页，如果下一个页面是用JavaScript来写的，我们需要使用Splash和ScrapyJSre-render网页来使动态的网页转换为静态的

工具需求

python2.7
scrapy 1.0+
splash
scrapyJS
MongoDB

基础知识

basic python

提交项目

把你的最终代码上传制你的Github
请制作一个包括以下内容的视频：你的代码组成、你是怎么有效的收集和存储数据的、你是怎样从非静态的数据源中收集数据的。视频时长压缩在五分钟之内。

参考网站

[1] https://www.bittiger.io/microproject/oYDSG6MSFihpiNJ66
[2] http://scrapy.org
[3]https://www.mongodb.org/
[4]https://github.com/scrapinghub/scrapy-splash
[5]https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/

最后编辑于：2017.12.04 02:32:34

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,118评论 45赞 523
python网络爬虫之Scrapy
本文分享的大体框架包含以下三部分（1）首先介绍html网页，用来解析html网页的工具xpath（2）介绍pyt...
不忘初心c阅读 2,610评论 0赞 14
Python网络爬虫（六）- Scrapy框架
目录： Python网络爬虫（一）- 入门基础[https://www.jianshu.com/p/9dfbe35...
一只写程序的猿阅读 5,727评论 0赞 20
网络爬虫Scrapy从入门到进阶
Advanced Web Scraping: Bypassing "403 Forbidden," captcha...
treelake阅读 51,387评论 8赞 111
开源网络爬虫汇总
互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总，因新技术不断发展，新框架层出不穷，此文会不断更新... 欢迎推荐你...
周鸿阅读 1,977评论 0赞 29

1赞2赞

赞赏

手机看全文