Python爬虫-Android手写爬虫

我以我自己的想法来分析用Python爬网页的步骤以及注意点～

首先我个人认为一个小爬虫的步骤很简单，无非就是“找网站-分析网页源码-请求-分析-匹配-输出”，就这样，这是我个人理解

那么手机爬虫也就是和PC端一毛一样，除了工具以外

那么开始吧～

我这里推荐三个手机app：packet capture（抓包工具，网上有汉化版）、termux（手机终端）、pydroid（网络上比较少，但是可以到Google play下载，只支持Python2，我这里有自己汉化了的，有需求的可以找我）

这篇文章只用两个软件：termux和chrome浏览器即可

我们要爬取的网站是著名的老司机网站：i.jandan.net，我们只抓取100页的图片（60-160）

网址在这：http://i.jandan.net/ooxx/page-60，没瞎的人都知道page-60是指的页码。。。我没鄙视那些没看懂的人；但是我们还不知道它网页的构造，在浏览器的网址栏上加上“view-source”，加在网址的最前面，也就成了这样

图片发自简书App

OK，现在该网页的源码已经呈现在我们眼前了，可能看着有点费劲，但还好有高亮，不算太坑爹

图片发自简书App

一般情况下：我们找到图片的链接关键字，比如href、jpg、png之类的

但是这，我们只需要找“查看原图”这四个字就可以了，找到之后，我们可以看到它的一个图片都是用一个div给包裹着，每个都是

图片发自简书App

这个就好办了，可以开始写代码来

那么开始把，打开termux，新建一个crawler.py文件，我这里是这个，你们随意

图片发自简书App

然后导入我们那需要的包

import requests

import re

只需要这两个包即可

然后分享一下我的代码：

图片发自简书App

接下来，我们就只需要下载就可以完成了，看代码吧：

图片发自简书App

下载过程：

图片发自简书App

完成：

图片发自简书App

简单，代码量很少，有用的代码最多20行

感谢观看，有错的地方别喷，指出来，我学习。

最后编辑于：2017.12.08 08:27:22

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。