人肉python脚本爬虫

         看了几天的python,发现python的语法确实简单。今天了解了一下python写爬虫,在这里记录一下。

首先 我们要下载pycharm 

http://www.jetbrains.com/

然后新建工程


第一种办法

目录如上 rexx.py 是使用正则表达式的方法  meizi.py是使用BeautifulSoup 三方库来实现解析jpg图片链接(早就听说python的第三库多且牛)

正则表达式我在这就不多描述代码如下

首先里面用到了requests 这个库 。同理我们用时pip install requests安装

source.txt 是我们把网页源码复制到txt里面解析的(人肉就是 手动操作哈哈!后面会介绍不用自己复制粘贴源码的操作)

解析完txt文件 使用正则表达式匹配出我们的图片 最终把他写入文件就可以了

第二种办法

在meizi.py文件里面 代码如下


这里用到了自带的类库 urllib2 以及BeautifulSoup 

当然我们可以把代码复制到txt解析然后处理 但是现在我们现在直接urlopen一个链接

然后使用BeautifulSoup 处理拿到soup

使用soup.findall 就可以解析到想到的数据

BeautifulSoup 的功能比较多大家可以自己百度一下  


这是我随便爬的图片 好玩弄的  我这只是做个备注 可能有点乱 有时间会整理下思路,大家随便看看就好。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,767评论 6 28
  • 关于bs4,官方文档的介绍已经非常详细了,传送:Beautifulsoup 4官方文档,这里我把它组织成自己已经消...
    徐薇薇阅读 5,462评论 0 1
  • 环境管理管理Python版本和环境的工具。p–非常简单的交互式python版本管理工具。pyenv–简单的Pyth...
    MrHamster阅读 3,841评论 1 61
  • 小狗帕贝是个清洁工,每天上午十点它就嗡嗡嗡地唱着歌打扫房间了。他很勤快,从客厅扫到卧室再到阳台,连角落里面的一根头...
    alas阅读 665评论 0 1
  • 昨天闲来无事,在手机视频软件里搜了部关于青春的电影,晚上躺在床上脑子里就一直在浮现电影里的画面,关于爱情的,关于友...
    落澜洛2阅读 264评论 0 0