python试爬李毅吧贴子标题,爬虫最初级

注:以下所有python代码均运行于2.7.0

最近想抓点数据存起来,开始捣鼓python。爬虫技术以前没接触过,这一回就当练手,从零开始,从最原始的方式开始。先定个小目标,抓一下著名的“李毅吧”的一些贴子标题。

要爬数据,第一步肯定是网络请求,在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。

在这些步骤进行之前,要先安装lxml,这个用pip install lxml就可以了。

第一步,使用urllib2,先把李毅吧的url请求一下。百度目前使用的是https,这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打开命令窗口,python。let's go。
import urllib2 from lxml import etree r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85") p = r.read()
好了,是不是代码很简短,我们第一步就完成了。

第二步,要引入lxml,来解析取到的html文件。解析前肯定是要用开发者工具先分析一下html源码的,要不然怎么找到规律去匹配我们想要的内容呢。用开发者工具定位到贴吧的贴子都是位于一个div里面,这个div的id是content,class也是content。每个贴子的标题都是一个超链接,标题内容放在这个超链接的title里。

简单的介绍一下lxml的路径表达式:
//body/a[1] 取body下的第一个a元素 //a[@href] 取所有拥有属性名为href的a元素 //a[@href='img.html'] 取所有htre属性为img.html的a元素 根据前面的分析,要取到贴子的标题,需要这么写 //div[@id='content']//a//@title
下面开始解析:
e = etree.HTML(decode_html) l = e.xpath("//div[@id='content']//a//@title")
第二步到此为止,通过xpath能匹配到所有的贴子标题。

第三步就是数据过滤、清洗、转换、存储之类的工作了,没有什么通用性。因为l是一个列表,里面又存的是utf8,对于一些新手来说,可能很抓狂,因为不能很直观地看到汉字。
加上这一段就好了:

    print item```
最后附上代码:

`#-*- coding: utf-8 -*-`

import urllib2
import lxml
from lxml import etree

r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")

raw_html = r.read()

decode_html = raw_html.decode("utf-8")

dom_html = etree.HTML(decode_html)

title_list = dom_html.xpath("//div[@id='content']//a//@title")

for item in title_list:
print item

这个代码没有真正实现只抓贴子标题的功能,抓的内容超出了贴子标题的范围。还需要优化一下才可以的。

![try_baidu_liyi.png](http://upload-images.jianshu.io/upload_images/5205908-e446959a38a2d768.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 14,687评论 1 92
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,382评论 6 28
  • 20170531 这几天重新拾起了爬虫,算起来有将近5个月不碰python爬虫了。 对照着网上的程序和自己以前写的...
    八神苍月阅读 14,809评论 3 44
  • 当天空渐变灰蒙 当皓月慢慢升空 停下匆匆的脚步 聆听窗外的钟声 余音绕梁中 你渐渐地来临——夜 夜下的你 不须忘我...
    漫歩书生阅读 1,748评论 0 2
  • 总有一天,你的父母不再能理解你所学的东西,他们只能在电话里让你保重身体,然后一边垂垂老去,一边盼你回家。年少时总觉...
    笃学青衿阅读 936评论 0 0