python爬虫初步之BeautifulSoup实战

1.学习beautifulsoup

  • Step.1 BeautifulSoup是基于标签的,所以我们第一步要准确定位到我们需- 要信息所在的标签。
  • Step.2 从定位的标签中提取我们需要的信息(一般在属性或者在string中)
  • Step.3 对于提取数据的简单处理

2.使用beautifulsoup提取丁香园论坛的回复内容

  • 2.1用户浏览器访问目标网站并检查目标内容所在标签
    BeautifulSoup是一个可以将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是python对象,所有对象可以归纳为4种:Tag、NavigableString、BeautifuSoup和Comment。
    下面边爬取论坛边介绍每个对象的意义以及方法。
    目标网址:

http://www.dxy.cn/bbs/thread/626626

按F12可看见网站结构及回复内容所在标签如下图:


image.png
  • 2.2获取回复内容和用户名
    我们所需的评论内容就在td class="postbody"标签下,利用BeautifulSoup获取内容
content = data.find("td", class_="postbody").text

我们需要的用户名在<div class="auth">标签下,利用BeautifulSoup获取内容

name = data.find("div", class_="auth").text

find函数用法:

find(name, attrs, recursive, text, **wargs)    # recursive 递归的,循环的
这些参数相当于过滤器一样可以进行筛选处理。不同的参数过滤可以应用到以下情况:
查找标签,基于name参数
查找文本,基于text参数
基于正则表达式的查找
查找标签的属性,基于attrs参数
基于函数的查找

附源码:

import urllib.request
from bs4 import BeautifulSoup as bs
def main():
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
    }
    url = 'http://www.dxy.cn/bbs/thread/626626'
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request).read().decode("utf-8")
    html = bs(response, 'lxml')
    getItem(html)
def getItem(html):
    datas = [] # 用来存放获取的用户名和评论
    for data in html.find_all("tbody"):
        try:
            username = data.find("div", class_="auth").get_text(strip=True)
            print(username)
            content = data.find("td", class_="postbody").get_text(strip=True)
            print(content)
            datas.append((username,content))
        except:
            pass
    print(datas)



if __name__ == '__main__':
    main()

截图:


image.png

3.学习xpath,使用lxml+xpath提取内容

什么是 XPath?
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。
下面列出了最有用的路径表达式:

表达式 描述
nodename 选取此节点的所有子节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中节点,从而不考虑节点的位置
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

Xpath中text(),string(),data()的区别如下:
text()仅仅返回所指元素的文本内容。
string()函数会得到所指元素的所有节点文本内容,这些文本讲会被拼接成一个字符串。
data()大多数时候,data()函数和string()函数通用,而且不建议经常使用data()函数,有数据表明,该函数会影响XPath的性能。

4.使用xpath提取丁香园论坛的回复内容

# _*_ coding:utf-8 _*_
from contextlib import closing
import requests, json, re, os, sys, random, time
from urllib.request import urlopen
import urllib
from lxml import etree

class getUrl(object):

    def __init__(self):
        self.headers={
            "Connection": "keep-alive",
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
            "Accept-Encoding": "gzip, deflate",
            "Accept-Language": "zh-CN,zh;q=0.9"
        };

    def run(self):
        url = "http://www.dxy.cn/bbs/thread/626626"
        req = requests.get(url,headers=self.headers)
        html = req.text
        tree = etree.HTML(html)
        user = tree.xpath('//div[@class="auth"]/a/text()')
        content = tree.xpath('//td[@class="postbody"]')
        result = []
        for i in range(0,len(user)):
            #print(content[i])
            print(content[i].xpath('string(.)'))
            print(user[i].strip()+":"+content[i].xpath('string(.)'))
            print('*'*80)


if __name__ == '__main__':
    geturl = getUrl()
    geturl.run()

截图:


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • 文/ 明月姑娘 01关注自我 晨间进入自然思考状态时,始终觉得现在每天学习的时间太少,其实这是事实。写作占去了大半...
    Moon_star阅读 985评论 0 4
  • 天天是我邻居的孙子,今年才一岁半。邻居俩夫妻今年才五十出头,年轻健壮。 邻居的儿媳妇要出去打...
    渔渔说阅读 122评论 0 0
  • 清晨第一缕阳光,伴着我跳动的手指,倾泻在钢丝弦上。 旅馆的窗外,燕子三三两两聒噪着。其中一只把头探进腋下整理羽毛,...
    苏朴1938阅读 425评论 0 3
  • 莺飞草长春山绿, 燕掠波平碧水新。 幼藕露头羞不语, 游鱼浅泳芦花缤, 槐蓬举,柳俯身, 石岸清凉留恋人。 塞外风...
    云逸1108阅读 326评论 0 4