2018-09-14XML——了解一下^_^

知己知彼,百战不殆。 -------------------------《孙子兵-谋攻篇》

XML是什么?_?

  • 可扩展标记语言,类似于HTML全称(Xtensible Markup Language)
  • 生来便为传输数据,而不是显示数据。
  • XML具有自我描述性,标签需要我们自行定义。

那什么是XPath呢?

它是一门再XML文档中查找信息的语言,用来再XML中对节点和属性进行遍历。

常用的XPath开发环境:

  • 开源的Xpath表达式编辑工具:XMLQuire(XML格式文件可用)
  • Chrome插件:XPath Helper
  • Firefox插件: XPath Checker

接下来,操练起来,孩儿们!!!

首先安装lxml

pip install lxml

接着导入它

from lxml import etree #这样写后面会出现红色波浪线,但是可以正常使用

我们可以下main两行代码解决

import lxml.html
etree = lxml.html.etree

常用的方法

  1. etree.parse()
    读取xml文件,结果为xml对象(object)
  2. etree.HTML(string_html)
    将字符串形式的html文件转化为xml对象
  3. etree.tostring(htmlelemt, encoding = "utf-8").decode("utf-8")
    etree.tostring(html,encoding="utf-8", pretty_print = True).decode()
    按字符串系列化HTML文档
    (注意:这里的tostring的s是小写的,不要写出大写的)

选择器

表达式 描述
nodename 选取此节点内的所有子节点。
/ 从根节点选取(选取直接子节点)
// 在全局搜索,不考虑位置(当用在中间位置是标识所有子孙节点)
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性(/div[@class = "container"])

实战——用lxml读取html文件

import lxml.html
etree = lxml.html.etree

parser = etree.HTMLParser(encoding = "utf-8")
htmlelement = etree.parse("mafengwo.html", parser = parser)
print(htmlelement)# 此时是对象类型
# 这句代码只在研究时有用,正常时没用
html_string = etree.tostring(htmlelement, encoding = "utf-8").decode("utf-8")
print(html_string)
# 读取innerText
links = htmlelement.xpath("//h3/a[@class='_j_search_link']")
for link in links:
    print(link.text)

# 读取属性的值
with open("mafengwo.html", "r+") as fp:
    content = fp.read()
    html = etree.HTML(content)
    titles = html.xpath("//div/div/span/@title")
    for title in titles:
        print(title)


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • 人生苦短,我用Python。 起初,这篇文章是打算来写 XPath 的,可是后来一想,我需要的仅是 XPath 的...
    Moscow1147阅读 20,756评论 1 14
  • lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一...
    编程小王子AAA阅读 5,269评论 0 4
  • 一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行...
    朝畫夕拾阅读 570评论 0 1
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • 今年三月份时候有个老先生告诉我,拿个柳枝插到地上等过了一段时间就会发芽。我当时就感觉挺有意思的,小学时候都学了无心...
    答案是小鬼阅读 218评论 0 1