解析XML文件的几种方法

1) import xml.dom.minidom
import xml.dom.minidom
f= open("E:/Y.xml",encoding="utf-8")
domtree = xml.dom.minidom.parse(f)
domtree = xml.dom.minidom.parseString('') # 解析String类型
rootnode = domtree.documentElement   #根节点
rootname = rootnode.NodeName           #根节点名
terms = domtree.getElementByTagName('term')     #名为Term的元素
#terms.length

for term in terms:
     for t in term.childNodes:
    print(t.nodeValue) #每一个term的值
#如果选择奇数或偶数的可以如下:
flag = 0
for t in term:
    for i in t.childNodes:
        if flag%2==0:
            print(i.nodeValue)
        else:
            continue
    flag+=1
2) import xml.etree.ElementTree as ET
<?xml version="1.0" encoding="utf-8"?>
<tmx version="1.4">
  <header creationtool="SDL Language Platform" creationtoolversion="8.1" o-tmf="SDL TM8 Format" datatype="xml" segtype="sentence" adminlang="en-US" srclang="en-US" creationdate="20181122T094526Z" creationid="SKY-20170626EEO\transn">
    <prop type="x-Recognizers">RecognizeAll</prop>
    <prop type="x-IncludesContextContent">True</prop>
    <prop type="x-TMName">xml</prop>
    <prop type="x-TokenizerFlags">DefaultFlags</prop>
    <prop type="x-WordCountFlags">DefaultFlags</prop>
  </header>
  <body>
    <tu creationdate="20181128T013846Z" creationid="SKY-20170626EEO\transn" changedate="20181128T013853Z" changeid="SKY-20170626EEO\transn" lastusagedate="20181128T044856Z" usagecount="9">
      <prop type="x-LastUsedBy">SKY-20170626EEO\transn</prop>
      <prop type="x-Context">0, 0</prop>
      <prop type="x-Context">7085221958494716325, 9123451527759037284</prop>
      <prop type="x-ContextContent">Please check your SD card. |  | 请检查你的SD卡 | </prop>
      <prop type="x-Origin">TM</prop>
      <prop type="x-ConfirmationLevel">Translated</prop>
      <tuv xml:lang="en-US">
        <seg>UC Browser</seg>
      </tuv>
      <tuv xml:lang="zh-CN">
        <seg>UC浏览器</seg>
      </tuv>
    </tu>
    <tu creationdate="20181128T013900Z" creationid="SKY-20170626EEO\transn" changedate="20181128T013901Z" changeid="SKY-20170626EEO\transn" lastusagedate="20181128T032310Z" usagecount="4">
      <prop type="x-LastUsedBy">SKY-20170626EEO\transn</prop>
      <prop type="x-Context">0, 0</prop>
      <prop type="x-Context">1803647357637868, 108186968084773</prop>
      <prop type="x-ContextContent">UC Browser |  | UC浏览器 | </prop>
      <prop type="x-Origin">TM</prop>
      <prop type="x-ConfirmationLevel">Translated</prop>
      <tuv xml:lang="en-US">
        <seg>Search</seg>
      </tuv>
      <tuv xml:lang="zh-CN">
        <seg>搜索</seg>
      </tuv>
    </tu>
</body>
</tmx>

<code>

import xml.etree.ElementTree as ET
tree=ET.parse("D:/xml.xml")
root=tree.getroot() <!--获取元素数的根节点-->
root.tag  <!--标签-->
root.attrib<!--属性-->
root.text<!--内容-->
root.find('body')<!--通过寻找标签的名字来获取子元素-->
root.findall('body')<!--返回一个列表-->
root.iterfind('string')<!--获得一个可迭代对象
以上方法只是适用于root这个根节点的直接子元素,对于body的子元素无效。
若要找到body下面的子元素,咋办?-->
root.iter() <!--得到一个生成器对象,包括下面所有元素-->
list(root.iter)<!--返回一个列表,有多少元素就返回多少元素-->
len(list(root.iter))<!--个数-->
root.iter('tuv')<!--生成器对象,找到所有标签为tuv-->

<!--查出seg-->
for tuv in root.iter('tuv'):<!--迭代器-->
      attrib = tuv.attrib.get("shuxing")
      seg = tuv.find('seg')
      print(seg.text)

<!--下面这个就是将所有的seg都查出-->
for tuv in root.iter('tuv'):
    seg = tuv.find('seg')
    print(seg.text)


<!--第三种-->
for tu in root.iter('tu'):
      tuv = tu.find('tuv')<!--tu下面有多个tuv,使用find而不是findall,找到第一个tuv-->
      seg = tuv.find('seg')<!--tuv下面有多个seg,用find找到第一个seg-->


<!--根节点是一个,如果查找根节点的下一级,就直接for e in root-->

root.findall("./body/tu/tuv/seg")
root.findall("body/*/*[@language='en-US']"

for s in root.findall(".//tuv"):
    print(s.items()) <!--items() 返回列表,属性的(name,value)-->
<!--
tag------Selects all child elements with the given tag. For example, spam selects all child elements named spam, and spam/egg selects all grandchildren named egg in all children named spam.
*---------Selects all child elements. For example, */egg selects all grandchildren named egg.
.---------Selects the current node. This is mostly useful at the beginning of the path, to indicate that it’s a relative path.
//--------Selects all subelements, on all levels beneath the current element. For example, .//egg selects all egg elements in the entire tree.
.. --------Selects the parent element.
[@attrib]-------Selects all elements that have the given attribute.
[@attrib='value']-----------Selects all elements for which the given attribute has the given value. The value cannot contain quotes.
[tag] -----------Selects all elements that have a child named tag. Only immediate children are supported.
[tag='text']------Selects all elements that have a child named tag whose complete text content, including descendants, equals the given text.
[position]--------Selects all elements that are located at the given position. The position can be either an integer (1 is the first position), the expression last() (for the last position), or a position relative to the last position (e.g. last()-1).

-->
root.findall(".//*[@language='zh-CN']/seg")

for i in root.iter("tuv"):
    if i.attrib["language"]=="zh-CN":
        seg = i.find("seg")
        print(seg.text)
<time>
20181129 17:20
</time>

</code>
3) from lxml import etree
from lxml import etree
A: doc = etree.fromstring(result.content)   #网页 字符串
B: doc = etree.parse("E:/Y.xml") #文件名
doc.tag   #tag名
doc.attrib['term']   #属性
doc.findall("slide")  #子节点为slide的所有元素
doc.findall(".//term")    #子孙节点
for item in doc.findall(".//item"):
    print(item.text)
解析html
html = etree.parse("E:/Y.html") #文件名
result = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html")
result.decode('utf-8')
html.xpath('//li[@class="item-0"]//text()') # 
result=html.xpath('//li[@class="item-1"]/a/text()') #获取a节点下的内容
result1=html.xpath('//li[@class="item-1"]//text()') #获取li下所有子孙节点的内容
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容

  • 引用深入解读Python解析xml的几种方式 一,概述 在XML解析方面,Python贯彻了自己开箱即用batte...
    一曲广陵散阅读 4,781评论 0 5
  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom阅读 2,694评论 0 3
  • 人生苦短,我用Python。 起初,这篇文章是打算来写 XPath 的,可是后来一想,我需要的仅是 XPath 的...
    Moscow1147阅读 20,738评论 1 14
  • XML 可扩展标记语言 (XML) 是一种简单灵活的文本格式,可以作为创建新的标记语言的基础,以便在文档发布和数据...
    LittleTrue阅读 5,130评论 0 0
  • 一年中白昼最短的一天过去,但凛冬的脚步还没有停的意思,今天冷了几分,阳光在十点半才姗姗来迟,说好的降温比预报里迟了...
    莲步轻舞阅读 146评论 0 0