XML约束和解析

XML基本语法

XML解析

一  XML约束

在XML技术里,可以编写一个文档来约束一个XML文档的书写规范,这称之为XML约束。

需要XML约束的原因

xml由于是可扩展的标记语言,所以在xml文件中的编写太过于自由,这样在很多种情况下并不合适。

常用的约束技术

XML DTD

DTD文件的后缀名为 .dtd

DTD文件有自己独立的语法规范

XML Schema

Schema文件的后缀名为 .xsd

Schema文件符合xml语法规范

二  DTD Document Type Define

1.DTD的定义

描述元素、属性和其他杂项在xml文档中的使用规则的说明

2.DTD的分类:外部的DTD 内部的DTD 混合的DTD

1).内部的DTD:DTD和xml文档在同一个文件中

例如:

student1.xml文件:

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE students[

<!ELEMENT students (stu+)> //students标签下至少一个stu标签

<!ELEMENT stu (id,name,age)> //stu标签下有三个标签id,name,age,顺序也不可变

<!ELEMENT id  (#PCDATA)>//约束id,name,age为可以解析的,正常的文本值,不能出现子标签

<!ELEMENT name (#PCDATA)>

<!ELEMENT age  (#PCDATA)>

]>

<students>

<stu>

<id>1</id>

<name>tom</name>

<age>20</age>

</stu>

</students>

2).外部的DTD:DTD和xml文档不在同一个文件中

例如:

xml/student2.xml文件

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE students SYSTEM "../dtd/student2.dtd">

<students>

<stu>

<id>1</id>

<name>tom</name>

<age>20</age>

</stu>

</students>

dtd/student2.dtd文件:

<!ELEMENT students (stu+)>

<!ELEMENT stu (id,name,age)>

<!ELEMENT id  (#PCDATA)>

<!ELEMENT name (#PCDATA)>

<!ELEMENT age  (#PCDATA)>

3).混合的DTD:既有外部DTD,又有内部DTD

例如:

xml/student3.xml文件

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE students SYSTEM "../dtd/student3.dtd"[

<!ELEMENT stu (id,name,age)>

<!ELEMENT id  (#PCDATA)>

<!ELEMENT name (#PCDATA)>

<!ELEMENT age  (#PCDATA)>

]>

<students>

<stu>

<id>1</id>

<name>tom</name>

<age>20</age>

</stu>

</students>

dtd/student3.dtd文件:

<!ELEMENT students (stu+)>

3.外部DTD文件引用

引用外部dtd的时候又分为俩种:

1).SYSTEM表示引用的dtd文件在本地

例如:

<!DOCTYPE students SYSTEM "../dtd/student.dtd">

2).PUBLIC表示引用的dtd文件是网络上一个公共的文件

格式:注意里面是可以加回车换行的

<!DOCTYPE 根元素 PUBLIC "描述" "具体url">

例如:

<!DOCTYPE hibernate-configuration PUBLIC

          "-//Hibernate/Hibernate Configuration DTD 3.0//EN"

          "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd">

在后面的"如何在Eclipse中给xml文件添加标签自动提示功能"的部分再做说明。

4.DTD的目的

验证该xml文档是否是有效的xml文档

良构:结构良好,符合xml语法规则;

有效:如果一个良构的xml文档,又满足了DTD的声明,就是一个有效的xml文档。

注意:良构 不一定  有效,但是有效一定良构。

5.DTD对xml文件中元素的约束

格式:<!ELEMENT 元素名 内容模式>

内容模式:

1).EMPTY:元素不能包含子元素和文本(空元素)

例如:

dtd文件:

<!ELEMENT students (stu)>

<!ELEMENT stu EMPTY>

xml文件:

<students>

<!-- 有且只有一个stu -->

<!-- stu元素内容必须为空,空格也不行 -->

<stu></stu>

</students>

2).(#PCDATA):可以包含任何字符数据,但是不能在其中包含任何子元素

例如:

dtd文件:

<!ELEMENT students (stu)>

<!ELEMENT stu (#PCDATA)>

xml文件:

<students>

<stu>tom</stu>

</students>

3).ANY:元素内容为任意的,主要是使用在元素内容不确定的情况下

例如:

dtd文件:

<!ELEMENT students (stu)>

<!ELEMENT stu ANY>

xml文件:

<students>

<stu>tom</stu>

</students>

或者

<students>

<stu>

<name>tom</name>

</stu>

</students>

4).修饰符:() | + * ? , 默认修饰符

() 来给元素分组用

(id,name,age)

|  在列出的元素中选择一个

例如:

dtd文件:

<!ELEMENT students (stu|student)>

xml文件:

<students>

<!--这里只能出现stu元素或者student元素-->

<!--俩个元素任选其一,不能同时出现-->

</students>

+  该元素最少出现一次,可以出现多次 (1或n次)

例如:

dtd文件:

<!ELEMENT students (stu+)>

xml文件:

<students>

<stu></stu>

<stu></stu>

<stu></stu>

</students>

*  该元素允许出现零次到任意多次(0到n次)

例如:

dtd文件:

<!ELEMENT students (stu*)>

xml文件:

<students>

<!--stu出现0次到n次-->

<stu></stu>

<stu></stu>

<stu></stu>

</students>

?  该元素可以出现,但只能出现一次 (0到1次)

例如:

dtd文件:

<!ELEMENT students (stu?)>

xml文件:

<students>

<!--stu出现0次到1次-->

<stu></stu>

</students>

,  对象必须按指定的顺序出现

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (id,name,age)>

xml文件:

<students>

<stu>

<id></id>

<name></name>

<age></age>

</stu>

</students>

默认修饰符 就是什么修饰符都没有加

有且只有一次

例如:

dtd文件:

<!ELEMENT students (stu)>

xml文件:

<students>

<!--这里只能出现stu元素1次-->

<!--stu元素不出现也验证不通过-->

<stu></stu>

</students>

5).混合元素 子元素是任意类型 出现任意次数 并且没有出现顺序要求

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA|id|name|age)*>

xml文件:

<students>

<stu></stu>

<stu>

<id></id>

<name></name>

<age>18</age>

<age>20</age>

</stu>

<stu>tom</stu>

</students>

注意:

1 根元素students里面可以出现stu子元素0到n次

2 stu元素中可以写文本也可以写id、name、age子元素

3 id、name、age子元素出现的顺序没有要求

4 id、name、age子元素可以都出现也可以都不出现

注意:浏览器是非验证的解析器,不会验证xml的有效性

      可以使用Eclipse去验证xml的有效性

举例,应用一下之前学的知识点

<!ELEMENT students (stu+)>

<!ELEMENT stu (id,name,age)>

<!ELEMENT id (#PCDATA)>

<!ELEMENT name (firstName,lastName)>

<!ELEMENT firstName (#PCDATA)>

<!ELEMENT lastName (#PCDATA)>

6.DTD对xml文件中属性的约束

格式:

<!ATTLIST 元素名称

属性名称    值类型    属性特点

属性名称    值类型    属性特点

...

>

7.属性类型

1).CDATA:属性值可以是任何字符(包括数字和中文)

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

id  CDATA #REQUIRED

name CDATA #REQUIRED

>

xml文件:

<students>

<stu id="1" name="tom"></stu>

</students>

2).ID:属性值必须唯一,属性值必须满足xml命名规则

类似数据库里面主键,不能数字开头

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

id  ID    #REQUIRED

name CDATA #REQUIRED

>

xml文件:

<students>

<stu id="A1" name="tom"></stu>

<stu id="B1" name="tom"></stu>

</students>

注意:

1. id和name属性必须出现

2. id属性的值必须满足xml名字规范,例如不能数字开头,可以字符下划线开头

3. id属性的值不能重复

4. 多个属性的出现是没有顺序要求的

3).IDREF/IDREFS

IDREF属性的值指向文档中其它地方声明的ID类型的值。

IDREFS同IDREF,但是可以具有由空格分开的多个引用。

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

id  ID #REQUIRED

pid  IDREFS    #IMPLIED

name CDATA #REQUIRED

>

xml文件:

<students>

<stu id="A1" name="tom"></stu>

<stu id="B1" name="tom"></stu>

<stu id="C1" name="tom" pid="A1 B1"></stu>

</students>

注意:

1. id和name属性必须出现

2. pid属性出现可以,不出现也可以

3. id属性的值必须满足xml名字规范,例如不能数字开头

4. id属性的值不能重复

5. pid属性的值必须是引用其他stu元素的id值

6. pid属性的值可以是多个,使用空格隔开

7. 多个属性的出现是没有顺序要求的

4).enumerated:(枚举值1|枚举值2|枚举值3...),属性值必须在枚举值中

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

id    ID    #REQUIRED

name  CDATA #REQUIRED

gender (男|女) #REQUIRED

>

xml文件:

<students>

<stu id="A1" name="tom" gender="男"></stu>

<stu id="B1" name="tom" gender="女"></stu>

</students>

注意:

1. id/name/gender属性必须出现

2. id属性的值必须满足xml名字规范,例如不能数字开头

3. id属性的值不能重复

4. gender属性的值必须是男或者女

5. 多个属性的出现是没有顺序要求的

8.属性特点

1).#REQUIRED:元素的所有实例都必须有该属性

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

name  CDATA  #REQUIRED

>

xml文件:

<students>

<stu name=""></stu>

<stu name="tom"></stu>

</students>

注意:

1. name属性必须出现

2. name属性的值可以为空也可以不为空

2).#IMPLIED :属性可以不出现

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

name  CDATA  #IMPLIED

>

xml文件:

<students>

<stu name=""></stu>

<stu name="tom"></stu>

<stu></stu>

</students>

注意:

1. name属性可以出现也可以不出现

2. name属性的值可以为空也可以不为空

3).default-value

属性可以不出现,并且当它不出现的时候是有默认值的,而该属性的默认值就是atttibute-value

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

name  CDATA  "tom"

>

xml文件:

<students>

<stu name="zhangsan"></stu>

<stu></stu>

</students>

注意:

1. name属性可以出现也可以不出现

2. name属性如果不出现则默认值为tom

4).#FIXED :属性可以不出现,但是如果出现的话必须是指定的属性值

例如:

dtd文件:

<!ELEMENT students (stu*)>

<!ELEMENT stu (#PCDATA)>

<!ATTLIST stu

name  CDATA  #IMPLIED

school CDATA  #FIXED "briup"

>

xml文件:

<students>

<stu school="briup"></stu>

<stu></stu>

</students>

注意:

1. name/school属性可以出现也可以不出现

2. school属性如果出现那么值一定要是briup

DTD文档的一个实例:

dtd文档:

<!ELEMENT students (student+)>

<!ELEMENT student (name,age?,score*)>

<!ATTLIST student id CDATA #REQUIRED>

<!ELEMENT name (#PCDATA)>

<!ATTLIST name firstName CDATA #IMPLIED>

<!ELEMENT age (#PCDATA)>

<!ATTLIST age xuAge CDATA #FIXED "20">

<!ELEMENT score (#PCDATA)>

<!ATTLIST score sel (60|80|100) #REQUIRED>

9.dtd验证自动提示功能alt+/,如何配置:

利用DTD文件在Eclipse中给xml文件添加标签自动提示功能

PUBLIC书写格式

<!DOCTYPE 根元素 PUBLIC

"随便描述当前文件或dtd"

"网址"

>

Eclipse自动配置提示原理:

把第一个引号中的描述信息作为key

拿着key去找对应的value

这个value就是真正的做xml文件验证的dtd文件

注意:如果本机没有dtd文件,联网会自动下载dtd,如果网址无效,则需要用户手动配置。

手工配置:

Window -- Perferences -- xml --xml catalog -- add配置

10.利用schame文件在Eclipse中给xml文件添加标签自动提示功能(Sping框架里面适用)

xmlns:xsi="http://.../XMLSchema-instance"

xsi:就是XMLSchema-instance缩写,需要使用schema规范

xmlns:context="http://www.../schema/context"

xsi:schemaLocation="http://.../schema/beans

  //该-3.2.xsd文件就是具体的配置文件

  http://.../schema/beans/spring-beans-3.2.xsd

  http://.../schema/context

  //该-3.2.xsd就是context的配置文件

  http://.../schema/context/spring-context-3.2.xsd">

具体配置步骤:

Window--Perferences--xml--xml catalog--add配置

将key和value对应的文件填入,

然后Key type选择Schema location即可

三 XML的解析

1. SAX解析与DOM解析原理理解

XML解析分为:dom解析和sax解析

dom:(Document Object Model, 即文档对象模型) 是 W3C 组织推荐的处理 XML 的一种方式。

sax: (Simple API for XML) 不是官方标准,但它是 XML 社区事实上的标准(相当于是一个民间标准),几乎所有的 XML 解析器都支持它。

dom和sax都是一种模型/标准/理论,是需要其他人使用具体的代码去实现的。

xml解析器就是用来对dom或者sax解析标准的具体实现。

1.1 SAX解析

SAX:基于事件处理的机制

sax解析xml文件时,遇到根开始标签,根结束标签,开始解析文件,文件解析结束,字符内容,空白字符等都会触发各自的方法。

优点:

适合解析大文件,对内存要求不高

轻量级的解析数据方式,效率更高 

缺点:

不能随机解析(只能从头开始解析,一点点往后进行)

不能修改XML文件,只能进行查询

1.2 DOM解析

采用dom解析,会将xml文档全部载入到内存当中,然后将xml文档中的所有内容转换为tree上的节点(对象)。

优点:

可以随机解析

可以修改文件

可以创建xml文件

缺点:

适合解析小文件,对内存要求高

2. XML解析器与API

sun公司的解析器Crimson

IBM公司的解析器Xerces 已经捐献给apache组织

dom4j组织的解析器Aelfred2

sun公司根据自己的解析器推出了解析xml的API  Jaxp

Java API for XMLProcessing,意为XML处理的Java API

dom4j组织根据自己的解析器推出了解析xml的API dom4j

dom4j是一个Java解析XML的API。

3. Jaxp中DOM解析步骤

在Jaxp中,获得document对象、将document对象写入xml文件 的过程是固定的,具体如下:

3.1 获得Document的固定步骤

//获得一个负责生产DocumentBuilder对象的工厂实例

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

//通过工厂获得一个DocumentBuilder对象,DocumentBuilder可以获得Document对象

DocumentBuilder builder = factory.newDocumentBuilder();

//获得document对象

Document document = builder.parse(fileName);

/*

*  下面可以填写具体解析步骤

*/

3.2 将document对象写入xml文件的固定步骤

//得到TransformerFactory工厂实例

TransformerFactory tff = TransformerFactory.newInstance();

//通过工厂得到一个转换器

Transformer tf = tff.newTransformer();

//设置编码

tf.setOutputProperty(OutputKeys.ENCODING, "UTF-8");

//设置格式

//tf.setOutputProperty(OutputKeys.INDENT, "yes");

//把一个dom模型转换成对应的xml文件

tf.transform(new DOMSource(document), new StreamResult(fileName));

4. Jaxp中SAX解析步骤

//1.获取解析工厂

SAXParserFactory factroy = SAXParserFactory.newInstance();

//2.使用工厂创建SAX解析器

SAXParser saxParser = factroy.newSAXParser();

//3.开始解析 传入解析文件,重写解析事件

saxParser.parse(file, new DefaultHandler(){

startDocument() ---> 解析器发现了文档的开始标签

endDocument()  ---> 解析器发现了文档结束标签

startElement()  ---> 解析器发现了一个起始标签

character()    ---> 解析器发现了标签里面的文本值

endElement()    ---> 解析器发现了一个结束标签

});

注意:SAX只能解析,不能修改!!!

5. Dom4J解析具体步骤

Dom4j是一个简单、灵活的开放源代码的库。Dom4j是由早期开发JDOM的人分离出来而后独立开发的。与JDOM不同的是,dom4j使用接口和抽象基类,虽然Dom4j的API相对要复杂一些,但它提供了比JDOM更好的灵活性。

Dom4j是一个非常优秀的Java XML API,具有性能优异、功能强大和极易使用的特点。现在很多软件采用的Dom4j,例如Hibernate,包括sun公司自己的JAXP也用了Dom4j。

使用Dom4j开发,需下载dom4j相应的jar文件,使用时需要导包。

5.1 获得Document的固定步骤

//获得一个SAXReader对象

SAXReader reader = new SAXReader();

File file = new File(filePath);

//读取这个要解析的xml文件

Document document = reader.read(file);

//获得document中的根节点

Element rootElement = document.getRootElement();

/*

*  下面可以填写具体解析步骤

*/

5.2 将document对象写入xml文件的固定步骤

OutputFormat format = OutputFormat.createPrettyPrint();

XMLWriter xw = new XMLWriter(new FileOutputStream(new File(file)),format);

xw.write(document);

xw.flush();

xw.close();

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容

  • xml经典总结 XML(eXtensible Markup Language)是万维网联盟(World Wide ...
    java日记阅读 945评论 0 2
  • 一. Java基础部分.................................................
    wy_sure阅读 3,805评论 0 11
  • 一:XML的介绍 XML(可扩展的标记语言)的作用: 1.可以用来保存数据 2.可以用来做配置文件 3.数据传输载...
    爱乐之农阅读 280评论 0 0
  • # XML复习 ## 第一章 ## 思考题 **什么是XML?** XML是可扩展性标记语言,XML是标准通用标记...
    冷漠铁锤丁富贵阅读 800评论 0 0
  • 模块引用 组件化 组件方法 属性类型和默认属性 state
    bonon阅读 328评论 0 1