javascript用DOM解释XML[转]


在DOM眼中,HTML跟XML一样是一种树形结构的文档,<html>是根(root)节点,<head><title><body><html>的子(children)节点,互相之间是兄弟(sibling)节点;<body>下面才是子节点<table><span><p>等等。如下图:

这个是不是跟XML的结构有点相似呢。不同的是,HTML文档的树形主要包含表示元素、标记的节点和表示文本串的节点。

HTML文档的节点

DOM下,HTML文档各个节点被视为各种类型的Node对象。每个Node对象都有自己的属性和方法,利用这些属性和方法可以遍历整个文档树。由于HTML文档的复杂性,DOM定义了nodeType来表示节点的类型。这里列出Node常用的几种节点类型:

接口
nodeType常量
nodeType值
备注

Element
Node.ELEMENT_NODE
1
元素节点

Text
Node.TEXT_NODE
3
文本节点

Document
Node.DOCUMENT_NODE
9
document

Comment
Node.COMMENT_NODE
8
注释的文本

DocumentFragment
Node.DOCUMENT_FRAGMENT_NODE
11
document片断

Attr
Node.ATTRIBUTE_NODE
2
节点属性

DOM树的根节点是个Document对象,该对象的documentElement属性引用表示文档根元素的Element对象(对于HTML文档,这个就是<html>标记)。Javascript操作HTML文档的时候,document即指向整个文档,<body><table>等节点类型即为Element。Comment类型的节点则是指文档的注释。具体节点类型的含义,请参考《Javascript权威指南》,在此不赘述。

Document定义的方法大多数是生产型方法,主要用于创建可以插入文档中的各种类型的节点。常用的Document方法有:

方法
描述

createAttribute()
用指定的名字创建新的Attr节点。

createComment()
用指定的字符串创建新的Comment节点。

createElement()
用指定的标记名创建新的Element节点。

createTextNode()
用指定的文本创建新的TextNode节点。

getElementById()
返回文档中具有指定id属性的Element节点。

getElementsByTagName()
返回文档中具有指定标记名的所有Element节点。

对于Element节点,可以通过调用getAttribute()、setAttribute()、removeAttribute()方法来查询、设置或者删除一个Element节点的性质,比如

标记的border属性。下面列出Element常用的属性:

属性
描述

tagName
元素的标记名称,比如<p>元素为P。HTML文档返回的tabName均为大写。

Element常用的方法:

方法
描述

getAttribute()
以字符串形式返回指定属性的值。

getAttributeNode()
以Attr节点的形式返回指定属性的值。

getElementsByTabName()
返回一个Node数组,包含具有指定标记名的所有Element节点的子孙节点,其顺序为在文档中出现的顺序。

hasAttribute()
如果该元素具有指定名字的属性,则返回true。

removeAttribute()
从元素中删除指定的属性。

removeAttributeNode()
从元素的属性列表中删除指定的Attr节点。

setAttribute()
把指定的属性设置为指定的字符串值,如果该属性不存在则添加一个新属性。

setAttributeNode()
把指定的Attr节点添加到该元素的属性列表中。

Attr对象代表文档元素的属性,有name、value等属性,可以通过Node接口的attributes属性或者调用Element接口的 getAttributeNode()方法来获取。不过,在大多数情况下,使用Element元素属性的最简单方法是getAttribute()和 setAttribute()两个方法,而不是Attr对象。

使用DOM操作HTML文档

Node对象定义了一系列属性和方法,来方便遍历整个文档。用parentNode属性和childNodes[]数组可以在文档树中上下移动;通过遍历childNodes[]数组或者使用firstChild和nextSibling属性进行循环操作,也可以使用lastChild和 previousSibling进行逆向循环操作,也可以枚举指定节点的子节点。而调用appendChild()、insertBefore()、 removeChild()、replaceChild()方法可以改变一个节点的子节点从而改变文档树。

需要指出的是,childNodes[]的值实际上是一个NodeList对象。因此,可以通过遍历childNodes[]数组的每个元素,来枚举一个给定节点的所有子节点;通过递归,可以枚举树中的所有节点。下表列出了Node对象的一些常用属性和方法:

Node对象常用属性:

属性
描述

attributes
如果该节点是一个Element,则以NamedNodeMap形式返回该元素的属性。

childNodes
以Node[]的形式存放当前节点的子节点。如果没有子节点,则返回空数组。

firstChild
以Node的形式返回当前节点的第一个子节点。如果没有子节点,则为null。

lastChild
以Node的形式返回当前节点的最后一个子节点。如果没有子节点,则为null。

nextSibling
以Node的形式返回当前节点的兄弟下一个节点。如果没有这样的节点,则返回null。

nodeName
节点的名字,Element节点则代表Element的标记名称。

nodeType
代表节点的类型。

parentNode
以Node的形式返回当前节点的父节点。如果没有父节点,则为null。

previousSibling
以Node的形式返回紧挨当前节点、位于它之前的兄弟节点。如果没有这样的节点,则返回null。

Node对象常用方法:

方法
描述

appendChild()
通过把一个节点增加到当前节点的childNodes[]组,给文档树增加节点。

cloneNode()
复制当前节点,或者复制当前节点以及它的所有子孙节点。

hasChildNodes()
如果当前节点拥有子节点,则将返回true。

insertBefore()
给文档树插入一个节点,位置在当前节点的指定子节点之前。如果该节点已经存在,则删除之再插入到它的位置。

removeChild()
从文档树中删除并返回指定的子节点。

replaceChild()
从文档树中删除并返回指定的子节点,用另一个节点替换它。

接下来,让我们使用上述的DOM应用编程接口,来试着操作HTML文档。

A、遍历文档的节点

DOM把一个HTML文档视为树,因此,遍历整个树是应该是家常便饭。跟之前说过的一样,这里我们提供两个遍历树的例子。通过它,我们能够学会如何使用childNodes[]和firstChile、lastChild、nextSibling、previousSibling遍历整棵树。

例子1– sample3_1.htm:

这个例子使用了childNodes[]和递归方式来遍历整个文档,统计文档中出现的Element元素总数,并把Element标记名全部打印出来。需要特别注意的是,在使用DOM时,必须等文档被装载完毕再执行遍历等行为操作文档。sample3_1.htm具体代码如下:


无标题文档

开始统计

运行效果如下:

例子2 – sample3_2.htm:

接下来使用firstChile、lastChild、nextSibling、previousSibling遍历整个文档树。修改一下countTotalElement函数,其他跟sample3_1.htm一样:


function countTotalElement(node) { //参数node是一个Node对象

var total = 0;

if(node.nodeType == 1) { //检查node是否为Element对象

total++; //如果是,计数器加1

elementName = elementName + node.tagName + "rn"; //保存标记名

}

var childrens = node.childNodes; //获取node的全部子节点

for(var m=node.firstChild; m!=null;m=m.nextSibling) {

total += countTotalElement(m); //在每个子节点上进行递归操作

}

return total;

}

B、搜索文档中特定的元素

在使用DOM的过程中,有时候需要定位到文档中的某个特定节点,或者具有特定类型的节点列表。这种情况下,可以调用Document对象的getElementsByTagName()和getElementById()方法来实现。

document.getElementsByTagName()返回文档中具有指定标记名的全部Element节点数组(也是NodeList类型)。Element出现在数组中的顺序就是他们在文档中出现的顺序。传递给getElementsByTagName()的参数忽略大小写。比如,想定位到第一个<table>标记,可以这样写:document.getElementsByTagName("table")[0]。例外的,可以使用document.body定位到<body>标记,因为它是唯一的。

getElementsByTagName()返回的数组取决于文档。一旦文档改变,返回结果也立即改变。相比,getElementById() 则比较灵活,可以随时定位到目标,只是要实现给目标元素一个唯一的id属性值。这个我们在《AJAX开发简略》的"级联菜单"例子中已经使用过了。

Element对象也支持getElementsByTagName()和getElementById()。不同的是,搜索领域只针对调用者的子节点。

C、修改文档内容

遍历整棵文档树、搜索特定的节点,我们最终目的之一是要修改文档内容。接下来的三个例子将使用Node的几个常用方法,来演示如何修改文档内容。

例子3 — sample4_1.htm:

这个例子包含三个文本节点和一个按钮。点击按钮后,三个文本节点和按钮的顺序将被颠倒。程序使用了Node的appendChild()和removeChild()方法。


无标题文档

第一行

第二行

第三行

例子4– sample4_2.htm:

例子1通过直接操作body的子节点来修改文档。在HTML文档中,布局和定位常常通过表格<table>来实现。因此,例子4将演示操作表格内容,将表格的四个单元行顺序颠倒。如果没有使用<tbody>标签,则<table>把全部的<tr>当做是属于一个子节点<tbody>,所以我们采用数组缓存的方式,把行数据颠倒一下。这个例子同时也演示了如何使用DOM创建表格单元行。


无标题文档

第一行
第二行
第三行
第四行

例子5 — sample4_3.htm:

正如我们在Node节点介绍部分所指出的那样,appendChild()、replaceChild()、removeChild()、insertBefore()方法会立即改变文档的结构。下面的例子包含两个表格,我们试着把表格二的内容替换表格一的内容。


无标题文档

表格一

表格二

注意,当执行kid1.replaceChild(repKid,kid1.firstChild);的时候,table2的子节点已经被转移到 table1了,table2已经没有子节点,不能再调用table2的子节点。看看代码的注释,试着运行一下,应该就知道文档是怎么改变的了。

D、往文档添加新内容

在学会遍历、搜索、修改文档之后,我们现在试着网文档添加新的内容。其实没有什么新意,只是利用我们上述提到的Node的属性和方法而已,还是操作<table>标记的内容。有新意的是,我们要实现一个留言簿。是的,留言簿,你可以往里面留言,只是不能刷新噢。

例子6 – sample5_1.htm:


无标题文档

网友留言列表:

我们之前说过,<table>的子节点是<tbody><tbody>的子节点才是<tr><tr><td>的父节点,最后<td>内部的TextNode节点。所以,往<table>增加单元格行要逐级形成,就像往树里面添加一个枝桠一样,要有叶子有径。看看,这个留言簿是不是很简单啊。这个例子同时也演示了往<table>表格标记里面增加内容的另一种方法。

E使用DOM操作XML文档

在数据表示方面,XML文档更加结构化。DOM在支持HTML的基础上提供了一系列的API,支持针对XML的访问和操作。利用这些API,我们可以从XML中提取信息,动态的创建这些信息的HTML呈现文档。处理XML文档,通常遵循"加载XML文档à提取信息à加工信息à创建HTML文档"的过程。下面的例子演示了如何加载并处理XML文档。

这个例子包含两个JS函数。loadXML()负责加载XML文档,其中既包含加载XML文档的2级DOM代码,又有实现同样操作的 Microsoft专有API代码。需要提醒注意的是,文档加载过程不是瞬间完成的,所以对loadXML()的调用将在加载文档完成之前返回。因此,需要传递给loadXML()一个引用,以便文档加载完成后调用。

例子中的另外一个函数makeTable(),则在XML文档加载完毕之后,使用最后前介绍过的DOM应用编程接口读取XML文档信息,并利用这些信息形成一个新的table表格。

例子7 — sample6_1.htm:


无标题文档

供读取调用的XML文档 – employees.xml:


Programmer

32768

Sales

70000

CEO

100000

处理XML文档

脱离XML文档的AJAX是不完整的。在本部分未完成之前,有读者说AJAX改名叫AJAH(H应该代表HTML吧)比较合适。应该承认,XML文档在数据的结构化表示以及接口对接上有先天的优势,但也不是所有的数据都应该用XML表示。有些时候单纯的文本表示可能会更合适。下面先举个AJAX处理返回XML文档的例子再讨论什么时候使用XML。

7.5.1、处理返回的XML

例子8 — sample7_1.htm:

在这个例子中,我们采用之前确定的AJAX开发框架,稍微修改一下body内容和processRequest的相应方式,将先前的employees.xml的内容读取出来并显示。

body的内容如下:

processRequest()方法修改如下:

// 处理返回信息的函数


function processRequest() {

if (http_request.readyState == 4) { // 判断对象状态

if (http_request.status == 200) { // 信息已经成功返回,开始处理信息

var returnObj = http_request.responseXML;

var xmlobj = http_request.responseXML;

var employees = xmlobj.getElementsByTagName("employee");

var feedbackStr = "";

for(var i=0;i

运行一下,看来效果还不错:

7.5.2、选择合适的XML生成方式

现在的web应用程序往往采用了MVC三层剥离的设计方式。XML作为一种数据保存、呈现、交互的文档,其数据往往是动态生成的,通常由 JavaBean转换过来。由JavaBean转换成XML文档的方式有好几种,选择合适的转换方式往往能达到事半功倍的效果。下面介绍两种常用的方式,以便需要的时候根据情况取舍。

A、类自行序列化成XML

类自行序列化成XML即每个类都实现自己的toXML()方法,选择合适的API、适当的XML结构、尽量便捷的生成逻辑快速生成相应的XML文档。显然,这种方式必须要求每个类编写专门的XML生成代码,每个类只能调用自己的toXML()方法。应用诸如JDOM等一些现成的API,可以减少不少开发投入。例子9是一个利用JDOM的API形成的toXML()方法。

例子9 — toXml() 的 JDOM 实现 — Employ类的toXml()方法:


public Element toXml() {

Element employee = new Element("employee");

Employee.setAttribute("name",name);

Element jobE = new Element("job").addContent(job);

employee.setContent(jobE);

Element salaryE = new Element("salary").addContent(salary);

employee.setContent(salaryE);

return employee;

}

JDOM提供了现成的API,使得序列化成XML的工作更加简单,我们只需要把toXML()外面包装一个Document,然后使用 XMLOutputter把文档写入servlet就可以了。toXml()允许递归调用其子类的toXML()方法,以便生成包含子图的XML文档。

使用类自行序列化成XML的方式,要每个类都实现自己的toXML()方法,而且存在数据模型与视图耦合的问题,即要么为每个可能的视图编写独立的toXML()方法,要么心甘情愿接收冗余的数据,一旦数据结构或者文档发生改变,toXML()就要做必要的修改。

B、页面模板生成XML方式

一般的,可以采用通用的页面模板技术来生成XML文档,这个XML文档可以符合任何需要的数据模型,供AJAX灵活的调用。另外,模板可以采用任何标记语言编写,提高工作效率。下面是一个采用Struts标签库编写的XML文档,输出之前提到的employees.xml:

Sample8_2.jsp:


<%@ page contentType="application/xml; charset=gb2312" import="Employee"%>

<%@ page import="java.util.Collection,java.util.ArrayList"%>

<%@ taglib uri="/WEB-INF/struts-logic.tld" prefix="logic" %>

<%@ taglib uri="/WEB-INF/struts-bean.tld" prefix="bean"%>

<% Employee em1 = new Employee(); em1.setName("J.Doe"); em1.setJob("Programmer"); em1.setSalary("32768"); Employee em2 = new Employee(); em2.setName("A.Baker"); em2.setJob("Sales"); em2.setSalary("70000"); Employee em3 = new Employee(); em3.setName("Big Cheese"); em3.setJob("CEO"); em3.setSalary("100000"); Collection employees = new ArrayList(); employees.add(em1); employees.add(em2); employees.add(em3); pageContext.setAttribute("employees",employees); %>

采用页面模板生成XML方式,需要为每个需要的的数据模型建立一个对立的JSP文件,用来生成符合规范的XML文档,而不能仅仅在类的toXML()方法中组织对象图来实现。不过,倒是可以更加方便的确保标记匹配、元素和属性的顺序正确以及XML实体正确转义。

参考资料中Philip McCarthy的文章还描述了一种Javascript对象标注的生成方式,本文在此不赘述。有兴趣的读者可以自行查看了解。

7.5.3、如何在使用XML还是普通文本间权衡

使用XML文档确实有其方便之处。不过XML文档的某些问题倒是要考虑一下,比如说延迟,即服务器不能立即解析XML文档成为DOM模型。这个问题在一定程度上会影响AJAX要求的快速反应能力。另外,某些情况下我们并不需要使用XML来表示数据,比如说数据足够简单成只有一个字符串而已。就好像我们之前提到的数据校验和级联菜单的例子一样。所以,个人认为在下面这些情况下可以考虑使用XML来作为数据表示的介质:

l 数据比较复杂,需要用XML的结构化方式来表示

l 不用考虑带宽和处理效率支出

l 与系统其他API或者其他系统交互,作为一种数据中转中介

l 需要特定各式的输出视图而文本无法表示的

总之,要认真评估两种表示方式的表示成本和效率,选择合适的合理的表示方式。

Leave a Comment

Your email address will not be published.

*

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据