xpath，sax,DOM解析xml文件（基础）

2023-10-26

基础

XML解析器有二类，分别是DOM和SAX。

DOM

DOM解析器在解析XML文档时，会把文档中的所有元素，按照其出现的层次关系，解析成一个个Node对象(节点)。

很方便对文档进行遍历对文档curd也特别方便 xml文档比较大的时候，dom解析占用的内存也会比较大，浪费系统资源。所以dom解析这种方式不适合解析大的xml文档。

SAX

解析文件速度快，占用资源（内存）少。 sax解析只适合读取文档数据，不适合对文档进行增删改。

1 DOM一次性将整个XML文件读到内存，形成一个倒状的树形结构
2 SAX多次将整个XML文件读到内存

SAX采用事件处理的方式解析XML文件，利用 SAX 解析 XML 文档，涉及两个部分：解析器和事件处理器：
解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去解析某个XML文档。
解析器采用SAX方式在解析某个XML文档时，它只要解析到XML文档的一个组成部分，都会去调用事件处理器的一个方法，解析器在调用事件处理器的方法时，会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。
事件处理器由程序员编写，程序员通过事件处理器中方法的参数，就可以很轻松地得到sax解析器解析到的数据，从而可以决定如何对数据进行处理。

3 Document对象代表XML文件在内存中的映像

4 基于dom4j的xpath技术

能够在xml文件中，快速定位需要元素，无需从根元素一个一个的导航到需要的子元素
   Document.selectNodes()：取得所有符合xpath格式的元素
   Document.selectSingleNode()：取得所有符合xpath格式的元素的第一个元素
   Node类型是Element/Text/Attribute/Document/...类型的父接口

xpath读取xml

//使用xpath技术取得xml文件中任意级别下的内容
public class Demo1 {
	public static void main(String[] args) throws Exception {
		SAXReader reader = new SAXReader();
		Document document = reader.read(new File("src/cn/feizhou/xml/xpath/car.xml"));
		String xpath = "//单价";
		Element element = (Element) document.selectSingleNode(xpath);
		System.out.println("第一辆汽车的单价是：" + element.getText());
		//List<Element> elementList = document.selectNodes(xpath);
		//System.out.println("第二辆汽车的单价是：" + elementList.get(1).getText());
	}
}

结果：第一辆汽车的单价是：30

sax解析器解析xml文件


import java.io.File;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.Attributes;
import org.xml.sax.helpers.DefaultHandler;

//使用sax解析器解析xml文件
public class Demo1 {
	public static void main(String[] args) throws Exception {
		//创建SAX解析器工厂
		SAXParserFactory factory = SAXParserFactory.newInstance();
		//创建SAX解析器
		SAXParser saxParser = factory.newSAXParser();
		//加载xml文件
		saxParser.parse(
				new File("src/cn/feizhou/xml/sax/car.xml"),
				new MyHandler());
	}
}
//自定义SAX处理器
class MyHandler extends DefaultHandler{
	private long begin;
	public void startDocument(){
		System.out.println("解析XML文件开始");
		begin = System.currentTimeMillis();
	} 
	public void endDocument() {
		System.out.println("解析XML文件结束");
		long end = System.currentTimeMillis();
		System.out.println("解析XML共用" + (end-begin) + "毫秒");
	}
	public void startElement(
			String uri, 
			String localName, 
			String qName, 
			Attributes attributes){
		//元素名称
		System.out.println("<"+qName+">");
		//属性数量
		System.out.println("有"+attributes.getLength()+"个属性");
		//属性值
		System.out.println(attributes.getValue("出产时间"));
	} 
	public void endElement(
			String uri, 
			String localName, 
			String qName){
		System.out.println("</"+qName+">");
	} 
	public void characters(
			char[] ch, 
			int start, 
			int length){
		//元素值
		String content = new String(ch,start,length);
		if(content.trim().length()>0){
			System.out.println(content);
		}
	} 
}




结果


解析XML文件开始
<车辆清单>
有0个属性
null
<汽车>
有0个属性
null
<车牌>
有1个属性
2011年
奥迪
</车牌>
<产地>
有0个属性
null
北京
</产地>
<单价>
有0个属性
null
30
</单价>
</汽车>
</车辆清单>
解析XML文件结束
解析XML共用2毫秒

上面引用的包

dom4j-1.6.1.jar

jaxen-1.1-beta-6.jar

使用DOM解析器解析XML文件

1 理解dom解析器机制
  1)dom解析和dom4j原理一致
  2)Node是所有元素的父接口
  3)常用的API：
	DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();取得DOM解析器工厂
	DocumentBuilder domParser = factory.newDocumentBuilder();取得DOM解析器
	domParser.parse(*.xml)加载需要解析的XML文件
	Document.getDocumentElement()取得XML文件的根元素/节点
	Element.getNodeName()：取得根元素
	Element.getElementsByTagName("汽车")取得"汽车"元素的集合
	NodeList.item(i)取得第N个元素，从0开始
	Element.getTextContent()：取得元素的文本内容
	Element.getAttributes().getNamedItem("出产时间").getTextContent()：取得元素中某属性的值
	document.createElement("汽车");创建新元素
	Element.setTextContent("我的汽车");设置元素的内容
	Element.appendChild(newCarElement);在尾部添加元素
	Element.insertBefore(newCarElement,
			     rootElement.getElementsByTagName("汽车").item(1));在指定的元素前添加元素
	TransformerFactory tf = TransformerFactory.newInstance();创建输出工厂
	Transformer transformer = tf.newTransformer();创建输出对象
	Source source = new DOMSource(document);创建内存的document对象		
	Result result = new StreamResult(new File("XXX/car.xml"));指定输出的目标地点
	transformer.transform(source,result);将document对象输出到xml文件中
        Element.setTextContent("深圳");更新元素的内容
	Element.removeChild(secondCarElement);在父元素基础上删除直接子元素
   4)dom解析器会将空白字符当作有效元素对待 
   5)要让dom解析器将空白字符忽略，必须满足二条件
	a)对XML文件必须写一个DTD约束
	b)factory.setIgnoringElementContentWhitespace(true);
   6)dom类解析器和sax类解析器
	a)dom是一次性加载到内容，形成document对象，人工导航，适合curd
	b)sax是分次性加载到内容，sax解析器导航，但程序员需要编写sax处理器，必须扩展DefaultHandler类



import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.transform.Result;
import javax.xml.transform.Source;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.junit.Test;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class Demo2 {
	
	
	 
 
	@Test
	/**
	 * 显示
	 * @return
	 */
		public void showElements() throws Exception{
			Document document = getDocument();
			Element rootElement  = document.getDocumentElement();
			//根元素
			System.out.println("根元素为："+rootElement.getNodeName());
			//获取标签名为汽车的所有元素
			NodeList nodeList = rootElement.getElementsByTagName("汽车");
			System.out.println("共有：" + nodeList.getLength()+"辆汽车");
			System.out.println("+++++++第一辆汽车的信息+++++++++");
			for(int i=0;i<nodeList.getLength();i++){
				Element element = (Element) nodeList.item(i);
				String band = element.getElementsByTagName("车牌").item(0).getTextContent();
				String place = element.getElementsByTagName("产地").item(0).getTextContent();
				String price = element.getElementsByTagName("单价").item(0).getTextContent();
				String time = element.getElementsByTagName("车牌").item(0).getAttributes().getNamedItem("出产时间").getTextContent();		
				System.out.println("车牌：" + band);
				System.out.println("产地：" + place);
				System.out.println("单价：" + price);
				System.out.println("出产时间：" + time);
			}
		}
	@Test
	/**
	 * 创建元素并插入元素
	 * @throws Exception
	 */
	public void createAndInsert() throws Exception{
		Document document = getDocument();
//		创建元素
		Element newCarElement = document.createElement("汽车");
		newCarElement.setTextContent("我的汽车");
		Element rootElement = document.getDocumentElement();
		//rootElement.appendChild(newCarElement);
//		插入元素
		rootElement.insertBefore(
				newCarElement,
				rootElement.getElementsByTagName("汽车").item(1));
		write2xml(document);
	}
	@Test
	/**
	 * 修改元素
	 * @throws Exception
	 */
	public void update() throws Exception{
		Document document = getDocument();
		//获取元素
		Element secondCarElement = (Element) document.getElementsByTagName("汽车").item(1);
		//修改元素
		secondCarElement.getElementsByTagName("产地").item(0).setTextContent("深圳");
		secondCarElement.getElementsByTagName("车牌").item(0).getAttributes().getNamedItem("出产时间").setTextContent("2012年");
		write2xml(document);
	}
	@Test
	/**
	 * 删除元素
	 * @throws Exception
	 */
	public void delete() throws Exception{
		Document document = getDocument();
//		获取元素
		Element rootElement = document.getDocumentElement();
		Element secondCarElement = (Element) rootElement.getElementsByTagName("汽车").item(1);
		//删除元素
		rootElement.removeChild(secondCarElement);
		write2xml(document);
	}
	/**
	 *将Document写入xml
	 * @param document
	 * @throws Exception
	 */
	private void write2xml(Document document)throws Exception {
		//将内存中的document对象写到外存的xml文件
		TransformerFactory tf = TransformerFactory.newInstance();
		Transformer transformer = tf.newTransformer();
		//源
		Source source = new DOMSource(document);
		//目
		Result result = new StreamResult(new File("src/cn/feihzou/xml/dom/car.xml"));
		transformer.transform(source,result);
	}
	/**
	 * 获取Document对象
	 * @return
	 * @throws Exception
	 */
	private static Document getDocument() throws Exception {
//		得到创建 DOM 解析器的工厂。
		DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
		//设置dom解析器将空白字符过滤
		factory.setIgnoringElementContentWhitespace(true);
		//DOM 解析器对象
		DocumentBuilder domParser = factory.newDocumentBuilder();
		Document document = domParser.parse(new File("src/cn/feihzou/xml/dom/car.xml"));
		return document;
	}
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java进阶