在Linux是使用libxml2---从安装到使用

2023-11-19

一、下载和安装LIBXML2
【方法一】

Libxml2是个C语言的XML程式库，能简单方便的提供对XML文件的各种操作，并且支持XPATH查询，及部分的支持XSLT转换等功能。Libxml2的下载地址是
http://xmlsoft.org/
完全版的库是开源的，并且带有例子程式和说明文件。由于我是在linux下用C语言进行研发的，所以我下载的是libxml2-2.6.20.tar.gz版本的源码包。

具体安装步骤：
1、解压：$tar zxvf libxml2-2.6.20.tar.gz
2、进入解压后的安装目录：$cd libxml2-2.6.20
3、安装三部曲：1）$./configure
2)$make
3)$make install
安装完毕。

libxml2安装中出现的错误:

cannot remove `libtoolT': No such file or directory

解决方法:

修改configure文件

$ vim configure

删除这一行: $RM "$cfgfile"

重新再运行 $ ./configure

你在安装libxml2的时候，./configure --prefix=/usr/local
你在安装好后，需要重新定义：
export LD_LIBRARY_PATH=/usr/local/lib
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
具体的位置根据prefix指定的路径定。

【方法二】

#sudo apt-get install libxml2

#sudo apt-get install libxml2-dev

【方法三】

libxml2 安装使用收藏

在项目中需要对数据的保存与交换，为了方便期间使用普通文本保存。但对文本解析时，考虑到程序的健壮性就需要处理多种意外情况，比较麻烦，因此对xml产生了点兴趣。xml本身网站上有大把的资料，可以随时参考。

Gnome项目提供了一个xml的C解析器:Libxml2。libxml2最新提供了xmlreader接口，使用很方便，不过版本在2.6以上才支持。今天倒腾了一了下，做了下简单测试，在编译自己的小程序上被拌了一下，写文纪念。

现在的最新版本是2.6.30，可以到http://ftp.gnome.org/pub/GNOME/sources/libxml2/2.6/ 下载。

安装很简单，三部走。

view plaincopy to clipboardprint?

01.// install

02.#./configure

03.#make

04.#make install

05.//test install

06.#make tests

07.//uninstall

08.#make uninstall

// install

#./configure

#make

#make install

//test install

#make tests

//uninstall

#make uninstall

如果不需要特别的定制，在configure阶段可以直接默认。 libxml2将默认把头文件与库安装在/usr/local/include/libxml2/libxml目录下。因此可能会让你在第一次编译自己的程序时遇到头文件“no such file”的错误（比如我自己就这么笨╮(╯▽╰)╭）。

libxml2提供了解决方法，它很体贴地在/usr/local/bin目录下为您提供了xml2-config、xmlcatalog、xmllint三个便利的工具（嘀咕下：其实一点都不便利，提前给人说下多好啊，还得害人去查资料）。其中xml2-config在编译时用得到。

xml2-config可以。。。自己看下面吧

view plaincopy to clipboardprint?

01.[root@Amanda ~]# xml2-config

02.Usage: xml2-config [OPTION]

03.Known values for OPTION are:

04. --prefix=DIR change libxml prefix [default /usr/local]

05. --exec-prefix=DIR change libxml exec prefix [default /usr/local]

06. --libs print library linking information

07. --cflags print pre-processor and compiler flags

08. --modules module support enabled

09. --help display this help and exit

10. --version output version information

[root@Amanda ~]# xml2-config

Usage: xml2-config [OPTION]

Known values for OPTION are:

--prefix=DIR change libxml prefix [default /usr/local]

--exec-prefix=DIR change libxml exec prefix [default /usr/local]

--libs print library linking information

--cflags print pre-processor and compiler flags

--modules module support enabled

--help display this help and exit

--version output version information

这里说到编译时用到的参数: --cflags和--libs，帮助上说明这个为工程编译时提供辅助。它们提供的信息如下：

view plaincopy to clipboardprint?

01.[root@Amanda ~]# xml2-config --cflags

02.-I/usr/local/include/libxml2

03.[root@Amanda ~]# xml2-config --libs

04.-L/usr/local/lib -lxml2 -lz -lm

[root@Amanda ~]# xml2-config --cflags

-I/usr/local/include/libxml2

[root@Amanda ~]# xml2-config --libs

-L/usr/local/lib -lxml2 -lz -lm

所以在编译自己的测试程序时，可以直接使用 #gcc -I /usr/local/include/libxml2 -L/usr/local/lib -lxml2 -lz -lm -o test test.c 。

或者加入到makefile中，例如：

CFLAGS=`xml2-config --cflags`

LIBS=`xml2-config --libs`

测试程序：

#include <stdio.h>

#include <libxml/parser.h>

#include <libxml/tree.h>

int main(int argc, char **argv)

{

xmlDocPtr doc = NULL;

xmlNodePtr root_node = NULL, node = NULL, node1 = NULL;

doc = xmlNewDoc(BAD_CAST "1.0");

root_node = xmlNewNode(NULL, BAD_CAST "root");

xmlDocSetRootElement(doc, root_node);

xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST "content of node1");

node=xmlNewChild(root_node, NULL, BAD_CAST "node3",BAD_CAST"node has attributes");

xmlNewProp(node, BAD_CAST "attribute", BAD_CAST "yes");

node = xmlNewNode(NULL, BAD_CAST "node4");

node1 = xmlNewText(BAD_CAST"other way to create content");

xmlAddChild(node, node1);

xmlAddChild(root_node, node);

xmlSaveFormatFileEnc(argc > 1 ? argv[1] : "-", doc, "UTF-8", 1);

xmlFreeDoc(doc);

xmlCleanupParser();

xmlMemoryDump();

return(0);

}

用下面的命令编译通过。

gcc -I /usr/local/include/libxml2 -L /usr/local/lib -lxml2 test.c -o test

二、Libxml2中的数据类型和函数

一个函数库中可能有几百种数据类型及几千个函数，不过记住大师的话，90%的功能都是由30%的内容提供的。对于libxml2(http://blog.csdn.net/shanzhizi)，我认为搞懂以下的数据类型和函数就足够了。
2.1   内部字符类型xmlChar
xmlChar是Libxml2中的字符类型，库中所有字符、字符串都是基于这个数据类型。事实上他的定义是：xmlstring.h
typedef unsigned char xmlChar;
使用unsigned char作为内部字符格式是考虑到他能非常好适应UTF-8编码，而UTF-8编码正是libxml2的内部编码，其他格式的编码要转换为这个编码才能在libxml2中使用。
还经常能看到使用xmlChar*作为字符串类型，非常多函数会返回一个动态分配内存的xmlChar*变量，使用这样的函数时记得要手动删除内存。
2.2   xmlChar相关函数
如同标准c中的char类型相同，xmlChar也有动态内存分配、字符串操作等相关函数。例如xmlMalloc是动态分配内存的函数；xmlFree是配套的释放内存函数；xmlStrcmp是字符串比较函数等等。
基本上xmlChar字符串相关函数都在xmlstring.h中定义；而动态内存分配函数在xmlmemory.h中定义。
2.3   xmlChar*和其他类型之间的转换
另外要注意，因为总是要在xmlChar*和char*之间进行类型转换，所以定义了一个宏BAD_CAST，其定义如下：xmlstring.h
#define BAD_CAST (xmlChar *)
原则上来说，unsigned char和char之间进行强制类型转换是没有问题的。
2.4   文件类型xmlDoc、指针xmlDocPtr
xmlDoc是个struct，保存了一个xml的相关信息，例如文件名、文件类型、子节点等等；xmlDocPtr等于xmlDoc*，他搞成这个样子总让人以为是智能指针，其实不是，要手动删除的。
xmlNewDoc函数创建一个新的文件指针。
xmlParseFile函数以默认方式读入一个UTF-8格式的文件，并返回文件指针。
xmlReadFile函数读入一个带有某种编码的xml文件，并返回文件指针；细节见libxml2参考手册。
xmlFreeDoc释放文件指针。特别注意，当你调用xmlFreeDoc时，该文件所有包含的节点内存都被释放，所以一般来说不必手动调用xmlFreeNode或xmlFreeNodeList来释放动态分配的节点内存，除非你把该节点从文件中移除了。一般来说，一个文件中所有节点都应该动态分配，然后加入文件，最后调用xmlFreeDoc一次释放所有节点申请的动态内存，这也是为什么我们非常少看见xmlNodeFree的原因。
xmlSaveFile将文件以默认方式存入一个文件。
xmlSaveFormatFileEnc可将文件以某种编码/格式存入一个文件中。
2.5   节点类型xmlNode、指针xmlNodePtr
节点应该是xml中最重要的元素了，xmlNode代表了xml文件中的一个节点，实现为一个struct，内容非常丰富：tree.h
typedef struct _xmlNode xmlNode;
typedef xmlNode *xmlNodePtr;
struct _xmlNode {
    void           *_private;/* application data */
    xmlElementType   type;   /* type number, must be second ! */
    const xmlChar   *name;      /* the name of the node, or the entity */
    struct _xmlNode *children; /* parent->childs link */
    struct _xmlNode *last;   /* last child link */
    struct _xmlNode *parent;/* child->parent link */
    struct _xmlNode *next;   /* next sibling link */
    struct _xmlNode *prev;   /* previous sibling link */
    struct _xmlDoc *doc;/* the containing document */
    /* End of common part */
    xmlNs           *ns;        /* pointer to the associated namespace */
    xmlChar         *content;   /* the content */
    struct _xmlAttr *properties;/* properties list */
    xmlNs           *nsDef;     /* namespace definitions on this node */
    void            *psvi;/* for type/PSVI informations */
    unsigned short   line;   /* line number */
    unsigned short   extra; /* extra data for XPath/XSLT */
};
能看到，节点之间是以链表和树两种方式同时组织起来的，next和prev指针能组成链表，而parent和children能组织为树。同时更有以下重要元素：
l         节点中的文字内容：content；
l         节点所属文件：doc；
l         节点名字：name；
l         节点的namespace：ns；
l         节点属性列表：properties；
Xml文件的操作其根本原理就是在节点之间移动、查询节点的各项信息，并进行增加、删除、修改的操作。
xmlDocSetRootElement函数能将一个节点设置为某个文件的根节点，这是将文件和节点连接起来的重要手段，当有了根结点以后，所有子节点就能依次连接上根节点，从而组织成为一个xml树。
2.6   节点集合类型xmlNodeSet、指针xmlNodeSetPtr
节点集合代表一个由节点组成的变量，节点集合只作为Xpath的查询结果而出现（XPATH的介绍见后面），因此被定义在xpath.h中，其定义如下：
/*
* A node-set (an unordered collection of nodes without duplicates).
*/
typedef struct _xmlNodeSet xmlNodeSet;
typedef xmlNodeSet *xmlNodeSetPtr;
struct _xmlNodeSet {
    int nodeNr;          /* number of nodes in the set */
    int nodeMax;      /* size of the array as allocated */
    xmlNodePtr *nodeTab;/* array of nodes in no particular order */
    /* @@ with_ns to check wether namespace nodes should be looked at @@ */
};
能看出，节点集合有三个成员，分别是节点集合的节点数、最大可容纳的节点数，及节点数组头指针。对节点集合中各个节点的访问方式非常简单，如下：
xmlNodeSetPtr nodeset = XPATH查询结果;
for (int i = 0; i nodeNr; i++)
{
nodeset->nodeTab;
}
注意，libxml2是个c函数库，因此其函数和数据类型都使用c语言的方式来处理。如果是c++，我想我宁愿用STL中的vector来表示一个节点集合更好，而且没有内存泄漏或溢出的担忧。
3.       简单xml操作例子
了解以上基本知识之后，就能进行一些简单的xml操作了。当然，还没有涉及到内码转换（使得xml中能处理中文）、xpath等较复杂的操作。
3.1   创建xml文件
有了上面的基础，创建一个xml文件显得非常简单，其流程如下：
l         用xmlNewDoc函数创建一个文件指针doc；
l         用xmlNewNode函数创建一个节点指针root_node；
l         用xmlDocSetRootElement将root_node设置为doc的根结点；
l         给root_node添加一系列的子节点，并设置子节点的内容和属性；
l         用xmlSaveFile将xml文件存入文件；
l         用xmlFreeDoc函数关闭文件指针，并清除本文件中所有节点动态申请的内存。
注意，有多种方式能添加子节点：第一是用xmlNewTextChild直接添加一个文本子节点；第二是先创建新节点，然后用xmlAddChild将新节点加入上层节点。
原始码文件是CreateXmlFile.cpp，如下：
/********************************************************************
    created:   2007/11/09
    created:   9:11:2007   15:34
    filename: CreateXmlFile.cpp
    author:       Wang xuebin
    depend:       libxml2.lib
    build:     nmake TARGET_NAME=CreateXmlFile
    purpose:   创建一个xml文件
*********************************************************************/
#include
#include
#include
#include
int main()
{
    //定义文件和节点指针
    xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");
    xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");
    //设置根节点
    xmlDocSetRootElement(doc,root_node);
    //在根节点中直接创建节点
    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");
    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");
    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");
    //创建一个节点，设置其内容和属性，然后加入根结点
    xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");
    xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");
    xmlAddChild(root_node,node);
    xmlAddChild(node,content);
    xmlNewProp(node,BAD_CAST"attribute",BAD_CAST "yes");
    //创建一个儿子和孙子节点
    node = xmlNewNode(NULL, BAD_CAST "son");
    xmlAddChild(root_node,node);
    xmlNodePtr grandson = xmlNewNode(NULL, BAD_CAST "grandson");
    xmlAddChild(node,grandson);
    xmlAddChild(grandson, xmlNewText(BAD_CAST "This is a grandson node"));
    //存储xml文件
    int nRel = xmlSaveFile("CreatedXml.xml",doc);
    if (nRel != -1)
    {
       cout一个xml文件被创建,写入"个字节"    }
    //释放文件内节点动态申请的内存
    xmlFreeDoc(doc);
    return 1;
}
编译链接命令如下：
nmake TARGET_NAME=CreateXmlFile
然后执行可执行文件CreateXmlFile.exe，会生成一个xml文件CreatedXml.xml，打开后如下所示：
root>
    newNode1>newNode1 contentnewNode1>
    newNode2>newNode2 contentnewNode2>
    newNode3>newNode3 contentnewNode3>
    node2 attribute="yes">NODE CONTENTnode2>
    son>
       grandson>This is a grandson nodegrandson>
    son>
root>
最佳使用类似XMLSPY这样的工具打开，因为这些工具能自动整理xml文件的栅格，否则非常有可能是没有所有换行的一个xml文件，可读性较差。
3.2   解析xml文件
解析一个xml文件，从中取出想要的信息，例如节点中包含的文字，或某个节点的属性，其流程如下：
l         用xmlReadFile函数读出一个文件指针doc；
l         用xmlDocGetRootElement函数得到根节点curNode；
l         curNode->xmlChildrenNode就是根节点的子节点集合；
l         轮询子节点集合，找到所需的节点，用xmlNodeGetContent取出其内容；
l         用xmlHasProp查找含有某个属性的节点；
l         取出该节点的属性集合，用xmlGetProp取出其属性值；
l         用xmlFreeDoc函数关闭文件指针，并清除本文件中所有节点动态申请的内存。
注意：节点列表的指针依然是xmlNodePtr，属性列表的指针也是xmlAttrPtr，并没有xmlNodeList或xmlAttrList这样的类型。看作列表的时候使用他们的next和prev链表指针来进行轮询。只有在Xpath中有xmlNodeSet这种类型，其使用方法前面已介绍了。
原始码如下：ParseXmlFile.cpp
/********************************************************************
    created:   2007/11/15
    created:   15:11:2007   11:47
    filename: ParseXmlFile.cpp
    author:       Wang xuebin
    depend:       libxml2.lib
    build:     nmake TARGET_NAME=ParseXmlFile
    purpose:   解析xml文件
*********************************************************************/
#include
#include
int main(int argc, char* argv[])
{
    xmlDocPtr doc;           //定义解析文件指针
    xmlNodePtr curNode;      //定义结点指针(你需要他为了在各个结点间移动)
    xmlChar *szKey;          //临时字符串变量
    char *szDocName;
    if (argc     {
       printf("Usage: %s docname"n", argv[0]);
       return(0);
    }
    szDocName = argv[1];
    doc = xmlReadFile(szDocName,"GB2312",XML_PARSE_RECOVER); //解析文件
    //检查解析文件是否成功，如果不成功，libxml将指一个注册的错误并停止。
    //一个常见错误是不适当的编码。XML标准文件除了用UTF-8或UTF-16外还可用其他编码保存。
    //如果文件是这样，libxml将自动地为你转换到UTF-8。更多关于XML编码信息包含在XML标准中.
    if (NULL == doc)
    {
       fprintf(stderr,"Document not parsed successfully. "n");
       return -1;
    }
    curNode = xmlDocGetRootElement(doc); //确定文件根元素
    /*检查确认当前文件中包含内容*/
    if (NULL == curNode)
    {
       fprintf(stderr,"empty document"n");
       xmlFreeDoc(doc);
       return -1;
    }
    /*在这个例子中，我们需要确认文件是正确的类型。“root”是在这个示例中使用文件的根类型。*/
    if (xmlStrcmp(curNode->name, BAD_CAST "root"))
    {
       fprintf(stderr,"document of the wrong type, root node != root");
       xmlFreeDoc(doc);
       return -1;
    }
    curNode = curNode->xmlChildrenNode;
    xmlNodePtr propNodePtr = curNode;
    while(curNode != NULL)
    {
       //取出节点中的内容
       if ((!xmlStrcmp(curNode->name, (const xmlChar *)"newNode1")))
       {
           szKey = xmlNodeGetContent(curNode);
           printf("newNode1: %s"n", szKey);
           xmlFree(szKey);
       }
       //查找带有属性attribute的节点
       if (xmlHasProp(curNode,BAD_CAST "attribute"))
       {
           propNodePtr = curNode;
       }
       curNode = curNode->next;
    }
    //查找属性
    xmlAttrPtr attrPtr = propNodePtr->properties;
    while (attrPtr != NULL)
    {
       if (!xmlStrcmp(attrPtr->name, BAD_CAST "attribute"))
       {
           xmlChar* szAttr = xmlGetProp(propNodePtr,BAD_CAST "attribute");
           cout           xmlFree(szAttr);
       }
       attrPtr = attrPtr->next;
    }
    xmlFreeDoc(doc);
    return 0;
}
编译链接命令如下：
nmake TARGET_NAME=ParseXmlFile
执行命令如下，使用第一次创建的xml文件作为输入：
ParseXmlFile.exe CreatedXml.xml
观察原始码可发现，所有以查询方式得到的xmlChar*字符串都必须使用xmlFree函数手动释放。否则会造成内存泄漏。
3.3   修改xml文件
有了上面的基础，修改xml文件的内容就非常简单了。首先打开一个已存在的xml文件，顺着根结点找到需要添加、删除、修改的地方，调用相应的xml函数对节点进行增、删、改操作。原始码见ChangeXmlFile，编译链接方法如上。执行下面的命令：
ChangeXmlFile.exe CreatedXml.xml
能得到一个修改后的xml文件ChangedXml.xml，如下：
root>
    newNode2>content changednewNode2>
    newNode3 newAttr="YES">newNode3 contentnewNode3>
    node2 attribute="no">NODE CONTENTnode2>
    son>
       grandson>This is a grandson nodegrandson>
       newGrandSon>new contentnewGrandSon>
    son>
root>
需要注意的是，并没有xmlDelNode或xmlRemoveNode函数，我们删除节点使用的是以下一段代码：
       if (!xmlStrcmp(curNode->name, BAD_CAST "newNode1"))
       {
           xmlNodePtr tempNode;
           tempNode = curNode->next;
           xmlUnlinkNode(curNode);
           xmlFreeNode(curNode);
           curNode = tempNode;
           continue;
       }
即将当前节点从文件中断链（unlink），这样本文件就不会再包含这个子节点。这样做需要使用一个临时变量来存储断链节点的后续节点，并记得要手动删除断链节点的内存。
3.4   使用XPATH查找xml文件
简而言之，XPATH之于xml，好比SQL之于关系数据库。要在一个复杂的xml文件中查找所需的信息，XPATH简直是必不可少的工具。XPATH语法简单易学，并且有一个非常好的官方教程，见
http://www.zvon.org/xxl/XPathTutorial/Output_chi/introduction.html
。这个站点的XML各种教程齐全，并且有包括中文在内的各国语言版本，真是让我喜欢到非常！
使用XPATH之前，必须首先熟悉几个数据类型和函数，他们是使用XPATH的前提。在libxml2中使用Xpath是非常简单的，其流程如下：
l         定义一个XPATH上下文指针xmlXPathContextPtr context，并且使用xmlXPathNewContext函数来初始化这个指针；
l         定义一个XPATH对象指针xmlXPathObjectPtr result，并且使用xmlXPathEvalExpression函数来计算Xpath表达式，得到查询结果，将结果存入对象指针中；
l         使用result->nodesetval得到节点集合指针，其中包含了所有符合Xpath查询结果的节点；
l         使用xmlXPathFreeContext释放上下文指针；
l         使用xmlXPathFreeObject释放Xpath对象指针；
具体的使用方法能看XpathForXmlFile.cpp的这一段代码，其功能是查找符合某个Xpath语句的对象指针：
xmlXPathObjectPtr getNodeSet(xmlDocPtr doc, const xmlChar *szXpath)
{
    xmlXPathContextPtr context;    //XPATH上下文指针
    xmlXPathObjectPtr result;       //XPATH对象指针，用来存储查询结果
    context = xmlXPathNewContext(doc);     //创建一个XPath上下文指针
    if (context == NULL)
    {
       printf("context is NULL"n");
       return NULL;
    }
    result = xmlXPathEvalExpression(szXpath, context); //查询XPath表达式，得到一个查询结果
    xmlXPathFreeContext(context);             //释放上下文指针
    if (result == NULL)
    {
       printf("xmlXPathEvalExpression return NULL"n");
       return NULL;
    }
    if (xmlXPathNodeSetIsEmpty(result->nodesetval))   //检查查询结果是否为空
    {
       xmlXPathFreeObject(result);
       printf("nodeset is empty"n");
       return NULL;
    }
    return result;
}
一个完整的使用Xpath的例子在代码XpathForXmlFile.cpp中，他查找一个xml文件中符合"/root/node2[@attribute=’yes’]"语句的结果，并且将找到的节点的属性和内容打印出来。编译链接命令如下：
nmake TARGET_NAME=XpathForXmlFile
执行方式如下：
XpathForXmlFile.exe CreatedXml.xml
观察结果能看出找到了一个节点，即root下面node2节点，他的attribute属性值正好等于yes。更多关于Xpath的内容能参考XPATH官方手册。只有掌控了XPATH，才掌控了使用大型XML文件的方法，否则每寻找一个节点都要从根节点找起，会把人累死。
4.       用ICONV解决XML中的中文问题
Libxml2中默认的内码是UTF-8，所有使用libxml2进行处理的xml文件，必须首先显式或默认的转换为UTF-8编码才能被处理。
要在xml中使用中文，就必须能够在UTF-8和GB2312内码（较常用的一种简体中文编码）之间进行转换。Libxml2提供了默认的内码转换机制，并且在libxml2的Tutorial中有一个例子，事实证实这个例子并不适合用来转换中文。
所以需要我们显式的使用ICONV来进行内码转换，libxml2本身也是使用ICONV进行转换的。ICONV是个专门用来进行编码转换的库，基本上支持目前所有常用的编码。他是glibc库的一个部分，常常被用于UNIX系统中。当然，在windows下面使用也没有所有问题。前面已提到了ICONV的安装和使用方法，这里主要讲一下编程相关问题。
本节其实和xml及libxml2没有太大关系，你能把他简单看作是个编码转换方面的专题。我们仅仅需要学会使用两个函数就能了，即从UTF-8转换到GB2312的函数u2g，及反向转换的函数g2u，原始码在wxb_codeConv.c中：
/********************************************************************
    created:   2007/11/15
    created:   15:11:2007   10:30
    filename: wxb_codeConv.c
    author:       Wang xuebin
    depend:       iconv.lib
    build:     不必build，被包含到其他原始码中
    purpose:   提供从UTF-8到GB2312的内码转换，及反向的转换
*********************************************************************/
#include "iconv.h"
#include
//代码转换:从一种编码转为另一种编码
int code_convert(char* from_charset, char* to_charset, char* inbuf,
               int inlen, char* outbuf, int outlen)
{
    iconv_t cd;
    char** pin = &inbuf;
    char** pout = &outbuf;
    cd = iconv_open(to_charset,from_charset);
    if(cd == 0)
       return -1;
    memset(outbuf,0,outlen);
    if(iconv(cd,(const char**)pin,(unsigned int *)&inlen,pout,(unsigned int*)&outlen)
       == -1)
       return -1;
    iconv_close(cd);
    return 0;
}
//UNICODE码转为GB2312码
//成功则返回一个动态分配的char*变量，需要在使用完毕后手动free，失败返回NULL
char* u2g(char *inbuf)
{
    int nOutLen = 2 * strlen(inbuf) - 1;
    char* szOut = (char*)malloc(nOutLen);
    if (-1 == code_convert("utf-8","gb2312",inbuf,strlen(inbuf),szOut,nOutLen))
    {
       free(szOut);
       szOut = NULL;
    }
    return szOut;
}
//GB2312码转为UNICODE码
//成功则返回一个动态分配的char*变量，需要在使用完毕后手动free，失败返回NULL
char* g2u(char *inbuf)
{
    int nOutLen = 2 * strlen(inbuf) - 1;
    char* szOut = (char*)malloc(nOutLen);
    if (-1 == code_convert("gb2312","utf-8",inbuf,strlen(inbuf),szOut,nOutLen))
    {
       free(szOut);
       szOut = NULL;
    }
    return szOut;
}
使用的时候将这个c文件include到其他源文件中。include一个c文件并不奇怪，在c语言的年代我们常常这么干，唯一的害处的编译链接出来的可执行程式体积变大了。当然这时因为我们这段代码非常小的原因，再大一点我就要用dll了。
从UTF-8到GB2312的一个典型使用流程如下：
l         得到一个UTF-8的字符串szSrc；
l         定义一个char*的字符指针szDes，并不必给他动态审判内存；
l         szDes = u2g(szSrc)，这样就能得到转换后的GB2312编码的字符串；
l         使用完这个字符串后使用free(szDes)来释放内存。
本文并不准备讲述iconv中的函数细节，因为那几个函数及数据类型都非常简单，我们还是重点看一下怎么在libxml2中使用编码转换来处理带有中文的xml文件。下面是使用以上方法来创建一个带有中文的XML文件的例子程式CreateXmlFile_cn.cpp，原始码如下：
/********************************************************************
    created:   2007/11/17
    created:   9:11:2007   15:34
    filename: CreateXmlFile.cpp
    author:       Wang xuebin
    depend:       libxml2.lib iconv.lib
    build:     nmake TARGET_NAME=CreateXmlFile_cn
    purpose:   创建一个xml文件，其中包含中文
*********************************************************************/
#include
#include
#include
#include
#include "wxb_codeConv.c" //自己写的编码转换函数
int main(int argc, char **argv)
{
    //定义文件和节点指针
    xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");
    xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");
    //设置根节点
    xmlDocSetRootElement(doc,root_node);
    //一个中文字符串转换为UTF-8字符串，然后写入
    char* szOut = g2u("节点1的内容");
    //在根节点中直接创建节点
    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");
    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");
    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");
    xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST szOut);
    free(szOut);
    //创建一个节点，设置其内容和属性，然后加入根结点
    xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");
    xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");
    xmlAddChild(root_node,node);
    xmlAddChild(node,content);
    szOut = g2u("属性值");
    xmlNewProp(node,BAD_CAST"attribute",BAD_CAST szOut);
    free(szOut);
    //创建一个中文节点
    szOut = g2u("中文节点");
    xmlNewChild(root_node, NULL, BAD_CAST szOut,BAD_CAST "content of chinese node");
    free(szOut);
    //存储xml文件
    int nRel = xmlSaveFormatFileEnc("CreatedXml_cn.xml",doc,"GB2312",1);
    if (nRel != -1)
    {
       cout一个xml文件被创建,写入"个字节"    }
    xmlFreeDoc(doc);
    return 1;
}
编译链接命令如下：
nmake TARGET_NAME=CreateXmlFile_cn
完成后执行CreateXmlFile_cn.exe能生成一个xml文件CreatedXml_cn.xml，其内容如下：
root>
    newNode1>newNode1 contentnewNode1>
    newNode2>newNode2 contentnewNode2>
    newNode3>newNode3 contentnewNode3>
    node1>节点1的内容node1>
    node2 attribute="属性值">NODE CONTENTnode2>
    中文节点>content of chinese node中文节点>
root>
观察可知，节点的名称、内容、属性都能使用中文了。在解析、修改和查找XML文件时都能使用上面的方法，只要记住，进入xml文件之前将中文编码转换为UTF-8编码；从XML中取出数据时，不管三七二十一都能转换为GB2312再用，否则你非常有可能见到传说中的乱码！
5.       用XML来做点什么
有了以上的基础，相信已能顺利的在c/c++程式中使用XML文件了。那么，我们到底要用XML来做什么呢？我随便说一说自己的想法：
第一，能用来作为设置文件。例如非常多组件就是用XML来做设置文件；当然，我们知道用INI做设置文件更简单，只要熟悉两个函数就能了；不过，复杂一点的设置文件我还是建议采用XML；
第二，能用来作为在程式之间传送数据的格式，这样的话最佳给你的xml先定义一个XML Schema，这样的数据首先能做一个良构校验，还能来一个Schema校验，如此的话出错率会比没有格式的数据小得多。目前XML已广泛作为网络之间的数据格式了；
第三，能用来作为你自定义的数据存储格式，例如对象持久化之类的功能；
最后，能用来显示你的技术非常高深，本来你要存储一个1，结果你这样存储了：
root>
    My_Program_Code content="1">My_Program_Code>
root>

来自：http://blog.csdn.net/ly61baby/article/details/6458362

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在Linux是使用libxml2---从安装到使用的相关文章

C 语言的符号表

我目前正在开发一种执行模式匹配的静态分析工具我在用Flex https github com westes flex生成词法分析器我编写了代码来管理符号表我不太有经验C 所以我决定将符号表实现为线性链表 include
尽管 if 语句，Visual Studio 仍尝试包含 Linux 标头

我正在尝试创建一个强大的头文件无需更改即可在 Windows 和 Linux 上进行编译为此我的包含内容中有一个 if 语句如下所示 if defined WINDOWS include
使用非规范地址检索内存数据会导致 SIGSEGV 而不是 SIGBUS

我无法使用以下汇编代码产生总线错误这里我使用的内存地址不是合法的规范地址那么我怎样才能触发该错误呢我在带有 NASM 2 14 02 的 Ubuntu 20 04 LTS 下运行这段代码但它会导致负载出现 SIGSEGV 分段
如何获取 (Linux) 机器的 IP 地址？

这个问题和之前问的几乎一样如何获取本地计算机的IP地址 https stackoverflow com questions 122208 get the ip address of local computer 问题但是我需要找到一个的I
并行运行 shell 脚本

我有一个 shell 脚本打乱大型文本文件 600 万行和 6 列根据第一列对文件进行排序输出 1000 个文件所以伪代码看起来像这样 file1 sh bin bash for i in seq 1 1000 do Generat
CMake 链接 glfw3 lib 错误

我正在使用 CLion 并且正在使用 glfw3 库编写一个程序 http www glfw org docs latest http www glfw org docs latest 我安装并正确执行了库中的所有操作我有 a 和 h 文
Solr 索引在分隔符上分割字段

我正在尝试使用一些数据设置 Solr 索引但是我想将我的字段之一作为管道分隔发送并在 Solr 端拆分例如
Bash - 在与当前终端分开的另一个终端中启动命令的新实例

我有一个简单的 bash 脚本 test sh 设置如下 bin bash args if args 0 check capture then watch n 1 ls lag home user capture0 watch n 1 ls
配置tomat的server.xml文件并自动生成mod_jk.conf

我在用apache 2 2 15 and tomcat6 6 0 24 on CentOS 6 4并希望使用 tomcat 服务器的功能通过添加以下内容自动生成 mod jk conf 文件
没有 Unicode 字节顺序标记。无法切换到 Unicode

我正在使用 XSD 编写 XML 验证器下面是我所做的但是当验证器到达该线时while list Read 它给了我错误没有 Unicode 字节顺序标记无法切换到 Unicode 有人可以帮我解决吗 public class Va
反序列化嵌套类时不需要 xmlns=''

我在尝试在服务器上序列化类将其发送到客户端并在目标上反序列化时遇到问题在服务器上我有以下两个类 XmlRoot StatusUpdate public class GameStatusUpdate public GameStatusUp
Linux/POSIX：为什么 fork() 不分叉*所有*线程

众所周知 POSIX下创建新进程的默认方式是使用fork 在 Linux 下这在内部映射到clone 我想知道的是众所周知当一个人打电话时fork 子进程是用单个线程创建的调用的线程fork cf https linux die n
xpath/xslt 确定上下文节点相对于所有同名节点的索引？

给定下面的模式以查询节点作为上下文是否可以使用 xpath xslt 确定该查询节点相对于文档中所有查询节点的索引而不是相对于其的position 直系兄弟姐妹 TIA Geoff section section
(Kiss)XML xpath 和默认命名空间

我正在开发一个 iPhone 项目需要解析一些 xml xml 可能包含也可能不包含默认名称空间我需要知道如何解析 xml 以防它使用默认命名空间由于我需要读取和写入 xml 因此我倾向于使用 KissXML 但我愿意接受建议这是我
cdc_acm：无法设置 dtr/rts - 无法与 USB cdc 设备通信

我试图使用 pic24fj128gb206 枚举 usb cdc 设备设备似乎已正确枚举但是当我将设备连接到 Linux PC 时我从内核收到以下警告消息 cdc acm 1 8 1 6 7 1 0 failed to set dtr
如何让 Node.js 作为后台进程运行并且永不死掉？

我通过 putty SSH 连接到 linux 服务器我尝试将其作为后台进程运行如下所示 node server js 然而 2 5 小时后终端变得不活动进程终止即使终端断开连接我是否也可以使进程保持活动状态 Edit 1 事实
string.Empty 与 null。您使用哪一个？

最近工作的同事告诉我不要使用string Empty设置字符串变量时但使用null因为它污染了堆栈他说不做 string myString string Empty but do string mystring null 真的有关系吗我
logcat 中 mSecurityInputMethodService 为 null

我写了一点android应显示智能手机当前位置最后已知位置的应用程序尽管我复制了示例代码并尝试了其他几种解决方案但似乎每次都有相同的错误我的应用程序由一个按钮组成按下按钮应该log经度和纬度但仅对数 mSecurityInp
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的

随机推荐

SSM实战开发：构建强大的Java Web应用

SSM实战开发构建强大的Java Web应用本文介绍如何使用SSM框架 Spring SpringMVC MyBatis 进行实战开发构建一个强大的Java Web应用通过该实例你将学会SSM框架的整合配置和使用以及常见的We
数据标注工具大汇总

图片拉框 labelimg 已经安装 bbox label tool LabelBoundingBox Yolo mark FastAnnotationTool od annotation RectLabel cvat VoTT VIA
upload.addEventListener is not a function报错

原因 Mock js重写了XMLHttpRequest 导致了原生XMLHttpRequest被mockjs覆盖找不到相应的方法场景 vite plugin mock vue3 element UI upload组件解决办法更改配置项
centos7 pip3 安装python模块包报错解决

centos7 pip3 安装python模块包报错 bash usr local bin pip3 usr local bin python3 6 坏的解释器没有那个文件或目录 root localhost Python pip3 in
关于蚁剑的安装和使用

下载地址加载器 https github com AntSwordProject AntSword Loader 核心源码 https github com AntSwordProject antSword 加载器中的是exe文件因为源
PyQt5+VTK环境搭建

PyQt5 VTK环境搭建 VTK 简介及安装 VTK 介绍 VTK 在 Python 环境下安装方法一安装 anaconda 使用 conda install 安装适用于 python3 适用于 python 2 方法二镜像安装
第一章遇见的问题(题目是原创，答案转载收集互联网）

1 PCTSTR和LPCTSTR 在ANSI编译方式下 PCTSTR和LPCTSTR等价于LPCSTR 在Unicode下等价于LPCWSTR 2 LPVOID WINAPI LocalLock in HLOCAL hMem 功能锁定一个
IAR个人常用配置

IAR个人常用配置文章目录 IAR个人常用配置 1 设置 2 设置tab和indent为4空格 3 设置编码为UTF 8 4 自动缩进设置 5 修改背景颜色和字体 6 修改全局搜索快捷键 1 设置 Tools gt Options 2 设
网红漏洞“致远OA系统上的GetShell漏洞”详解

概述腾讯御界高级威胁检测系统近期监测到致远OA系统上的 GetShell漏洞在网上被频繁利用攻击政企客户对于存在漏洞的OA系统攻击者无需任何权限即可向服务器上传webshell 腾讯驻场工程师通过御界高级威胁检测系统告警通知及时
Flutter Error： The method ‘toInt‘ isn‘t defined for the class ‘Decimal‘

1 运行项目报错 2 错误原因分析从错误日志可以看出是common utils插件中的decimal 2 0 0依赖库报错了猜测可能是decimal升级版本了导致不兼容造成的打开https pub flutter io cn 搜索d
Windows安装frida

一正常步骤 cmd中 pip3 install frida i https pypi mirrors ustc edu cn simple 上面失败用这个 pip install frida i http mirrors aliyun c
linux 查看及修改字符集

一查看当前linux系统的字符集方法 1 1 locale 1 2 echo LANG 1 3 env grep LANG 二查看当前系统支持的字符集 root localhost locale a 三修改系统字符集 3 1 临时生效
vue中使用bus总线在非父子组件之间传值

使用bus总线可以在兄弟父子祖先和后代组件之间传值原理在Vue原型中创建一个bus属性让每一个组件实例都具有这个属性这里自行引入 vue
Idea 发布最适合程序员的字体!

作为编译期界的大佬 JetBrains公司一直致力于提供更好的编码环境前两天 JetBrain推出了一个新的字体 JetBrain Mono 号称是最适合程序员的编码的字体我赶紧尝了尝鲜体验了一天之后发现确实好看因此推荐给大家首
ABB MPRC086444-005数字输入模块

ABB MPRC086444 005 是一款数字输入模块通常用于工业自动化和控制系统中用于接收和处理数字信号以下是这种类型的数字输入模块通常可能具备的一般功能和特点数字输入接口 MPRC086444 005 模块通常配备多个数字输入
AttGAN从paper到code理解

AttGAN Facial Attribute Editing by Only Changing What You Want 2017 CVPR 文章简介本文研究面部属性编辑任务其目的是通过操作单个或多个感兴趣的属性如头发颜色表情
RabbitMQ的安装和启动——windows版

本章介绍如何在win10下安装 RabbitMQ 并启动安装 Erlang 安装 RabbitMQ 启动 RabbitMQ 百度网盘下载 Erlang 和 RabbitMQ Erlang 网盘链接 RabbitMQ 网盘链接结语下载R
搜索研发工程师需要掌握的一些技能

文章目录基础语言数据结构与算法工程方面搜索相关搜索主要模块电商搜索流程分词相关搜索召回相似度算法相关词推荐排序相关国美搜索搜索算法工程师需要掌握的技能基础语言大部分公司用的是Solr ElasticSear
算法相关-经典排序算法(python实现)

概述插入排序将未排序的元素同已排序的元素从后往前比较带排序元素 a 被比较元素 b 如果a
在Linux是使用libxml2---从安装到使用

一下载和安装LIBXML2 方法一 Libxml2是个C语言的XML程式库能简单方便的提供对XML文件的各种操作并且支持XPATH查询及部分的支持XSLT转换等功能 Libxml2的下载地址是 http xmlsoft org 完全

在Linux是使用libxml2---从安装到使用

在Linux是使用libxml2---从安装到使用 的相关文章

随机推荐

热门标签

在Linux是使用libxml2---从安装到使用的相关文章