设为首页
加入收藏
站内地图
旧版入口
首 页
新闻资讯
SEO研究
SEO查询
网站运营
站长学院
赚钱联盟
链接交换
下载中心
搜优客论坛
网页制作
网络编程
数据库
图形图像
操作系统
网络应用
当前位置:
首页
>
站长学院
>
网络编程
>
XML
XML的编码与中文问题
作者:
佚名
出处:
网络转载
时间:
07-26
点击:
内容载入中...
我们知道,XML文件的开头就以XML声明开始,该声明中指明了XML的版本、编码方式等。比如下面的代码:
<?xml version="1.0" encoding="GB2312"?>
这里指定了编码方式为国标2312码。XML软件不再使用HTML等的字符猜测方式处理文档,它要求文档以明确的方式指定其所使用的字符集(即编码方式)。XML为什么需要知道文档的字符集呢?因为象'<'、'>'、'/'、'['、']'等符号,本来是XML规范中所保留的符号。而双字节编码的汉字,有可能出现这种情况,如某个汉字的编码A是xy,而y恰巧是 '<'的编码。假如XML软件不知道文档的字符集,那么XML分析器就会错误地将汉字A的低字节y当作是某个标记的开始符号。所以XML分析器必须知道XML文档的编码方式。只有知道它所属的字符集,才不会出现将某个完整的文字编码断开为单个字节,从而导致某些字节解码成错误的字符。 举个非常简单的例子,一个XML文档有如下的一段中文文字:
<中文>巾帼英雄</中文>
如果该文件保存为Unicode格式,则其内部编码为:
FF FE 3C 00 2D 4E 87 65 3E 00 FE 5D 3C 5E F1 82
C4 96 3C 00 2F 00 2D 4E 87 65 3E 00
我们可以看到"帼"字的 Unicode 编码为 (3C 5E),高字节为3C(与尖括号"<"的
ASCII码相同),象这样的汉字有许多。同样的这段文字,如果该文件保存为UTF-8格
式,则其内部编码为:
EF BB BF 3C E4 B8 AD E6 96 87 3E E5 B7 BE E5 B8
BC E8 8B B1 E9 9B 84 3C 2F E4 B8 AD E6 96 87 3E
单对用于标记的尖括号"<",在不同的编码格式下它有不同的编码值。如果分析器简单地按字节流方式,逐字节逐字节地进行处理,那么XML分析器如何识别这个尖括号 "<"就存在问题。尖括号"<"在不同字符集的编码不同。更糟糕的是,有些编码方式的某些字符,其编码的高字节/低字节可能为尖括号"<"的ASCII码,在这种情况下,分析器就会把这些字节误认为是尖括号"<"。
上面只是举了一个关于尖括号"<"的简单例子,还有许许多多其它的问题,这些都说明分析器不可能按这种字节流方式来处理。对于任何的XML文档,XML软件工具(包括分析器)必须知道该XML的文档的字符编码方式。
分析器比较常见的处理方法是,将所有所有的编码先转换到Unicode,在分析器内部完全针对Unicode进行处理。如SGML/XML分析器符号处理(SP)内部就是这样处理的。XML应该可以支持中文。因为W3C的XML1.0(1998年2月10日)规范里规定所有的XML处理器必须接受ISO 10646中的UTF-8和UTF-16编码,所以符合 XML 规范的软件工具一定都支持 ISO10646编码(这个字符集也就是Unicode)。而该编码是一组庞大的字符集,其中包含了 GB2312 编码及 Big5 编码中所有的字符。其实无论什么编码方式,如果统一转成UTF-8编码,则任何一个符合XML规范的软件工具都可以处理它。
之所以有中文问题,只是因为 XML 的应用刚刚起步,大多数 XML 软件工具目前都没有考虑到中文,或者说没有针对中文编码进行过测试。
同时需要注意的是,XML对中文的支持不只是指内容可以是中文,也不只是指支持中文标记(tag), 应该是任何元素名称、属性名称等也可以是中文。
收藏本文:
【
大
中
小
】【
打印页面
】【推荐给朋友】【
关闭窗口
】
<< 上一篇 :
XML及其相关协议关系
>> 下一篇 :
XML标记语言定义
相关新闻
·
Web设计中如何使用XML数据
·
XML文件的显示——CSS和XSL
·
技巧:开发本地化的XML格式
·
用XML和XSL来生成动态页面
·
XML Schema教程
·
XML轻松学习手册(5)XML实例解析
·
关于XML在语音合成中的应用
·
新增批注、处理指令与CDATA 区段
最新资讯
·
名词解释:什么是XSL,它有什么用途
·
Javascript+XML实现分页的实例
·
XSL-FO初学者教程:XSL-FO 区域
·
一个以Javascript+xml的树型列表
·
Web2.0岁月:使用AJAX技术的十大理由
·
XML教程:XML DOM 访问节点
·
一日精通Ajax技术
·
XSL-FO 初学者教程:XSL-FO 文档
站长学院
[
ASP
]
[
PHP
]
[
JSP
]
[
CGI/perl
]
[
ASP.NET
]
[
C#
]
[
XML
]
[
编程综合
]
关 键 字:
信息分类:
新闻资讯
SEO研究
网站运营
站长学院
下载中心
推荐信息
本类热点
·
基于SAX的XML文档解析器分析
·
XML Webservice实现原理及相关知
·
XML Schema元素语法描述
·
XML Schema教程
·
十分钟学会 xajax
·
微软XML核心服务组件MSXML 4.0亮
·
XML简介
·
使用c#如何读取xml文件
·
二十八条改善ASP性能和外观的技巧
·
学习:如何在HTML中引用XML数据