于是问题开始了,在html中的&符号表示的一些特别意义,在xml中往往没有定义,比如今天我要讲的 他在html中表示non-breaking space,但是你不能用同样的方式在xml中表示,因为xml中&开头表示,可解析的实体,这个实体被DTD预先定义,而 并没有被定义,所有如果用Xerces2来解析出现这样字符的xml文件(当然,这里假设你也没有自己预先定义),会抛出如下异常:
org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared.
一般给出如下的解决方案:使用 这又是什么道理呢?因为这是HTML ISO-8859-1 Reference 定义的规范,如下:
Character Entity Number Entity Name Description
non-breaking space
neko html parser也这是使用的这样的方案,所以当解析这样一句html的时候:
big black bear bit back the big black bug.
就bei neko html parser替换成了
big black bear bit back the big black bug.
如果这样就完了,就不会有今天这篇文章了。
但是替换之后,通过xml解析输出,显示的不是一个空格而是一个 ?,最要人命的地方了是这个?并不是ascii 中的063d。所以当我们通过getTextContent()方法的时候,我们得到的是:
big black bear bit back the big black bug.?
在实际应用中,当然需要出去这个?,于是我们打算使用replaceAll("\\?$", "")来替换掉这个?,但是你错了,你被你的眼睛骗了,这时你会发现根本不起作用你应该是用replaceAll("\240$", ""),240是160的八进制数。
没有评论:
发表评论