从一个欧洲的服务器获取xml的时候。xml有这样的内容
<?xml version="1.0" encoding="iso-8859-1" standalone="yes" ?>
...
<StationDesc>Alternative Times Radio je internetové rádio.</StationDesc>
这样的内容。人家已经定好了编码格式,我这边获取到é就会出错,试了很多方法都没有解决,我怀疑是应该服务器那边先把这些特殊字符先处理好才合理,可是现在我们管不了那个。
我最后用的DOM来解析的。但我一直怀疑这个地方SAX应该也是有办法处理的。请大家指教一下。感激不尽
问题补充
not well-formed (invalid token)
很明显是字符编码的问题。
只是编码是在服务方那边设置好的,然后内容里又有了é这样的字符是不应该的(这一点我没有把握),应该是服务方把这个字符处理成unicode,比如á = \u00e8,另外在网上查到说可能是重音那个降音符号是个特殊字符要做特殊处理。
现在的问题是,我这边设置不了服务器那边发过来的文档编码,只能从里面读数据,读到这个特殊符号的时候才会报错。
[quote]<?xml version="1.0" encoding="iso-8859-1" standalone="yes" ?>[/quote]
这里encoding="iso-8859-1"有问题。 你先改下这个编码试试。
另外,如果服务器不按unicode编码解析,并且你不能改设置的话,你这个文档也就没有办法解析。
抛什么异常出来?贴出来看看……
按理说,读取这样的文字应该不会出问题的,应该是字符编码集的问题吧……