想读取一个有中英混编UTF-8文件中的汉字内容。应该怎么读取啊。汉字只有0xE4XXXX到0xE9XXXX么?
这篇文章应该有帮助字符编码笔记:ASCII,Unicode和UTF-8
然后看这个是范围:
UTF-8 编码规则详解与 UTF-8 汉字编码范围
正则来读取,一般就是在[\u4e00-\u9fa5]这个范围内的多