如何用python语言比较两个中文字符串是否相等,
前提是这两个中文字符串的编码格式未知。
楼上说的差不多了,举个例子吧:
在python里,字节流和unicode字符串:
参考这篇文章
http://www.sqlite.com.cn/MySqlite/11/395.Html
例如“哈”字,假如两个有两个字符str1和str2
str1 = '\xb9\xfe' // 这个字节流表示哈字是使用GBK编码的字节流
str2 = u'\u54c8 // 表示这个字符使用UNICODE-16编码
判断相等:
str1.decode('GBK') == str2
统一转换成UNICODE16比较, 如果str2不是UNICODE16编码,也需要做相应的转换。
在编码未知的情况下,是无法知道这个字符的编码和实际代表的字符,更没有办法和其他未知编码的字符进行比较。
请问如果编码格式已知,又该如何比较呢?
string1.decode(encoding1) == string2.decode(encoding2)