在网上看到一段代码
void CdemoDlg::OnBnClickedButton1()
{
// TODO: 在此添加控件通知处理程序代码
CString strinput;
GetDlgItemText(IDC_EDIT1, strinput);
int nlen = strinput.GetLength();
int ncount = 0;
for (int i = 0; i < nlen; i++)
{
if ((BYTE)strinput[i] > 0x7f)
{
++i;
}
ncount++;
}
CString stroutput;
stroutput.Format(_T("字符串长度:%d,字符个数:%d"),nlen, ncount);
SetDlgItemText(IDC_STATIC_OUTPUT,stroutput);
}
其中for循环是为了在使用多字节的时候,正确识别两个汉字算一个字符,在多字节中,一个汉字算两个字符,for循环是判断两个字符中是否有大于127?请详细讲解一下,为什么这么判断
unicode和双字节最大的区别在于,双字节的情况下,相同的编码,代表2个英文还是一个汉字,或者一个日文,或者一个台湾中文,或者什么,这个是无法确定的。
而unicode是唯一的编码。
如果你去看ascii码表,你会发现,0~127是基本区,128~255是扩展区,扩展区包含了很多特殊符号和屏幕显示用的框线、色块等。不知道你是否用过turbo c 2.0这种软件,它界面上的菜单的那些框线,就是用扩展区的字符表示的。
一般情况下,为了让中文和英文混合显示,我们的做法是,中文汉字的区码用>127的字符开头,这样<127是英文,>127是中文,相安无事。
但是遇到西文软件,就乱套了。你尝试在windows的窗口里面打开turbo c,并且启用中文支持,就会发现好好的界面上出现了很多乱码,就是这个原因。
经过实际测试,stri strinput.GetLength();这个已经能自动识别出汉字和字符的个数了,不需要再做另外的判断,不知道你的for循环是干嘛用的,莫名其妙。而且实际算出来的ncount是不准的。
char 单个字符具体占用多少个字节根据编码格式确定
ISO-8859-1 1个字节
unicode 2 个字节
UTF-8 英文1个字节,中文三个字节
GB2312/GBK 英文1个字节,中文两个字节
其次,汉字的assic编码在127之后的,无论哪种编码127编码只能只能存放英文和字符,如果用c++实现,那么这里需要判断根据编码格式来中文跳1个长度还是跳2个长度,用java就不用造这么多轮子了
GetLength() 函数不论是款字节还是窄字节,都按一个单位算。
比如
H你好
长度就是三。
而窄字节的ASCII是再0~127之间的值,而款字节就是大于127的值。
先处理第一个 H
他的值在127以内,所以不是款字节。
第二个处理的不是 你的一半,而是 “你”这整个字,他的值肯定超过127,第三个字同理。