关于多字节和unicode字符节的区别

在网上看到一段代码

void CdemoDlg::OnBnClickedButton1()
{
    // TODO: 在此添加控件通知处理程序代码

    CString strinput;

    GetDlgItemText(IDC_EDIT1, strinput);


    int nlen = strinput.GetLength();


    int ncount = 0;
    for (int i = 0; i < nlen; i++)
    {
        if ((BYTE)strinput[i] > 0x7f)
        {
            ++i;
        }
        ncount++;
    }


    CString stroutput;
    stroutput.Format(_T("字符串长度:%d,字符个数:%d"),nlen, ncount);

    SetDlgItemText(IDC_STATIC_OUTPUT,stroutput);

}

其中for循环是为了在使用多字节的时候，正确识别两个汉字算一个字符，在多字节中，一个汉字算两个字符，for循环是判断两个字符中是否有大于127？请详细讲解一下，为什么这么判断

unicode和双字节最大的区别在于，双字节的情况下，相同的编码，代表2个英文还是一个汉字，或者一个日文，或者一个台湾中文，或者什么，这个是无法确定的。
而unicode是唯一的编码。
如果你去看ascii码表，你会发现，0~127是基本区，128~255是扩展区，扩展区包含了很多特殊符号和屏幕显示用的框线、色块等。不知道你是否用过turbo c 2.0这种软件，它界面上的菜单的那些框线，就是用扩展区的字符表示的。
一般情况下，为了让中文和英文混合显示，我们的做法是，中文汉字的区码用>127的字符开头，这样<127是英文，>127是中文，相安无事。
但是遇到西文软件，就乱套了。你尝试在windows的窗口里面打开turbo c，并且启用中文支持，就会发现好好的界面上出现了很多乱码，就是这个原因。

经过实际测试，stri strinput.GetLength();这个已经能自动识别出汉字和字符的个数了，不需要再做另外的判断，不知道你的for循环是干嘛用的，莫名其妙。而且实际算出来的ncount是不准的。

char 单个字符具体占用多少个字节根据编码格式确定
ISO-8859-1 1个字节
unicode 2 个字节
UTF-8 英文1个字节，中文三个字节
GB2312/GBK 英文1个字节，中文两个字节
其次，汉字的assic编码在127之后的，无论哪种编码127编码只能只能存放英文和字符，如果用c++实现，那么这里需要判断根据编码格式来中文跳1个长度还是跳2个长度，用java就不用造这么多轮子了

GetLength() 函数不论是款字节还是窄字节，都按一个单位算。
比如

H你好

长度就是三。
而窄字节的ASCII是再0~127之间的值，而款字节就是大于127的值。
先处理第一个 H
他的值在127以内，所以不是款字节。
第二个处理的不是你的一半，而是 “你”这整个字，他的值肯定超过127，第三个字同理。