Windows程序开发中常用的字符数据类型为TCHAR
或者CString
,此二者本质可以是CHAR
和CStringA
, 也可以是WCHAR
和CStringW
。如果定义了UNICODE
那么就是后者宽字符的形式。
界面和任务交互时会需要将char
或者string
转换成以上两种。在与web通信时需要将GB2312
转化为utf-8
。
1. char和string与TCHAR和CString的转换
- char与WCHAR
BOOL C2W(const char* str, wchar_t* wstr)
{
int len = MultiByteToWideChar(CP_OEMCP, 0, str, -1, wstr, 0);
return len == MultiByteToWideChar(CP_OEMCP, 0, str, -1, wstr, len);
}
BOOL W2C(const wchar_t* wstr, char* str)
{
int len = WideCharToMultiByte(CP_OEMCP, 0, wstr, -1, str, 0, 0, 0);
return len == WideCharToMultiByte(CP_OEMCP, 0, wstr, -1, str, len, 0, 0);
}
- CStringA与CStringW
//
// CStringA转CStringW
//
CStringW CStrA2CStrW(const CStringA &cstrSrcA)
{
int len = MultiByteToWideChar(CP_ACP, 0, LPCSTR(cstrSrcA), -1, NULL, 0);
wchar_t *wstr = new wchar_t[len];
memset(wstr, 0, len*sizeof(wchar_t));
MultiByteToWideChar(CP_ACP, 0, LPCSTR(cstrSrcA), -1, wstr, len);
CStringW cstrDestW = wstr;
delete[] wstr;
return cstrDestW;
}
//
// CStringW转CStringA
//
CStringA CStrW2CStrA(const CStringW &cstrSrcW)
{
int len = WideCharToMultiByte(CP_ACP, 0, LPCWSTR(cstrSrcW), -1, NULL, 0, NULL, NULL);
char *str = new char[len];
memset(str, 0, len);
WideCharToMultiByte(CP_ACP, 0, LPCWSTR(cstrSrcW), -1, str, len, NULL, NULL);
CStringA cstrDestA = str;
delete[] str;
return cstrDestA;
}
- GB2312与UTF-8
//GB2312到UTF-8的转换
char *G2U(const char *gb2312) {
int len = MultiByteToWideChar(CP_ACP, 0, gb2312, -1, NULL, 0);
wchar_t *wstr = new wchar_t[len + 1];
memset(wstr, 0, len + 1);
MultiByteToWideChar(CP_ACP, 0, gb2312, -1, wstr, len);
len = WideCharToMultiByte(CP_UTF8, 0, wstr, -1, NULL, 0, NULL, NULL);
char *str = new char[len + 1];
memset(str, 0, len + 1);
WideCharToMultiByte(CP_UTF8, 0, wstr, -1, str, len, NULL, NULL);
if (wstr) delete[] wstr;
return str;
}
char* U2G(const char* utf8)
{
int len = MultiByteToWideChar(CP_UTF8, 0, utf8, -1, NULL, 0);
wchar_t* wstr = new wchar_t[len+1];
memset(wstr, 0, len+1);
MultiByteToWideChar(CP_UTF8, 0, utf8, -1, wstr, len);
len = WideCharToMultiByte(CP_ACP, 0, wstr, -1, NULL, 0, NULL, NULL);
char* str = new char[len+1];
memset(str, 0, len+1);
WideCharToMultiByte(CP_ACP, 0, wstr, -1, str, len, NULL, NULL);
if(wstr) delete[] wstr;
return str;
}
从以上的代码不难看出,其实本质都是通过MultiByteToWideChar
和WideCharToMultiByte
的使用达到宽窄字符之间的转换。
这里说两句闲话,VC++把字符串搞得这么复杂真的是让人蛋疼,特别是与web通信需要转换GB2312和UTF-8,着实让我彻彻底底恶心了一把。看看稍微新一点的语言,Python、Swift等等都是直接支持utf-8,根本不需要这么复杂的转换。当然,这也与VC++语言的产生时代有关。当时的环境下能支持UNICODE已经是神级操作了,更遑论消息循环和拖动控件这种逆天机制。微软真是一个伟大的公司。MFC以现在的眼光来看确实不美观,VC++也太过繁琐。我想随着时间的推移,VC++和MFC短时间内应该不会被淘汰,但是层出不穷的新语言让编程更简单,应该终会被C#取代。