gbk,utf-8,unicode编码转换

1、将字符串'024f'转化为unicode字符,先将字符转化为16进制整数

code = int('024f',base=16)
print '%x'%code,'%04x'%code

输出结果：24f 024f,一般选择后者处理凑足偶数字节
转化unicode编码

unichr(code)

运行得到unicode编码

u'\u024f'

uc = unichr(code)
print uc, type(uc)

输出字符,类型，特别注意unicode类型，处理起来有点不同，两个字节算一个字符

ɏ,unicode

转gb18030编码

uc.encode('gb18030')

'\x810\xab6'

gbk = uc.encode('gb18030')
print  type(gbk)

类型是str

<type 'str'>

gbk = uc.encode('gb18030')
gbkcode = str()
for el in gbk:
    gbkcode += '%02x'%ord(el)
print gbkcode

8130ab36

  uc.encode('utf-8')

输出

    '\xc9\x8f'

解码

utf8 = uc.encode('utf-8')
utf8.decode('utf-8')

输出

u'\u024f'

gbk.decode('gb18030')

输出

u'\u024f'

def writeTxt(fdir, info):
    print '%s\\f0.txt'%fdir
    f=open('%s\\f0.txt'%fdir,'a')
    f.write(info)
    f.write('\n')
    f.close()
def getcosins(wordcode, gbkflag=0):
    if gbkflag == 2:
        wordcodelen = 2
    else:
        wordcodelen = len(wordcode)
    cosins = '20ff%02x00%02x'%(gbkflag, wordcodelen)
    if gbkflag == 2:
        cosins += '%04x'%ord(wordcode)
    else:
        for i in range(len(wordcode)):
            cosins += '%02x'%ord(wordcode[i])
    writeTxt('F:\zpcs', cosins)
    return cosins
def writegbkucode(uccode):
    code = int(uccode,base=16)
    print code
    uc = unichr(code)
    print uc
    getcosins(uc, 2)
    ucgbk = uc.encode('gb18030')
    getcosins(ucgbk)
writegbkucode('024f')

最后编辑于：2017.12.09 15:41:53

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

gbk,utf-8,unicode编码转换

gbk,utf-8,unicode编码转换

相关阅读更多精彩内容

友情链接更多精彩内容