Python学习-Day10

1.字符编码


'''

储备知识1.程序运行与三大核心硬件的关系2.程序运行过程中产生的数据最先存放在内存中3.python程序运行的三个步骤    1.先启动python解释器    2.解释器将程序内容当成普通内容从硬盘读取到内存,此时没有语法意义    3.解释器会解释执行刚刚读入内存的内容,开始识别语法

什么是字符编码

    字符------标准-------数字

    字符编码:存放的是字符与数字的对应关系    1.ASCLL:只能识别英文字符和数字

        特点:采用8bit对应一个英文字符8bit = 1byte

    2.GBK:可以识别中文字符串与英文字符串

        特点:采用16bit对应字符,该字符可以是英文字符,也可以是中文字符    3.shift-JIS:日本的    4.unicode:可以识别万国字符

        特点:2Bytes对应一个字符

        中文字符、英文字符------------》unicode二进制数-----------》gbk二进制数

    日文字符、英文字符------------》unicode二进制数-----------》shiftJIS二进制数

    韩文字符、英文字符------------》unicode二进制数-----------》Euc-kr二进制数

    万国字符------------》unicode二进制数-----------》utf-8二进制数5.utf-8

        1Bytes对应英文字符        3Bytes对应一个中文字符1、群雄割据:

英文字符--------------内存:ASCII二进制数--------------->硬盘:ASCII二进制数

中文英文字符--------------内存:GBK二进制数--------------->硬盘:GBK二进制数

日文英文字符--------------内存:shiftJIS二进制数--------------->硬盘:shiftJIS二进制数

韩文英文字符--------------内存:Euc-Kr二进制数--------------->硬盘:Euc-Kr二进制数2、过渡阶段:

中文英文字符------------内存:unicode=========gbk============>硬盘:GBK二进制数

日文英文字符------------内存:unicode=========shifJIS========>硬盘:shiftJIS二进制数

韩文英文字符------------内存:unicode=========Euc-Kr=========>硬盘:Euc-Kr二进制数

万国字符----------------内存:unicode=========utf-8==========>硬盘:utf-8二进制数

内存固定使用:unicode

我们可以改变的是从内存写入硬盘采用的编码格式3、分久必合:

万国字符----------------内存:unicode=========utf-8==========>硬盘:utf-8二进制数

万国字符----------------内存:utf-8==========================>硬盘:utf-8二进制数

乱码问题:    1、存的时候乱了:采用的字符编码表无法识别输入的字符

存的时候就已经乱了,是无法补救的,取的时候一定也乱了

        解决方法:存入硬盘的编码格式应该用utf-8格式    2、存的时候没有乱码:采用的字符编码表可以识别输入的字符

但是取的时候乱码了:采用的字符编码表与当初存的时候用的不是同一张表

解决方法:存的时候用什么编码,取的时候一定要用同样的编码格式

与运行python程序有关的乱码问题:    1、保证运行python程序的前两个阶段不乱码

        在python文件的开头加一行:            #coding:文件存的时候用的编码格式    2、保证第三个阶段不乱码

        使用python3

        如果是python2,应该在字符串前缀加u

'''

# 在python3中字符串类型的值在内存中都是unicode格式的数字

# x="上"

# print(x)

# 在python2中字符串类型的值在内存中都是文件头指定编码格式的数字

# x=u"上" # 如果在字符串前加前缀u就把字符串强制存成unicode格式,推荐使用

# # print([x,])

# print(x)

x ='周'

# unicode格式的字符对应的数字----》编码(encode)-----》其他格式的字符对应的数字

res = x.encode('gbk')# 这个语句的意思是将x对应值的Unicode编码数字通过encode这个方法编码成gbk的编码数字

print(res,type(res))# b'\xd6\xdc' <class 'bytes'> 类型是bytes 这个是计算机的原生类型 就当成二进制

res2 = x.encode('utf-8')

print(res2)

x = res.decode('gbk')# 解码操作

print(x,type(x))# 周

y = res2.decode(('utf-8'))

print(y)

2.文件处理

'''

1,什么是文件

    文件上操作系统提供给用户、应用程序操作硬盘的一个虚拟单位2,为何要用文件

    存取硬盘必须要使用文件3,如何用文件    open(文件路径,打开模式)

    应用程序、用户  文件对象/文件句柄

    操作系统      打开文件a.txt

    硬盘          硬盘'''

# 绝对路径

# windows系统

# D:\Python38\Doc\python383  # 有详细的地址信息

# linux系统

# a/b/c/d.txt

# 相对路径

# C:\d.txt  # 缺少详细的地址信息

# d.txt

# 示范

# f = open(r'aaa\a.txt',mode='rt',encoding = 'utf-8')

# res = f.read()

# print(res)

# f.close()

# f = open(r'aaa\a.txt',mode = 'rb')

# res = f.read()

# print(res,type(res))  # 打印的是16进制

# x = res.decode('utf-8')  # 进行解码转换 变成字符串

# print(x)

# f.close()

#

#

# f=open('aaa.jpg',mode='rb')

# res=f.read()

# print(res)  # 打印的都是16进制

# f.close()

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容