登录注册写文章

文本文件的编码格式

奋斗的工程师1

文本文件的编码格式

文本文件的编码格式，都在3A服务器上进行测试

一、文本文件

文本文件存储的内容是基于 字符编码 的文件，常见的编码有 ASCII 编码，UNICODE 编码等

Python 2.x 默认使用 ASCII 编码格式
Python 3.x 默认使用 UTF-8 编码格式

二、ASCII 编码和 UNICODE 编码

2.1 `ASCII` 编码

计算机中只有 256 个 ASCII 字符
一个 ASCII 在内存中占用 1 个字节 的空间
- 8 个 0/1 的排列组合方式一共有 256 种，也就是 2 ** 8

2.2 `UTF-8` 编码格式

计算机中使用 1~6 个字节 来表示一个 UTF-8 字符，涵盖了 地球上几乎所有地区的文字
大多数汉字会使用 3 个字节 表示
UTF-8 是 UNICODE 编码的一种编码格式

三、Python 2.x 中如何使用中文

Python 2.x 默认使用 ASCII 编码格式
Python 3.x 默认使用 UTF-8 编码格式

在 Python 2.x 文件的 第一行 增加以下代码，解释器会以 utf-8 编码来处理 python 文件

# *-* coding:utf8 *-*

这方式是官方推荐使用的！

也可以使用

# coding=utf8

3.1 unicode 字符串

在 Python 2.x 中，即使指定了文件使用 UTF-8 的编码格式，但是在遍历字符串时，仍然会 以字节为单位遍历 字符串
要能够 正确的遍历字符串，在定义字符串时，需要 在字符串的引号前，增加一个小写字母 u，告诉解释器这是一个 unicode 字符串（使用 UTF-8 编码格式的字符串）

# *-* coding:utf8 *-*

# 在字符串前，增加一个 `u` 表示这个字符串是一个 utf8 字符串
hello_str = u"你好世界"

print(hello_str)

for c in hello_str:
    print(c)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

文本文件的编码格式
文本文件存储的内容是基于字符编码的文件，常见的编码有 ASCII 编码，UNICODE 编码等 Python ...
GaoYuan117阅读 5,048评论 0赞 0
文本文件的编码格式是怎么判断的?
不同编码的文本，是根据文本的前两个字节来定义其编码格式的。定义如下：ANSI：无格式定义；Unicode：前两...
spfanlost阅读 5,442评论 0赞 0

c# 读取文本文件编码格式最安全简单的方式
用此库：c# 读取文本文件编码格式使用 ude, https://github.com/errepi/ude，可以...
HaRun阅读 9,067评论 1赞 0
Python字符串使用哪种编码格式？
在实践中，很多初学者都遇到过“文件显示乱码”的情况，其多数都是由于在打开文件时，没有选对编码格式导致的。因此，学习...
卓尔不群的雅典阅读 2,118评论 0赞 0
[python]转换文件编码格式
文件编码格式一直是很多人特别头疼的一件事情，最近由于跨平台开发，经常出现编码格式的问题。所以关于编码格式转换采用p...
羽恒阅读 14,449评论 0赞 4

友情链接更多精彩内容

赞1赞

赞赏

手机看全文