1,背景
想了一下,直接整理操作相关非常的粗糙,说到I/O就应该从更细节的地方入手写,慢慢的整理体系和完善。
2,个人理解
提到I/O相关,就要去了解字节,计算机的数据是由电信号转化的二进制表示的,也就是0或1,计算机中1bit是数据的最小单位,然而1bit太小了对数据而言,仅仅能代表两种状态。我们一般接触到的是1byte(1byte=8bit),也就是1个字节。1个字节能表示2的8次方,0-255一共256种状态,Java默认是UTF-16编码的,基于Unicode字符集,默认是两个字节。
常用的字节大小
int = 4 byte
double = 8 byte
ARGB_8888 4 byte
提到字节,绕不开字符编码,计算机存放数据只能存放数字,所有的字符都会转换为不同的数字,也就是二进制数据,而数据又是如何转化字符的呢,答案是字符集。先说我想表达的结论,unicode是字符集合,对字符集数字化,UTF-8是字符集编码,为更好的存储和传输。UTF-8是unicode的一种编码实现。
常见的字符集
ISO-8859-1 ASCII 数字和西欧字母
GBK GB2312 BIG5 中文
UNICODE (统一码)
本文介绍的
- ASCII
- unicode
- UTF-16
- UTF-8
ASCII
美国制定的一套字符集,一个字节涵盖了数字化了所有常用的字符,256种状态,大小写英文加数字特殊符号。但是每个国家有自己的文字,如果没有统一的字符集,将会存在乱码的情况。特别是中国汉字数量的庞大。也需要一种统一的字符集来世界通用,也就是unicode。
unicode
unicode旨在统一字符集编码,在最初unicode是用2字节来表示,也就是能表示2的16次方65536种字符,后面为了扩容添加了4个字节的扩展字符集。这样所有涵盖在unicode中的字符都对应着2进制的一种状态。但是字符集定义好了,存储和传输又是两码事了。然后就有了unicode的实现,包括常用的UTF-16 ,GBK,UTF-8。那为什么有了字符集还要编码呢?
UTF-16
没错,既然unicode常用字符集就是2个字节的,那我就存储也用2个字节,因为unicode这个字符集也就是一种编码,再碰到扩展字符集,以特殊符号为界限。就是我们的UTF-16就是这么来编解码。但是这样还会有一个问题,我如果是英文和数字,也要硬生生被编码为两个字节。如果是按unicode方式来存储会造成一定程度上的空间浪费。如果有一种自动伸缩大小的编码不就解决了这种问题吗,在英文数字的时候存1个字节,在汉字的时候存多个字节,这就是下面说的UTF-8。
UTF-8
UTF-8编码就是英文就用ASCII,中文用3个或更多的字节来编码,在二进制的前几位来标识这个位,当前字符有没有结束,是不是还需要继续往下读下一个字节。
可以看到如果一个字节是以“0”开头的,说明是一个ASCII字符,只占一个字节。如果是“11”开头的,说明这个字符占用多个字节。后续每个“10”打头的字节都是这个字符的一部分。
例如:艾
System.out.println(unicode);//十进制输出 System.out.println(Integer.toHexString(unicode));//十六进制输出 System.out.println(Integer.toBinaryString(unicode));//二进制输出 System.out.println((char)unicode);//字符输出
33406
827e
1000001001111110
艾
10000010 01111110 是艾的码元,在内存中是这样的,以utf-8从内存中写入磁盘的时候就是 11101000 10 001001 10 111110 组装了utf8的头变成3个字节,解码也就是去掉这个头按照这个规则。</pre>
总结
计算机存储由二进制组成,没有办法去存储字符,只能去统一字符集,字符集相当于一个大字典,把字节流翻译成字符,例如用utf8编码来控制存储方式。当我们从内存中写入磁盘,由unicode码元拼接utf8头,传输存储,由磁盘读到内存则反之解码,去掉utf8头,以上是我个人理解。
关于字节字符参考 https://www.zhihu.com/question/39262026
文件操作相关
关联上文
1,背景
Java I/O,分解成多个来总结。最常见的是基本的文件操作,没有涉及原理性的知识,后续会继续来写。
I/O操作包括对磁盘和网络的操作。
2,本文涉及的类
OutputStream
InputStream
Writer
Reader
BufferedReader
BufferedWriter
3,读写流向
在文件的读写中Java用流的形式来对磁盘进行操作,Out或者是input是相对于程序的内存而言的,一图胜千言。
流向程序的是input对应的也就是读的操作,流向外部磁盘的也就是out也就是写的操作。
4,OutputStream&InputStream 文件读写
首先写一个文本文件然后再读出来,由上面可知,写是OutputStream是流向磁盘,读是InputStream流向程序。
值得一提的是OutputStream和InputStream 仅支持单字节的读写。
代码示例:
//写入dlai_io_hello并且读取
private static void testWrite_Read() {
try (OutputStream out = new FileOutputStream("d:/dlai_io/write.txt");
InputStream in = new FileInputStream("d:/dlai_io/write.txt")) {
//单字节写入
out.write('d');
out.write('l');
out.write('a');
out.write('i');
//字节数组写入
byte[] bytes = {'_', 'i', 'o'};
out.write(bytes);
//String转字节数组写入
String str = "_hello";
out.write(str.getBytes());
for (int i = 0; i <= 12; i++)
System.out.print((char) in.read());
} catch (IOException e) {
e.printStackTrace();
}
}
5,Reader&Writer 文件读写
我个人理解,Reader&和Writer是相当于是OutPutStream&InputStream的一层包装,是因为可以直接操作字符。
private static void test_Reader() {
File file = new File("d:/dlai_io/write.txt");
try (InputStream in = new FileInputStream(file);
Reader reader = new InputStreamReader(in, "gbk")
) {
char[] chars = new char[100];
int len = 0;
//如果已到达流的末尾,则返回-1
while ((len = reader.read(chars)) != -1) {
reader.read(chars);
}
System.out.print(chars);
} catch (IOException e) {
e.printStackTrace();
}
}
//写入hello
private static void test_Writer() {
File file = new File("d:/dlai_io/write.txt");
try (OutputStream out = new FileOutputStream(file);
Writer writer = new OutputStreamWriter(out, "gbk")) {
char[] hello = {'h', 'e', 'l', 'l', 'o'};
writer.write(hello);
} catch (IOException e) {
e.printStackTrace();
}
}
可以再加一层缓冲
代码示例:
private static void test_BufferWriter() {
File file = new File("d:/dlai_io/write.txt");
try (OutputStream out = new FileOutputStream(file);
Writer writer = new OutputStreamWriter(out, "gbk");
BufferedWriter bufferedWriter = new BufferedWriter(writer)) {
char[] hello = {'i', 'o'};
bufferedWriter.write(hello);
} catch (IOException e) {
e.printStackTrace();
}
}
private static void test_BufferReader() {
File file = new File("d:/dlai_io/write.txt");
try (InputStream in = new FileInputStream(file);
Reader reader = new InputStreamReader(in, "gbk");
BufferedReader bufferedReader = new BufferedReader(reader)) {
System.out.print(bufferedReader.readLine());//读取一行数据
} catch (IOException e) {
e.printStackTrace();
}
}
因为频繁的读写是消耗性能的,BufferedReader&BufferedWriter可以在操作中提供暂存,可以一次性的缓冲数据,暂存可以有效的提高效率。
以上例子执行完函数都会关闭流连接,如果在做写的操作时,并不想关闭连接而立刻体现数据变化,需要进行writer.flush();进行数据的同步。
Socket IO
在Java中TCP连接是用Socket进行封装的,双向通信读写当然也是基于I/O的,先写一个简单的socket示例。
代码示例:Server端
serverSocket = new ServerSocket(9999);
//等待客户端的连接
Socket socket = serverSocket.accept();
//获取输入流
BufferedReader bufferedReader =new BufferedReader(new InputStreamReader(socket.getInputStream()));
//读取一行数据
String str = bufferedReader.readLine();
//输出打印
System.out.println(str);
代码示例:客户端
Socket socket =new Socket("127.0.0.1",9999);
BufferedWriter bufferedWriter =new BufferedWriter(new OutputStreamWriter(socket.getOutputStream()));
String str="server hello";
bufferedWriter.write(str);
bufferedWriter.flush();
socket.shutdownOutput();
未完待续 项目中代码都是运行成功之后才写到简书上的