I/O作为作为人机交互的核心问题,很多web应用系统的瓶颈都是I/O瓶颈。本文主要总结java的I/O类库基本架构以及磁盘I/O、网络I/O工作机制。
1. 基础概念
编程语言I/O类库常使用流这个抽象概念,流是一个数据序列,有顺序的,有起点和终点的字节集合,是对数据传输的总成或抽象。“流”屏蔽了实际I/O设备中处理数据的细节。
流可不同维度进行分类:
按数据传输单位:
字节流:每次读到一个字节就返回一个字节,可以处理所有类型的数据对应基类InputStream和OutputStream
字符流:每次读到一个字符(1个或多个字节:中文对应的字节数是两个,在UTF-8码表中是3个字节),先去查指定的编码表,将查到的字符返回。字符流是对字节流进行了封装,方便操作。在底层,所有的输入输出都是字节形式的,对应基类Write和Reader。
按数据处理方向:
输入流:只能从中读取数据,由InputStream(字节流)和Reader(字符流)作为基类
输出流:只能向其写入数据,由OutputStream(字节流)和Writer(字符流)作为基类
2. java I/O类库
功能划分:
- File关联类:FileReader, FileWriter, FileInputStream and FileOutputStream.
- Array关联类:ByteArrayInputStream, ByteArrayOutputStream / CharArrayReader, CharArrayWriter.
- String关联类:StringReader and StringWriter
- Buffer关联类:BufferedInputStream, BufferedOutputStream, BufferedReader, BufferedWriter
- 字节流和字符流转换桥梁:**InputStreamReader ** 和 OutputStreamWriter
IO流操作的基本步骤:
- open(创建一个输入或输出流关联具体设备(网络、磁盘等))
- read/write(从输入流读取数据或像输出流写入数据)
- close(关闭输入或输出流)
磁盘IO工作机制示意图:
上述流程示例代码
String src = "/Users/chenchen/code/java/Person.txt";
String dest = "/Users/chenchen/code/java/file.txt";
BufferedInputStream in = null;
BufferedOutputStream out = null;
try {
in = new BufferedInputStream(new FileInputStream(src));
out = new BufferedOutputStream(new FileOutputStream(dest));
byte[] files = new byte[1024];
int tmp = 0;
while ((tmp = in.read(files)) != -1){
out.write(files, 0, tmp);
}
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
in.close();
out.close();
} catch (IOException e) {
e.printStackTrace();
}
}
建议所有磁盘相关IO操作使用Buffer
磁盘设备由操作系统管理,所以磁盘相关读取和写入IO操作都是调用操作系统提供的接口。系统调用就可能存在内核空间地址和用户空间地址切换的问题,这个操作在保证安全性同时导致多余的耗时。读写单个byte就显得很耗费时间,IO类库提供了Buffer相关的类来加速IO操作。
3. 序列化
java序列化就是将一个对象转换成一串二进制表示的字节数组,通过转移或者保存这些数据达到持久化的目的。反序列化必须有该类的原始模板,才能达到还原该对象的目的。需要进行序列化的对象只需要实现Seriaizable接口
3.1 什么时候需要序列化
- 当你想把的内存中的对象保存到一个文件中或者数据库中时候;
- 当你想用套接字在网络上传送对象的时候;
- 当你想通过RMI传输对象的时候;
3.2 关于java序列化几点说明
- 当一个父类实现序列化,子类自动实现序列化,不需要显式实现Serializable接口;
- 如果序列化的属性是对象,则这个对象也必须实现Serializable接口,否则会报错;
- static,transient后的变量不能被序列化;
- 反序列化过程中,如果对象的属性有修改或删减,相应属性的值会丢失。
serialVersionUID说明
如果没有明确指定serialVersionUID,序列化的时候会根据字段和特定的算法生成一个serialVersionUID,当属性有变化时这个id发生了变化,所以反序列化的时候就会失败。抛出“本地classd的唯一id和流中class的唯一id不匹配”。
强烈建议 所有可序列化类都显式声明 serialVersionUID 值,原因是计算默认的 serialVersionUID 对类的详细信息具有较高的敏感性,根据编译器实现的不同可能千差万别,这样在反序列化过程中可能会导致意外的 InvalidClassException。
同时强烈建议使用 private 修饰符显示声明 serialVersionUID(如果可能),原因是这种声明仅应用于直接声明类 -- serialVersionUID 字段作为继承成员没有用处
3.3 java序列化对应IO类
java.io.ObjectOutputStream:表示对象输出流它的writeObject(Object obj)方法可以对参数指定的obj对象进行序列化,把得到的字节序列写到一个目标输出流中。
java.io.ObjectInputStream:表示对象输入流它的readObject()方法源输入流中读取字节序列,再把它们反序列化成为一个对象,并将其返回。
示例代码如下:
TestModel testModel = new TestModel();
Person person = new Person();
person.setName("cc");
person.setAge(12);
testModel.setPerson(person);
testModel.setId(1);
ObjectOutputStream out = null;
ObjectInputStream in = null;
try {
// 序列化
out = new ObjectOutputStream(new FileOutputStream("test.txt"));
out.writeObject(testModel);
// 反序列化
in = new ObjectInputStream(new FileInputStream("test.txt"));
TestModel result = (TestModel)in.readObject();
}catch (Exception e){
e.printStackTrace();
} finally {
try {
out.close();
in.close();
} catch (IOException e) {
}
}
示例中TestModel实现了Serializable接口,同时其引用属性Person也要实现Serializable接口否则会报错。
参考文档
https://www.ntu.edu.sg/home/ehchua/programming/java/J5b_IO.html
http://www.devinline.com/2015/10/internal-details-of-java-IO-classes.html