2019/7/11 17:04 三刷留念
07-字符编码
既然讲到了字符编码,我们就讲一讲编码解码的问题。所谓编码解码就是为了对数据进行转换,把看得懂的变成看不懂的,或者把看不懂的变成看得懂的。
编码:字符串变成字节数组。
String-->byte[]; str.getBytes(charsetName);
解码:字节数组变成字符串。
byte[]-->String:new String(byte[],charsetName);
代码示例:
编码:
四个字节,对着呢~
指定用“GBK”:
会发生异常:
我们采取偷懒一点的处理方式,抛出异常:
这时运行结果就跟刚开始是一样的:
解码:
或者指定用“GBK”解码,结果也是一样的:
编码如果发生了错误,解码出来也是错的,没有办法补救,比如像下面这个:
因为ISO8859-1中没有中文,所以编码的时候它会找到和我们要编码的中文字符相似的符号,将那个字符的编码拿出来,所以后面再解码解的肯定也都是错的。
但是如果编码正常,解码出了问题,比如像这样:
这个时候还是有办法补救的:
用代码表示一下上面图示的过程:
其实这个过程在我们开发中就会遇见的,当我们在浏览器中输入网址点击提交之后,会提到服务端,服务端里面就有一个Tomcat服务器,这个服务器默认的解码方式是ISO8859-1。
如果这时我们输入了汉字,解码后就会是:
这时我们就会用到刚刚的方法,再给它编码、解码,最后得到正确的信息。
那可不可以不要这么麻烦,直接将服务器的码表改成GBK可以吗?
服务器中会有很多网站,比如新浪服务、搜狐服务,假设新浪服务用的编码表是GBK,就不会出现乱码,搜狐服务是UTF-8,就会乱码。所以指定GBK不可行,还是用ISO8859-1再编一次解一次比较好。
看一下浏览器,里面有一堆文字:
发现它默认的编码方式是GBK:
我们将它改成UTF-8试试:
发现乱码了:
我们可以看到网页源文件中指定的编码方式是GBK:
再回到代码中来,如果我们换成UTF-8再用这种方式就会出错:
并没有拿到原先的编码:
我们再把中文字符改成“哈哈”:
我们发现两次运行的结果很相似。
这是为什么呢?
在UTF-8码表中,也支持连续三个负数的文字。第一次解码的时候,先拿着前三/两个负数去编码表中查找,并没有找到符合这个编码的数据,它就去编码表中除了对应数据区以外的那部分:未知字符区域中查找,查完了之后返回一堆相似的字符“???”返回了。这时查出来的字已经变化了,不是原先的字了。
造成这个问题的原因是GBK和UTF-8都识别中文,所以这块一定要小心呢。
08-字符编码-联通
我们来演示一个问题,在记事本中存入“联通”:
保存,关闭记事本,再重新打开,发现乱码了:
我们另存为一下,发现编码变成了UTF-8,可是我们明明用的是默认的GBK呀:
我们来了解UTF-8的一个知识,它有一个标识头,根据这个标识头的数值,会决定它一次读几个字节:
用这个规律,我们读下面这串字节的过程就是这样的:
下面我们来拆解一下“联通”:
还不够,我们需要用二进制形式表示:
这样数字又太多了,其实有效位就后八位,于是我们再取后八位:
这时我们就发现,“联通”的编码前几位完全满足了UTF-8的规律,所以记事本读着读着发现,咦,这是UTF-8呀,于是就转成了UTF-8的编码表。“联通”的编码是非常特殊的存在呢。
那怎么解决这个问题呢?
就是在存入“联通”之前,前面一定要有其他汉字,这样就不会乱码啦:
09-练习
啊啊,时间有点紧张呢,为了节省时间,我就使用大面积截屏啦,手打太浪费时间了(委屈脸)。
做一个练习:
我们需要做:
思想:
代码:
Student类:
工具类:
到这里,学生信息都存入了集合并进行了排序。
下一步就是将集合信息写入文件,继续在这个工具类中写一个存入文件的方法:
好了,基本动作结束。
下面演示一下:
录入:
基本上没有什么大问题,就是后面总成绩有点小问题,我们发现stu.getSum()是一个整数,给后面加上+"",就可以强转成字符串了:
这下就好啦:
刚刚我们是按成绩从低到高排,现在我们想按成绩从高到低排,该怎么做呢?
原先的比较器是默认的写死的,我们不能对它进行修改,但是我们可以指定其它比较器,这里对工具类中的代码进行一些小的修改,将一个方法分割成两个:按默认比较器排和按指定比较器排,修改如下:
主函数中,我们只需要将原先的比较器进行逆转,就得到一个反向比较器:
OK,实现了按成绩从高到低排: