Java BufferdReader读取文件乱码


title: Java BufferdReader读取文件乱码
date: 2016/8/29 21:23:57
tags: Java
categories: Java


javaBufferdReader读取文件乱码

以下为读取文件方法

    private static void putIdGame(){
        
        URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
        int count = 0;
        try {

            
            URL url = new URL(HDFS + path);
            InputStream gameList = url.openStream();
            BufferedReader reader_url = new BufferedReader(new InputStreamReader(gameList,"UTF-8"));
            String inString_RL = reader_url.readLine();
            
            while (inString_RL != null && count < 50) {
                int userId;
                String[] str = inString_RL.split(","); 
                count ++;
                map.put(str[1], str[0]);
                System.out.println(str[0]);
                inString_RL = reader_url.readLine();
            }
            reader_url.close();
        } catch (FileNotFoundException e) {
            System.out.println("未找文件!");
        } catch (IOException e1) {
            System.out.println("文件读写错误!");
        }
    }

InputStreamReader中加入"UTF-8"即可

Java读取文件时第一行出现乱码“?”问号

在windows 环境下,使用java文件流读取文本文件时,会出现第一个字符为未知字符"?" ,其他字符完整。而且第一个字符显示为?但是用equals比对发现并非是"?"号,google之,了解到bom编码标记。使用 16进制打印输出结果:

只要出现该头的16进制编码为这种字符便可以断定该文本文件的编码方式了。

bom编码标记:

bom全称是:byte order mark,汉语意思是标记字节顺序码。只是出现在:unicode字符集中,只有unicode字符集,存储时候,要求指定编码,如果不指定,windows还会用默认的:ANSI读取。常见的bom头是:

UTF-8 ║ EF BB BF
UTF-16LE ║ FF FE (小尾)
UTF-16BE ║ FE FF (大尾)
UTF-32LE ║ FF FE 00 00
UTF-32BE ║ 00 00 FE FF

解决方法:

  1. 工具将txt文件另存为UTF-8无BOM格式

public String readerFile(InputStream in) throws IOException {
        StringBuffer strBuff = new StringBuffer();
        String temp = null;
        BufferedReader reader = new BufferedReader(new InputStreamReader(in,Charset.forName("utf-8")));
        while ((temp = reader.readLine()) != null) {
            byte[] by = temp.getBytes();
            String header = Integer.toHexString(by[0]).toUpperCase();
            //判断是否拥有无法识别的字符
            if (header.equalsIgnoreCase("FFFFFFEF") || header.equalsIgnoreCase("3F")) {
                strBuff.append(temp.substring(1) + "\n");
                continue;
            }
            strBuff.append(temp + "\n");
        }
        reader.close();
        in.close();
        return strBuff.toString();
    }
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 原文地址 用java生成一个UTF-8文件(指定了utf-8格式了): 如果文件内容中没有中文内容,则生成的文件为...
    東方白阅读 2,954评论 0 0
  • 什么是字符集,什么是字符编码,它做什么用? 字符(Charcter)是文字与符号的总称,包括文字、图形符号、数学符...
    laravel阅读 324评论 0 0
  • 因为他们是TFboys,所以我可以放弃一切 因为他们是TFboys,所以我很爱他们 因为他们是TFboys,所以十...
    唯团不可摧阅读 268评论 2 4
  • 不知道你的身边是不是有这样一个体态略显臃肿的一个人,肚子上搞挂着一块“五花肉”,每次和别人说的时候都不以为意。突...
    司铁阅读 242评论 0 0
  • 喜欢蝉的叫声,因为听到那声音预示着夏天来了。夏天代表着阳光灿烂、热情奔放。小时候会穿上漂亮的裙子,啃着冰块,光着脚...
    永远眼眶湿润阅读 834评论 0 1