GDAL 在把 dxf 转成 geojson 后,cad的图层名中文乱码问题

问题:

之前使用gdal,把dxf转成geojson时遇到中文乱码的问题。所以使用下面三行解决了:

// 为了支持中文路径,请添加下面这句代码
gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
// 为了使属性表字段支持中文,请添加下面这句
gdal.SetConfigOption("SHAPE_ENCODING", "");
//设置DXF缺省编码
gdal.SetConfigOption("DXF_ENCODING", "ASCII");

现在遇到问题:有的dxf转换后出现乱码问题。
已经确认是第三行的原因:gdal.SetConfigOption("DXF_ENCODING", "ASCII");这行代码现在是支持UTF-8字符的,但是不支持其他比如ANSI。

测试与比较:

下面拿两中dxf进行测试:
已知:

  1. 乱码2004.dxf:小于2007版本。
  2. 正常2007.dxf:大于等于2007版本。
    这两个文件,在用gdal转成geojson后,04版的出现中文乱码现象。

使用winmerge比较这两个文件,查看二进制比较结果,发现:
第一,04版本为GB2312字符、07版本的为UTF-8字符。
第二,二进制文件中两者开头却没有区分字符格式的头字符。

思路:

由上面结果可以得出:只要可以区分字符类型即可。
所以现在用程序去全文扫描检测判断字符类型。我们使用cpdetector

cpdetector安装与使用:

1. 下载编码检测依赖:

https://sourceforge.net/projects/cpdetector/files/latest/download

2-1. idea - Project Structure - Project Settings - Libraries - 点加号添加依赖:

F:\ckk\newCoalProject20201026\cpdetector_1.0.10_binary 下:cpdetector_1.0.10.jar
ext/下的:antlr-2.7.4.jar、chardet-1.0.jar、jargs-1.0.jar
依赖引入。

2-2. 或者把jar都打到本地maven仓库:

# mvn install:install-file -Dfile=F:\ckk\newCoalProject20201026\cpdetector_1.0.10_binary/cpdetector_1.0.10.jar -DgroupId=com.hongyi -DartifactId=cpdetector -Dversion=1.0.10 -Dpackaging=jar

# mvn install:install-file -Dfile=F:\ckk\newCoalProject20201026\cpdetector_1.0.10_binary\ext/antlr-2.7.4.jar -DgroupId=com.hongyi -DartifactId=antlr -Dversion=2.7.4 -Dpackaging=jar

# mvn install:install-file -Dfile=F:\ckk\newCoalProject20201026\cpdetector_1.0.10_binary\ext/chardet-1.0.jar -DgroupId=com.hongyi -DartifactId=chardet -Dversion=1.0 -Dpackaging=jar

# mvn install:install-file -Dfile=F:\ckk\newCoalProject20201026\cpdetector_1.0.10_binary\ext/jargs-1.0.jar -DgroupId=com.hongyi -DartifactId=jargs -Dversion=1.0 -Dpackaging=jar
引入到pom文件:

<!--  编码检测依赖:cpdetector、antlr、chardet、jargs      -->
        <dependency>
            <groupId>com.hongyi</groupId>
            <artifactId>cpdetector</artifactId>
            <version>1.0.10</version>
        </dependency>
        <dependency>
            <groupId>com.hongyi</groupId>
            <artifactId>antlr</artifactId>
            <version>2.7.4</version>
        </dependency>
        <dependency>
            <groupId>com.hongyi</groupId>
            <artifactId>chardet</artifactId>
            <version>1.0</version>
        </dependency>
        <dependency>
            <groupId>com.hongyi</groupId>
            <artifactId>jargs</artifactId>
            <version>1.0</version>
        </dependency>
3.EncodingDetector.java工具类:
package com.hongyi.cms.gismap.util;

import info.monitorenter.cpdetector.io.ASCIIDetector;
import info.monitorenter.cpdetector.io.CodepageDetectorProxy;
import info.monitorenter.cpdetector.io.JChardetFacade;
import info.monitorenter.cpdetector.io.ParsingDetector;
import info.monitorenter.cpdetector.io.UnicodeDetector;

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.nio.charset.Charset;

import lombok.extern.slf4j.Slf4j;

@Slf4j
public class EncodingDetector {

    private static final CodepageDetectorProxy detector = CodepageDetectorProxy .getInstance();

    static {
/*-------------------------------------------------------------------------
ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
指示是否显示探测过程的详细信息,为false不显示。
---------------------------------------------------------------------------*/
        detector.add(new ParsingDetector(false));
/*--------------------------------------------------------------------------
JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码
测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以
再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
---------------------------------------------------------------------------*/
        detector.add(JChardetFacade.getInstance());
// ASCIIDetector用于ASCII编码测定
        detector.add(ASCIIDetector.getInstance());
// UnicodeDetector用于Unicode家族编码的测定
        detector.add(UnicodeDetector.getInstance());
    }

    public static String getCharset(File file) {
        Charset charset = null;
        try {
            charset = detector.detectCodepage(new BufferedInputStream(new FileInputStream(file)), Integer.MAX_VALUE);
            log.info("file [{}] > charset:{}", file, null != charset ? charset.name() : null);
//            file [F:\ckk\mapbox研究\test\乱码版本1.dxf] > charset:GB2312
//            file [F:\ckk\mapbox研究\test\正常版本.dxf] > charset:UTF-8
//            file [F:\ckk\mapbox研究\test\乱码版本2.dxf] > charset:GB2312
        } catch (Exception e) {
            log.info("file [{}] error > ", file, e);
        }
        return null != charset ? charset.name() : null;
    }

    public static String getCharset(InputStream is) {
        Charset charset = null;
        try {
            BufferedInputStream bufferedInputStream = new BufferedInputStream(is);
            charset = detector.detectCodepage(bufferedInputStream,1000);
            bufferedInputStream.reset();
        } catch (Exception e) {
        }
        return null != charset ? charset.name() : null;
    }

}

4.使用(局部代码):
ogr.RegisterAll();
// gdal.SetConfigOption 选项配置参见:https://trac.osgeo.org/gdal/wiki/ConfigOptions
// 为了支持中文路径,请添加下面这句代码
gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
// 为了使属性表字段支持中文,请添加下面这句
gdal.SetConfigOption("SHAPE_ENCODING", "");

/**
 * 判断编码dxf文件编码类型:
 * 在cad另存为dxf时,由于不同版本问题导致编码不同。
 * 已知:dxf >=2007 版本编码为 UTF-8,其他低版本编码为 GB2312
 * 若为 UTF-8 需要设置:gdal.SetConfigOption("DXF_ENCODING", "ASCII");
 */
String charset = EncodingDetector.getCharset(new File(inputPath + cadFileName));
if(null != charset && charset.equals("UTF-8")){
    //设置DXF缺省编码
    gdal.SetConfigOption("DXF_ENCODING", "ASCII");
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容