如何在SAS的三种编码间来去自如：wlatin1，euc-cn和utf-8

在日常工作中，常用的SAS语言环境有三个，即英文（wlatin1 western），简体中文（euc-cn），Unicode（utf-8）。这三个语言环境产生的代码文件（.sas）和数据集文件（.sas7b），也将使用相应的编码。

有时候，我们在一个语言环境下使用另一个编码的代码文件、数据集文件，会产生错误或乱码。而且，一旦保存，乱码将保存，不可逆！非常头疼。

那么，如何在不同编码间，自由转换呢？

首先，我们需要掌握两个原理：

1.不同编码涵盖的字符量：utf8>euc-cn>wlatin1。这表明，从utf8往下转码时。只有在字符能被涵盖时才成功。

2.不同编码多字节字符占据的字节数量：utf8(3 bytes)>euc-cn(2 bytes)>wlatin1(1 byte)。这表明，从wlatin1往上转码时，只有在变量长度在新编码下足够时，才成功。

我们先来转换代码文件。在下面的代码中，l3变量存在euc-cn不能识别的字符，l2变量存在wlatin1不能识别的字符，l变量的字符，三种编码均能识别。

当我们保存.sas代码文件后会发现，不能识别的字符，会自动被忽略。无法写入。

那么，当字符涵盖在编码中时，是不是就万事大吉了呢？我们接下来试试，用一个编码的SAS软件，来打开另一个编码的代码。

wlatin1打开其他两种编码的.sas文件：

euc-cn打开其他两种编码的.sas文件：

utf8打开其他两种编码的.sas文件：

由此可见。不论字符能不能识别。只要用sas编辑器，打开其他编码的.sas文件。就会产生乱码。而且不可逆。这是因为文本文档本身会有一个编码。

那么，如何实现代码文件在不同编码间转换呢？

第一种方法，人工操作，简单粗暴。使用复制粘贴法，将代码copy到新的编辑器。

第二种方法，使用代码批量生产。将,sas文件导入(infile+input)，再导出成新编码下的.sas文件(file+put)。

原文章首发于公众号【SAS编程未来】。