如何解决 Stata 14 的中文乱码问题

发布网友发布时间：2022-04-22 15:29

共5个回答

热心网友时间：2023-09-18 22:10

首先，打开此数据集 surname_test.dta。

. use surname_test.dta, clear

点击数据编辑器 “Data Editor (Browse)” 的快捷键，查看数据：

可以看出，上表的最后一列，变量 character（中文姓氏）出现了乱码，无法正确显示。在使用 Stata 14 命令 unicode 进行编码时，内存中不能有数据，故先删除数据。

. clear

然后，将需要编码的文件（在此为 surname_test.dta），放入当期工作路径（current working directory），通常在Stata的左下角显示。

也可使用命令pwd（path of working directory）来显示当期工作路径。或使用命令cd（change directory）将当期工作路径改为文件 surname_test.dta 所在的位置，详见“help cd”。

. pwd

C:\Program Files (x86)\Stata14

接下来，使用命令 unicode analyze 分析数据集 surname_test.dta 是否需要编码翻译。

. unicode analyze surname_test.dta

结果显示，有一个字符串变量需要编码翻译（1 str# variable needs translation）。为此，将编码设为国标码（GB18030），再进行翻译。

. unicode encoding set gb18030

(default encoding now gb18030)

. unicode translate surname_test.dta

(using gb18030 encoding)

结果显示，此文件已编码翻译成功。再次打开此数据集，并通过数据编辑器 “Data Editor (Browse)” 查看：

. use surname_test.dta,clear

上表已能正确显示中国人口最多的十大姓氏依次为：王、李、张、刘、陈、杨、黄、赵、周、吴。相信朋友可以安心使用 Stata 14 了。

热心网友时间：2023-09-18 22:10

解压文件出现中文乱码怎么办解决办法

热心网友时间：2023-09-18 22:11

可以转码，之后就不是乱码了。用下面的命令：
unicode analyze *
unicode encoding set gb18030
unicode translate *
这三个命令一般情况可以解决你的问题。如果还是不行可试试其它方法。详见help unicode
注意：运行这三个命令前，当前目录需是你欲转换文件所在目录，且内存中不能有stata数据文件。

热心网友时间：2023-09-18 22:11

对头，可以转码，之后就不是乱码了。用下面的命令：
unicode analyze *
unicode encoding set gb18030
unicode translate *
这三个命令一般情况可以解决你的问题。如果还是不行可试试其它方法。详见help unicode
注意：运行这三个命令前，当前目录需是你欲转换文件所在目录，且内存中不能有stata数据文件。

热心网友时间：2023-09-18 22:12

可能是因为以前用13或ftf更早版本输入的中文，在14中，就成了乱码，这时可用unicodetranslate进行转换，主要有三个命令：
unicode analyze filespec [, redo nodata]

unicode encoding set ["]encoding["]

unicode translate filespec [, invalid[(escape|mark|ignore)] transutf8 nodata ]

其中的选项 ["]encoding["]用国标就可以了。数据和do文件，都是用这三个命令。但是第一个命令可以用，也可以不用，不会影响处理结果。第二个命令是必须用的。