R中将汉字转为拼音

今天给朋友处理数据,性状等用汉字。分析时汉字总有各种问题,所以需要转成字母/数字。量大时手动转换耗时费力,用程序转换势在必行。检索到有Rpinyin可供使用。列几条用法。

#调包
library(tidyverse)
library(pinyin)

# 主函数是py()
py("汉字")
#    汉字 
# "hàn_zì" 

默认参数给的拼音带声调。不需要声调呢?

#调字典
py("汉字", dic = pydic(dic = c("pinyin2")))
#      汉字 
#"han4_zi4" 

字间用下横线连接,声调用数字表示,跟在每个字的拼音后。这时想要去掉数字就简单了。

py("汉字", dic = pydic(dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
#"han_zi"

输出的拼音字符也可以只保留首字母。

py("汉字", dic = pydic(only_first_letter =T,dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
"h_z"

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。