先把遇到的错误关键词附上,方便遇到同样问题的同学检索到
关键词:
错误于iconv(tmp.lines, encoding, "UTF-8") :
不支持'binary'到'UTF-8'的这种转换
背景:在不明网站下载了一下txt文件,计划分词,做点文本分析之类的
文件下载好了,但是在第一步,分词卡了好久,主要原因就是文件编码不一致,导致jiebaR无法自动识别并转化格式报错
wk = worker()
wk['文件名.txt'] #此处报错,错误于iconv(tmp.lines, encoding, "UTF-8") : 不支持'binary'到'UTF-8'的这种转换
于是我逐步采取了3类办法:
1,把下载的txt用word文档打开(原文档无法直接打开,或者打开后乱码),然后复制,粘贴到mac的文本编辑器,发现无效,同样报错
2,网上搜索mac文本编码转化,找到一种最常用的方法,用shell命令
iconv -f CP1250 -t UTF-8 原始文件.txt>转码后的新文名.txt
可以参考这篇Linux 文本文件编码转换工具,很可惜,我的这个文件找不到原格式是什么,无法转化。
3,用软件转化
也是在网上搜索了半天,找到了这个软件,其他的都是收费的。
汉字编码转换
在这个网址上找到的,我下载的时候还是免费,不知道以后是不是收费。
最后,第三种方法解决问题。
关于jiebaR的用法
这篇文章是R语言中文分词包jiebaR写得比较完整的。
作者用的是windows,mac用户又会出现各种小问题,蛋疼