用jiebaR遇到的问题

先把遇到的错误关键词附上，方便遇到同样问题的同学检索到

关键词：
错误于iconv(tmp.lines, encoding, "UTF-8") :
不支持'binary'到'UTF-8'的这种转换

背景：在不明网站下载了一下txt文件，计划分词，做点文本分析之类的
文件下载好了，但是在第一步，分词卡了好久，主要原因就是文件编码不一致，导致jiebaR无法自动识别并转化格式报错

wk = worker()
wk['文件名.txt'] #此处报错，错误于iconv(tmp.lines, encoding, "UTF-8") : 不支持'binary'到'UTF-8'的这种转换

于是我逐步采取了3类办法：

1，把下载的txt用word文档打开（原文档无法直接打开，或者打开后乱码），然后复制，粘贴到mac的文本编辑器，发现无效，同样报错

2，网上搜索mac文本编码转化，找到一种最常用的方法，用shell命令
iconv -f CP1250 -t UTF-8 原始文件.txt>转码后的新文名.txt
可以参考这篇Linux 文本文件编码转换工具，很可惜，我的这个文件找不到原格式是什么，无法转化。

3，用软件转化
也是在网上搜索了半天，找到了这个软件，其他的都是收费的。
汉字编码转换
在这个网址上找到的，我下载的时候还是免费，不知道以后是不是收费。

最后，第三种方法解决问题。

关于jiebaR的用法

这篇文章是R语言中文分词包jiebaR写得比较完整的。
作者用的是windows，mac用户又会出现各种小问题，蛋疼

最后编辑于：2017.12.05 23:37:46