1、安装Anaconda
Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。
anaconda提供了Spyder以及jupyter notebook两个非常好用的python开发IDE和可视化ipython开发平台,并且自带numpy、sklearn等常用第三方科学运算库,十分方便。
可从官方下载地址进行下载,不过我在Ubuntu上无法打开这个链接,所以选择在清华开源软件镜像库选择对应版本shell进行下载,下载时注意anaconda2对应python2,anaconda3对应python3。
下载后,运行shell文件即可完成安装。
安装完成后如下:
2、安装nltk和nltk_data
nltk
sudo pip install -U nltk
测试:
python -c 'import nltk'
nltk_data
nltk_data提供了可供测试和练习的数据以及训练好的一些模型,官方推荐的方法是在python下
>>> import nltk
>>> nltk.download()
但是由于节点在国外,速度非常慢,推荐采用离线安装包安装的方式:
链接: 百度网盘 密码: cjdw
下载解压后,在python下
>>> import nltk
>>> nltk.find('.')
将解压后的文件放入上图报错中任何一个目录下即可。
测试:
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
参考:
1、http://www.nltk.org/
2、http://blog.csdn.net/u010167269/article/details/63684137