本文主要是记录了一下pyenchant包的安装以及简单使用。这个包主要功能是对英语单词进行拼写检查,并可以对拼写错误的单词推荐一些可能的正确单词。
1 installing PyEnchant
使用pip直接安装即可,指令如下:
pip install pyenchant
使用上述指令,如果安装没有错误就是安装成功了,一般情况下(mac、ubuntu等系统)是没有任何问题的。但是在亚马逊的EC2机器上,使用上述指令会提示错误。主要原因是EC2系统上缺少enchant
组建,这里就需要在EC2机器上安装该组建。使用如下指令:
sudo yum install enchant
安装好enchant
之后,在使用pip安装pyenchant
即可。但是在python中使用enchant
时,会发现刚刚装好的enchant
没有安装默认字典。这就需要另外安装常用英语字典,来支持pyenchant
的正常使用,使用如下指令:
sudo yum install aspell-en
sudo yum install enchant-aspell
2 基础用法
2.1 创建和使用Dictionary Object
在PyEnchant中最主要的就是Dict
对象,我们可以使用它来检查单词的拼写是否正确,同时还可以对拼写错误的单词提供几个可能的正确拼写。
首先介绍如何创建Dict
对象,并用其检查某个单词的拼写:
>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
创建Dict
对象可以使用如下方式:
方法 | 描述 |
---|---|
d = enchant.Dict(language) | 使用指定语言创建Dict对象 |
d = enchant.request_dict(language) | 使用指定语言创建Dict对象 |
d = enchant.request_pwl_dict(filename) | 只用本地文件中的词汇创建Dict对象 |
d = enchant.DictWithPWL(language, filename) | 将内置某语言以及本地文件中的词汇合并来创建Dict对象 |
注意上述方法中用到了本地文件filename
,文件中每一行只存放一个单词。
enchant模块还提供了如下几个关于语言的方法:
方法 | 描述 |
---|---|
enchant.dict_exits(language) | 查看当前enchant模块是否支持某种语言 |
enchant.list_languages() | 查看当前enchant模块支持的所有语言 |
Dict
对象有如下方法与属性方便用户使用:
方法or属性 | 描述 |
---|---|
d = enchant.Dict(language) | 指定语言创建一个Dict对象 |
d.tag | 当前Dict使用的语言 |
d.check(word) | 检查word的拼写是否正确 |
d.suggest(word) | 对拼写错误的word提供几个正确拼写的单词 |
>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.tag
'en_US'
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>> d.suggest("helo")
['hole', 'hello', 'helot', 'halo', 'hero', 'hell', 'held', 'helm', 'help', 'he lo']
>>> enchant.dict_exists("aa")
False
>>> enchant.dict_exists("en_US")
True
>>> enchant.list_languages()
['de_DE', 'en_AU', 'en_GB', 'en_US', 'fr_FR']
2.2 检查一段文本的拼写
这里使用enchant.checker
中的SpellChecker
类来解决对一整段文本中的单词进行拼写检查
>>> from enchant.checker import SpellChecker
>>> chkr = SpellChecker("en_US")
>>> chkr.set_text("This is sme sample txt with erors.")
>>> for err in chkr:
... print "ERROR", err.word
...
ERROR sme
ERROR txt
ERROR erors
2.3 英语分词器(Tokenization)
将英语文本进行分词,返回结果格式(word, pos),其中pos是word在整个文本中出现的位置
>>> from enchant.tokenize import get_tokenizer
>>> tknzr = get_tokenizer("en_US")
>>> [w for w in tknzr("this is some simple text.")]
[('this', 0), ('is', 5), ('some', 8), ('simple', 13), ('text', 20)]