1.wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
2.cd kenlm
3.mkdir -p build
4.cmake ..
5.make -j 4
6.训练:bin/lmplz -o 3 --verbose_header --text ../text-18-03/text_18-03-AU.txt --arpa MyModel/log.arpa
参数:
-o n:最高采用n-gram语法
-verbose_header:在生成的文件头位置加上统计信息
--text text_file:指定存放预料的txt文件
--arpa:指定输出的arpa文件
7.arpa转bin:bin/build_binary -s log.arpa log.bin
8.python接口:pip install kenlm
9.打分:
#encoding:utf8
import kenlm
model = kenlm.Model('log.arpa')
print(model.score('this is a sentence.',bos = True,eos = True))