n-gram语言模型训练工具kenlm安装

1.wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz

2.cd kenlm

3.mkdir -p build

4.cmake ..

5.make -j 4

6.训练:bin/lmplz -o 3 --verbose_header --text ../text-18-03/text_18-03-AU.txt --arpa MyModel/log.arpa

参数:

-o n:最高采用n-gram语法

-verbose_header:在生成的文件头位置加上统计信息

--text text_file:指定存放预料的txt文件

--arpa:指定输出的arpa文件

7.arpa转bin:bin/build_binary -s log.arpa log.bin

8.python接口:pip install kenlm

9.打分:

#encoding:utf8

import kenlm

model = kenlm.Model('log.arpa')

print(model.score('this is a sentence.',bos = True,eos = True))

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容