当然了,以下的前提是你已经安装好了nltk这个包!
按照注释改变相关参数就可以了!
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import nltk
from nltk import *
from nltk.corpus import PlaintextCorpusReader
def getcizu():
corpus_root='/Users/noneback/protoncorpus'
#这里设置自己的文件夹
wordlists=PlaintextCorpusReader(corpus_root,'.*')
x=nltk.Text(wordlists.words('合并好了.txt'))
#自行修改自己所设置文件夹下txt的名字
print (x.collocations(20))
#改动20可以设置提取词组的数目
getcizu()