stem 是主干的意思,顾名思义提取词的主干,去掉时态复数等附加信息。
这个算法是用if eles逻辑写的。
from nltk.stem.porter import *
stemmer = PorterStemmer()
test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',
'died', 'agreed', 'owned', 'humbled', 'sized',
'meeting', 'stating', 'siezing', 'itemization',
'sensational', 'traditional', 'reference', 'colonizer',
'plotted']
singles = [stemmer.stem(word) for word in test_strs]
print(' '.join(singles))