8. 词的标准化 2023-06-05

stem 是主干的意思,顾名思义提取词的主干,去掉时态复数等附加信息。
这个算法是用if eles逻辑写的。

from nltk.stem.porter import *

stemmer = PorterStemmer()

test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',

    'died', 'agreed', 'owned', 'humbled', 'sized',

    'meeting', 'stating', 'siezing', 'itemization',

    'sensational', 'traditional', 'reference', 'colonizer',

    'plotted']

singles = [stemmer.stem(word) for word in test_strs]

print(' '.join(singles)) 
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容