利用auomator从文章中提取单词列表

前提是你安装好了python3 以及nltk这个库。(自行百度)
打开automator,新建app,

Paste_Image.png

Py文件内容,把corpus_root='/Users/noneback/protoncorpus'改成你存放txt文本的位置。把要分析的txt文本存在这里即可。

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from nltk.corpus import PlaintextCorpusReader
corpus_root='/Users/noneback/protoncorpus'
wordlists=PlaintextCorpusReader(corpus_root,'.*')

def getcb():
#从文本中提取单词列表
       cb=[]
       for x in wordlists.fileids():
              if x.endswith('.txt'):
                     print (x)
                     cb.extend(wordlists.words(x))
       return cb

def nocfcb():
#去掉单词列表中重复的单词
       s=getcb()
       print (len(s))
       s1=set(s)
       s2=sorted([w for w in s1 if w.isalpha() and w.islower()])
       for x in s2:
              print (x)

if __name__=='__main__':
       nocfcb()

效果如图

Paste_Image.png

ps:安装nltk库非常麻烦,要有耐心。

没耐心的去这个网站、http://tools.eflclub.me/VocabularyAnalyzer

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容