按词性提取单词

一直关注这样一个问题,一段英文文字中用到了哪些词,尤其是动名形容词?这样可以有目的地提高词汇量从而有助于英文写作。

几乎每届R语言会议上都有关于文本处理的分会场,文本处理在如今的社会中有非常重要的应用。但是对于自己而言并不需要这些繁杂的用处,而且英文的处理相对于中文要简单不少,在R中也有相应的包可以实现这些。一开始借助OpenNLP,但有几个缺点:

  • 2个包要用到rjava,安装时非常之繁琐且容易失败,解决方法

  • 分词很慢。

  • 同一个单词不同词形比如复数、时态不能归一,造成冗余。

后来为了解决词形的问题时遇到一页博客提及对应的英文单词是lemmatization,通过google后找到koRpus利用TreeTagger能够实现。注意Windows下要下载English parameter file并解压到lib文件夹中,以及安装Perl。运行时可能会报错,koRpus的解决方法见这里
分词(或句子)用quanteda::tokenize实现。

提取的结果并不完美,例如会出现数字开头的错误单词,不要苛责。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,274评论 1 25
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,229评论 4 61
  • 如果这部电影100分满分,我打1000分!看到了那么多的老港演,好亲切!古惑仔的永远辣么好听!小燕子的演技太棒了,...
    RedMoon阅读 294评论 0 1
  • 《增长黑客》主要是从AARRR转化漏斗模型的5个环节介绍“增长”的手段。请原谅我用“手段”这个词,因为“方法”未能...
    RainaL阅读 181评论 0 0
  • 不知道你们有没有听过“流性人”。就是那种在不同的时间里一会儿觉得自己是男人,一会儿又觉得自己是女人的人。听起来可能...
    涵丹尼阅读 323评论 0 0