自然语言处理(一)布朗语料库

什么是自然语言处理?

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它是一门融语言学、计算机科学、数学于一体的科学。

0.jpg

自然语言处理的英文全称为:Natural Language Processing 人们习惯将其简称为NLP.

1.jpg

简单来说,自然语言处理就是用计算机与文本打交道。例如:文本分类、机器翻译、阅读理解等都属于自然语言处理范畴。

2.jpg

2017高考时,智能教育机器人Aidam和成都准星云学科技有限公司开发的人工智能系统AI-Maths也“参加高考“,成为了高考大军中的一员。

3.jpg

机器人高考文科全国卷II获得134分,用时仅仅10分钟!这都是自然语言处理的研究成果。


4.jpg

什么是NLTK?

利用python进行深度学习完成自然语言处理项目时,常常会看到一些大佬们用NLTK,那么NLTK到底是什么呢?

5.jpg

NLTK是python中著名的自然语言处理库,自带语料库、词性分类库、自带分类、分词、等诸多功能,是自然语言处理的“金钥匙”。

6.jpg

NLTK的安装

  • Linux(以centos7为例):

    在Linux下安装十分方便,直接在终端输入: sudo pip install nltk 即可。

    7.jpg

  • Windows(以win7为例):

    在windows下安装,网上的一些陈旧安装方法过于繁琐,小叮当为大家分享一种目前来说较为方便的安装方法:

    Step1.进入python的第三方库网址:

    https://www.lfd.uci.edu/~gohlke/pythonlibs/#genshi

8.jpg

Step2.搜索NLTK安装包:
说到搜索,让我更不解的是,明明一个"Ctrl+F"操作就可以解决的事,好多人非要自己滑着滚动条去找,只能说,你开心就好,我小叮当无话可说~

9.jpg

反正小叮当我是这样搜索的,直接“Ctrl+F”,在网页右上角出来的文本框中,输入“nltk",回车,让计算机自动帮我们搜索。

10.jpg

Step3.下载nltk包到本地:

点击ntlk安装包直接下载,目前这个包的名称是"nltk‑3.3‑py2.py3‑none‑any.whl”(顾名思义,对于python2和python3都支持,放心地用吧)

11.jpg

此时,只需要注意一点:记录好下载的路径(或是像小叮当一样,直接放到一个盘的根目录下,简单又好记)和包的名称,因为一会儿安装时要用到。

Step4.安装NLTK:

打开CMD命令窗口,输入命令:

pip install F:\nltk‑3.3‑py2.py3‑none‑any.whl

这里“F:\nltk-3.3-py2.py3-none-any.whl"就是你刚下载的位置和包的名称。

12.jpg

过一会儿,nltk就在你的电脑上装好了~(如过你用pycharm编辑器时import nltk还会出错,这可能是你没有设置安装包自动加载到项目中,可以参考7行代码,彻底告别python第三方包import导入问题!

NlTK自带语料库

NlTK自带语料库,我们可以通过执行“nltk.download()"调出nltk下载器,来下载我们需要的相关语料库。我们以在win7环境下为例,进行说明。

13.jpg
1#!/usr/bin/env python
2# -*- coding:utf-8 -*-
3__author__ = 'IT小叮当'
4date: 2018 / 10 / 16
5import nltk
6nltk.download()

我们以下载"布朗语料库”(Brown Corpus)为例,进行说明。布朗语料库(Brown Corpus)是在1960年中期美国布朗大学构建的一个具代表性的平衡语料库,是第一个机读语料库,也是第一个平衡语料库

14.jpg

甚至后来新构建的英语平衡语料库如lob(Lancaster-Oslo/Bergen,英国英文)London-Lund(英语口语),都还仍遵循布朗语料库的架构。布朗语料库收集了500个连贯英语书面语,文本每个文本超过2000词,整个语料库共有1161192个词。

我们选中,NLTK下载器中的“ALL Packages”,拖动右端的滚动条,在"Identifier"所在的列,找到在"brown"(也可在Name列找“Brown Corpus”),点击“Download”便可进行下载。

15.jpg

下载完成后,该项便会自动被标绿,表示已经下载完成,下方也有相应的提示“Finished installing brown"。

16.jpg

我们通过执行如下代码,可以看到布朗语料库共包含了15个分类,有'adventure')、‘belles_lettres’(纯文学)、'editorial'(编辑), 'fiction'(小说), 'government'(政府), 'hobbies'(爱好), 'humor'(幽默), 'learned'(学术), 'lore'(知识), 'mystery'(推理小说), 'news'(新闻), 'religion', 'reviews'(评论), 'romance'(浪漫), 'science_fiction'(科幻小说),布朗语料库包含了57340个句子和1161192个词汇。

17.jpg

具体代码如下:

 1#!/usr/bin/env python 
2# -*- coding:utf-8 -*- 
3__author__ = 'IT小叮当'
 4date: 2018 / 10 / 16 
5from  nltk.corpus import brown
 6classes=brown.categories()
 7print("布朗语料库的主题分类:") 
8print(classes) 
9l=len(brown.sents())
10print("布朗语料库的句子个数:"+str(l))
11word=len(brown.words())
12print("布朗语料库的词汇个数:"+str(word))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,458评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,030评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,879评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,278评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,296评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,019评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,633评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,541评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,068评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,181评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,318评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,991评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,670评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,183评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,302评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,655评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,327评论 2 358

推荐阅读更多精彩内容