语言技术平台 LTP 由哈工大社会计算与信息检索研究中心
研发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。在2014年11月,哈工大联合科大讯飞公司推出“哈工大-讯飞语言云”,提供网络接入的语言云服务。
在线使用 LTP-Cloud
官网API https://www.ltp-cloud.com/document/#api_rest_style
我主要是用到python进行调用,但是官方文档里面给的 demo 用的是 python2.x 写的,而现在我主要用的是 python3.x 了,所以我将原来的 demo 修改如下。
demo1
# -*- coding:utf8 -*-
import urllib.request
import urllib.parse
url_get_base = "http://api.ltp-cloud.com/analysis/?" # 注意结尾是'?'
args = {
'api_key' : 'YourApiKey', # 用户注册语言云服务后获得的认证标识
'text' : '我是中国人。', # 待分析的文本
'pattern' : 'ner', # 指定分析模式,ner(命名实体识别)
'format' : 'plain' # 指定结果格式类型,plain(简洁文本格式)
}
result = urllib.request.urlopen(url_get_base+urllib.parse.urlencode(args)) # POST method
content = result.read().decode('utf8')
print(content)
运行结果为:
我 是 [中国]Ns 人 。
在 NER 中:机构名(Ni)、人名(Nh)、地名(Ns)
几点注意:
① python3.x
的版本中 urllib
与 urllib2
已经合并为一个 urllib
库
② python2.x
中的 urllib.urlopen()
和 urllib.urlencode
在 python3.x
中分别是 urllib.request.urlopen()
和 urllib.parse.urlencode()
③ 错误:urllib.error.HTTPError: HTTP Error 401: UNAUTHORIZED
的原因在于 url 一定要写对,可以参考该网址https://github.com/HIT-SCIR/ltp-cloud-api-tutorial/issues/3
demo2
# -*- coding:utf8 -*-
import urllib.request
import urllib.parse
text="我来自成都信息工程大学的计算机学院。"
text=str(text)
#text=urllib.quote(text)
text=urllib.parse.quote(text)
pattern = 'ner'
url = 'http://api.ltp-cloud.com/analysis/?' \
'api_key=YourApiKey' \
'&text='+text+\
'&pattern='+pattern+\
'&format=plain';
response = request.urlopen(url)
content = response.read().decode('utf-8')
print(content)
运行结果:
输入:我来自成都信息工程大学的计算机学院。
输出:我 来自 [成都 信息 工程 大学]Ni 的 计算机 学院 。
输入:我来自成都信息工程大学计算机学院。
输出:我 来自 [成都 信息 工程 大学 计算机 学院]Ni 。
附
该文章于2017年10月12日于CSDN上首次发表,2017年12月24日搬家至此!