技术交流QQ群:1027579432,欢迎你的加入!
0.HanLP的安装
- pyhanlp是HanLP的Python的接口,支持自动下载与升级HanLP,兼容pthon2、python3。由于HanLP主项目采用Java开发,所以安装之前,windows系统必须先安装Java运行环境,注意安装的JDK版本一定要与python解释器的版本一种,否则后面使用会出现大坑!!!如何安装Java的JDK,见参考资料。
- 具体安装步骤如下:
- 0.1下载并安装JPype1-0.6.3-cp35-cp35m-win_amd64.whl(选择与自己python版本对应的文件,此处由于我的python解释器是pthon3.5,所以选择的是cp35,其他情况类似,强烈建议下JPype1-0.6.3!),下载链接见参考资料。见此文件放在D:\python35\Lib\site-packages目录下,然后在此目录下按下shift键+鼠标右击。接着,鼠标点击在此处打开命令窗口。在cmd窗口下,输入pip install JPype1-0.6.3-cp35-cp35m-win_amd64.whl
JPype1 -
0.2接着,在cmd窗口下,输入pip install pyhanlp,开始进行安装。下载的文件在D:\python35\Lib\site-packages\pyhanlp路径下
pyhanlp安装路径 - 0.3下载相应版本的.jar包和压缩的data文件、hanlp.properties(下载链接见参考资料部分),并修改hanlp.properties文件中root变量的文件路径,见下图中的黄色箭头所示。注意.jar包的版本一定要与data文件的版本一致!然后,将下载下来的.jar包和解压后的data文件移动到D:\python35\Lib\site-packages\pyhanlp\static目录下,见下图。
修改文件路径
注意事项 -
0.4验证安装是否成功。import pyhanlp没有出现任何错误,说明安装成功!
验证安装成功
- 0.1下载并安装JPype1-0.6.3-cp35-cp35m-win_amd64.whl(选择与自己python版本对应的文件,此处由于我的python解释器是pthon3.5,所以选择的是cp35,其他情况类似,强烈建议下JPype1-0.6.3!),下载链接见参考资料。见此文件放在D:\python35\Lib\site-packages目录下,然后在此目录下按下shift键+鼠标右击。接着,鼠标点击在此处打开命令窗口。在cmd窗口下,输入pip install JPype1-0.6.3-cp35-cp35m-win_amd64.whl
1.HanLP的使用
- 1.1命令行交互式分词模式
- 在命令行界面,使用命令hanlp segment 进入交互分词模式,输入一个句子并回车,HanLP会输出分词结果。结果如下图所示,可以看到pyhanlp分词结果是带有词性的。
分词结果1 - 服务器模式:通过hanlp serve来启动内置的HTTP服务器,默认本地访问地址为 http://localhost:8765,将此链接复制到浏览器中打开,然后在搜索框中输入类似机器学习和深度学习带动人工智能行业飞速发展,并在图像、语音识别领域取得很大成功。这样的语句,进行分词后的结果如下图所示:
服务器模式
- 在命令行界面,使用命令hanlp segment 进入交互分词模式,输入一个句子并回车,HanLP会输出分词结果。结果如下图所示,可以看到pyhanlp分词结果是带有词性的。
- 1.2通过工具类HanLP调用常用接口
- 通过工具类HanLP调用常用接口,这种方式在实际中更常用。
- (1)分词
from pyhanlp import * content = "机器学习和深度学习带动人工智能行业飞速发展,并在图像、语音识别领域取得很大成功。" print(HanLP.segment(content))
-
分词结果如下:
结果
-
- (2)自定义词典分词
- a.没有使用自定义字典时的分词。
txt = "字节跳动是中国新兴的一家互联网公司。" print(HanLP.segment(txt))
-
未使用自定义字典时的分词结果如下:
未使用自定义字典
-
- b.添加自定义新词:
CustomDictionary.add("字节跳动") CustomDictionary.add("互联网公司", "nz 1024") print(HanLP.segment(txt))
-
添加自定义新词后的结果如下:
添加自定义新词后结果
-
- a.没有使用自定义字典时的分词。
2.HanLP的其他高级功能
- 此外,HanLP还能做关键词提取、自动摘要、依存句法分析、情感分析等。详细见下面的参考资料。