在Mac OS中安装和使用HanLP

HanLP 在Mac OS 的 Python 环境中安装、介绍及使用

demo链接

HanLP 介绍

hanlp简称汉语言处理包,它是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:

  • 中文分词
  • 词性标注
  • 命名实体识别
  • 关键词提取
  • 自动摘要
  • 短语提取
  • 拼音转换
  • 简繁转换
  • 文本推荐
  • 依存句法分析
  • 文本分类
  • 文本聚类
  • word2vec
  • 语料库工具

可参考的官网链接

https://github.com/hankcs/HanLP
http://hanlp.com

hanlp环境安装

hanlp是java写的开源库,在python环境中调用hanlp需要java环境的支持和python调用java的工具

  • 安装java
  • 安装Jpype

JPype是一个能够让 python 代码方便地调用 Java 代码的工具,从而克服了 python 在某些领域(如服务器端编程)中的不足。

pip install jpype1
  • 测试环境
#coding=utf=8

import jpype

if __name__=='__main__':
    # 获取系统的jvm路径
    jvm_path = jpype.getDefaultJVMPath()
    # 设置jvm路径,以启动java虚拟机
    jpype.startJVM(jvm=jvm_path)
    # 执行java代码
    jpype.java.lang.System.out.println('hello world')
    # 关闭jvm虚拟机,当使用完 JVM 后,可以通过 jpype.shutdownJVM() 来关闭 JVM,该函数没有输入参数。当 python 程序退出时,JVM 会自动关闭。
    jpype.shutdownJVM()

打印结果:

hello world
JVM has been shutdown

至此环境配置完成

hanlp 安装

  • 下载hanlp.jar包
  • 下载data.zip
    下载完成后,将data.zip和hanlp-1.7.3-release.zip解压,并将解压后hanlp-1.7.3-release目录下的所有文件和的data放在同一个目录下,这里我新建一个hanlp_source的目录用于存放这些文件的
  • 配置文件
    hanlp的配置文件是hanlp.properties,配置文件的作用是告诉HanLP数据包的位置,只需修改第一行: root=hanlp_source/,hanlp_source必须为hanlp_source所在的路径哦。

以上两个文件下载会比较慢,也可通过我的网盘下载

demo 和 hanlp_source 的目录结构


屏幕快照 2019-05-16 上午1.06.53.png

错误

  • 错误1,JClass加载HanLP时报错:jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class com.hankcs.hanlp.HanLP not found
  • 错误2,执行HanLP.segment()时,报错:jpype._jexception.ExceptionInInitializerErrorPyRaisable: java.lang.ExceptionInInitializerError
    堆栈
Traceback (most recent call last):
  File "/Applications/PyCharm.app/Contents/helpers/pydev/pydevd.py", line 1596, in <module>
    globals = debugger.run(setup['file'], None, None, is_module)
  File "/Applications/PyCharm.app/Contents/helpers/pydev/pydevd.py", line 974, in run
    pydev_imports.execfile(file, globals, locals)  # execute the script
  File "/Applications/PyCharm.app/Contents/helpers/pydev/_pydev_imps/_pydev_execfile.py", line 18, in execfile
    exec(compile(contents+"\n", file, 'exec'), glob, loc)
  File "/Users/swae/Documents/Github/learningNLP/02/05_hanlp/test_hanlp.py", line 27, in <module>
    print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
jpype._jexception.ExceptionInInitializerErrorPyRaisable: java.lang.ExceptionInInitializerError

错误1和错误2的解决方法:
这两个问题都是因为在启动jvm时,参数-Djava.class.path设置错误导致,注意路径的正确性,下面为windows和linux的正常启动方法


    # windows下启动jvm
    # startJVM(getDefaultJVMPath(),
    #          "-Djava.class.path=D:\change\parsenoun\hanlp\hanlp-1.5.0.jar;D:\change\parsenoun\hanlp",
    #          "-Xms1g",
    #          "-Xmx1g")  # 启动JVM,Linux需替换分号;为冒号:

    # mac 和 linux 下启动jvm
    jarpath = os.path.join(os.path.abspath('.'), '/Users/swae/Documents/Github/learningNLP/02/05_hanlp/hanlp_source/hanlp-1.7.3.jar')
    dependency = os.path.join(os.path.abspath('.'), '/Users/swae/Documents/Github/learningNLP/02/05_hanlp/hanlp_source')
    # 注意: -Djava.class.path= 在Linux和mac下 jarpath和dependency需替换分号;为冒号:
    startJVM(getDefaultJVMPath(),
             "-Djava.class.path="+jarpath+":"+dependency,
             "-Xms1g",
             "-Xmx1g")
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容