spark集群环境下使用hanlp进行中文分词

标签:zabtableimportshel--javastandardmastokenizer

1、将下载的hanlp-portable-1.6.2.jar复制到集群spark/jar文件夹下面

2、启动spark集群

       spark/bin/spark-shell --executor-memory 6g  --driver-memory 1g --executor-cores 2 --num-executors 2 --master spark://master:7077 --jars ansj_seg-5.1.6.jar hanlp-portable-1.6.2.jar

3,执行如下指令:

    import com.hankcs.hanlp.tokenizer.StandardTokenizer

    val data = sc.textFile("hdfs://master:8020/clob.txt")

    val splits = data.filter(line => !line.contains("BODY")).map(line => line.replace("【","")).map(line => line.replace("】","")).map(line=>StandardTokenizer.segment(line.toString()))

     splits.first

提示结果没有序列化:

18/04/06 09:08:25 ERROR TaskSetManager: Task 0.0 in stage 0.0 (TID 0) had a not serializable result: com.hankcs.hanlp.seg.common.Term

Serialization stack:

- object not serializable (class: com.hankcs.hanlp.seg.common.Term, value: 监/ng)

- writeObject data (class: java.util.ArrayList)

- object (class java.util.ArrayList, [监/ng, 所/u, 每日/r, 动态/n, 济南市/ns, 公安局/n, 监管/vn, 支队/n, 秘书处/n,  /w, 2012/m, 年/q, 9/m, 月/q, 11/m, 日/j, 情况/n, 统计/v, 今天/t, ,/w, 全市/n, 看守所/n, 新/a, 收押/v, 14/m, 人/n, ,/w, 出/v, 所/u, 14/m, 人/n, ,/w, 在押/v, 人员/n, 总数/n, 2596/m, 人/n, (/w, 其中/r, 包括/v, 死刑犯/n, 27/m, 人/n, ,/w, 死缓/j, 犯/v, 14/m, 人/n, ,/w, 无期徒刑/l, 犯/v, 8/m, 人/n, ,/w, 法/j, 轮功/nr, 人员/n, 1/m, 人/n, )/w, 。/w, 全市/n, 拘留所/n, 新/a, 收押/v, 47/m, 人/n, ,/w, 出/v, 所/u, 20/m, 人/n, ,/w, 在/p, 所/u, 人员/n, 总数/n, 213/m, 人/n, 。/w, 项目/n, 单位/n, 被/p, 监管/vn, 人员/n, 情况/n, 在押/v, 总数/n, 新/a, 收/v, 出/v, 所/u, 未决犯/n, 法/j, 轮功/nr, 重点/n, 人员/n, 病号/n, 市/n, 看守所/n, 164179144117873/m, 历城/ns, 看守所/n, 302502550143/m, 章丘/ns, 看守所/n, 24220227066/m, 长/a, 清/a, 看守所/n, 1050292050/m, 平/v, 阴/a, 看守所/n, 860169022/m, 济阳/ns, 看守所/n, 14401113091/m, 商/n, 河/n, 看守所/n, 760162020/m, 合计/v, 25961414962121685/m, 市/n, 拘留所/n, 1273315/m, 长/a, 清/a, 拘留所/n, 2420/m, 章丘/ns, 拘留所/n, 2332/m, 平/v, 阴/a, 拘留所/n, 1600/m, 济阳/ns, 拘留所/n, 2033/m, 商/n, 河/n, 拘留所/n, 1160/m, 合计/v, 2214720/m, 收/v, 教/v, 所/u, 30001/m])

- element of array (index: 0)

- array (class [Ljava.util.List;, size 1); not retrying



文章来源于网络

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • One 1 the [ðə, ði:] art.这,那 ad.[用于比较级;最高级前] 2 be [bi:,bi]...
    梁培林阅读 13,142评论 0 10
  • 文/天舒 一对幸福的恋人决定结婚,但是在结婚前夜,新娘落跑了,嫁给了别人,新郎很伤心,几度想结束自己的生命。有一天...
    天舒阅读 3,964评论 0 1
  • 20匡青 在这张照片中,我们可以看到一张白纸中间有一个大小3*4厘米长方形开口,开口里面的物品好像是一只2B铅笔被...
    匡青阅读 3,613评论 1 2
  • ================ 往期有关链接 ================ Bminer测评+教学篇(ZEC...
    Bminer官方阅读 3,851评论 0 3
  • 如果说陈丽华的紫檀博物馆雍容华贵,那么马未都的观复博物馆就是古色古香。 马未都是个传说。 他是我们这一代人,下过乡...
    暖水瓶dsy阅读 7,402评论 11 7

友情链接更多精彩内容