使用ElasticSearch分析自己的语言

01

<<富爸爸,穷爸爸>>书里面提到过,想要知道自己是富人还是穷人,最好的办法就是仔细收集自己说过的话,你经常说些什么话,就决定了你的思维和行动,最终决定了你是穷人还是富人.

思维 --> 语言 --> 行动 --> 结果

关注自己的语言,可以从自己的语言中找到自己的思维缺陷和漏洞.

从而学习相应的思维模型,减少犯错,过一个自己想要的人生.

02

也许我们很少会去收集自己平时说的最多的话.007社群里的同学都是喜欢写作的人,我们可以从我们每周一篇的文章中找到一些蛛丝马迹.

通过ElasticSearch可以很好的实现这个需求,即观察到你的常规思维.

03

首先我们要对ElasticSearch进行安装.因为需要用到中文分词器IK分词插件,所以我们可以去Github下载.

可以直接使用项目: https://github.com/medcl/elasticsearch-rtf

当前的版本是 Elasticsearch 5.1.1,ik 插件也是直接自带了。

安装好 ElasticSearch,跑起来服务,测试服务安装是否正确:

$ curl http://localhost:9200

{
  "name" : "Rkx3vzo",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "Ww9KIfqSRA-9qnmj1TcnHQ",
  "version" : {
    "number" : "5.1.1",
    "build_hash" : "5395e21",
    "build_date" : "2016-12-06T12:36:15.409Z",
    "build_snapshot" : false,
    "lucene_version" : "6.3.0"
  },
  "tagline" : "You Know, for Search"
}```

04

为了方便对ElasticSearch的操作,我们可以在谷歌浏览器上安装SENSE插件.

关于ES对应关系型数据库的对比如下:

mysql ElasticSearch
DataBase Index
Table Type
Row Document
Column Field
Schema Mapping
Index Everthing is indexed
SQL Query DSL
Select * from table GET http://
Update table set PUT http://
  1. 首先我们创建一个索引和类型,也就是一个数据库和一张表,同时定义了表的字段,文章的标题和内容采用ik分词器
PUT /renrensou
{
  "mappings": {
    "renrensou_v1": {
      "properties": {
        "title": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        },
        "platform": {
          "type": "text"
        },
        "author": {
          "type": "text"
        },
        "name": {
          "type": "text"
        },
        "date": {
          "type": "text"
        },
        "content": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        },
        "linkUrl": {
          "type": "text"
        }
      }
    }
  }
}
  1. 然后我们可以采用爬虫技术,将自己的所有简书或是公众号文章爬取并导入到ElasticSearch,可以采用API的方式,也可以手动

PUT /renrensou/renrensou_v1/1
{
    "title" : "打破你的认知边界",
    "platform" : "简书",
    "author" : "理可",
    "name" : "理可",
    "date" : "2018-11-20",
    "content" : "我姓程,名序员,以前,我一直在用的开发工具是Eclipse.我写的第一个程序就是使用的Eclipse.所以我一直认为这是一个很好的工具. MyEcliipse 我们公司大多数同事用的是Eclipse.后来,公司新来了一个应届生同事,他告诉我,他用的工具是IntelliJ IDEA,完全没有用过Eclipse.给我说了IntelliJ IDEA的各种好处. 我虽然知道IntelliJ IDEA有很多好处,但是我不愿意改变,因为要我把开发工具换成IntelliJ IDEA,就表示我要离开自己的认知边界,这会让我很痛苦. IntelliJ IDEA 一开始我对IntelliJ IDEA有一些好奇,于是我尝试看一下网上的教程,并且安装了IntelliJ IDEA,尝试使用,但是很不舒服,因为两个工具的快捷键完全不一样,高频小套路也完全不一样,使用这个工具开发感觉自己就是个菜鸟. 尝试了好几次用IntelliJ IDEA开发,但是都放弃了.因为一开始总是在百度怎么使用IntelliJ IDEA,很浪费时间. 于是我重新下载安装了MyEclipse的最新版,并放弃了IntelliJ IDEA,告诉应届生同事,其实Eclipse也很好用. 后来我换工作了,我惊奇的发现,这家公司所有的程序员都在用IntelliJ IDEA,而只有我在用MyEclipse,我想他们讨教,他们说他们之前也有用Eclipse的,但是转成IntelliJ IDEA. 后来我也强迫自己转IDEA,让自己从零开始,卸载Eclipse.不到1天的时间,我掌握了IntelliJ IDEA的绝大多数高频小套路. 而我也发现我的开发效率得到了指数级的增长,而不是一点点的增长. 我认为是IntelliJ IDEA软件优化的比Eclipse更好,软件更加流畅并且是专门为程序开发人员设计.Eclipse在软件流畅和提升效率方面相比IntelliJ IDEA稍弱一点. 我从中得到了什么? 每个人会根据自己所在的群体和经验形成自己的认知边界,一个人的认知边界决定了一个人的认知高度 成长和进步的过程就是打破自己认知边界的过程 认知边界从内向外打破非常难 认知边界从外向内打破比较容易,比如有人带你,加入新的社群,换一个环境 每当打破自己的认知边界,就能获得数十倍到一百倍的增长.",
    "linkUrl" : "https://www.jianshu.com/p/bfdafd7e63d6"
}
  1. 关于ES 5.x版本以上的,统计次频的字段需要开启fielddata
PUT renrensou/_mapping/renrensou_v1/
{
  "properties": {
    "title": { 
      "type":     "text",
      "analyzer": "ik_max_word",
      "fielddata": true
    }
  }
}
  1. 统计自己文章中的词频,显示结果会包含关键字和词频数量
GET /renrensou/renrensou_v1/_search
{  
    "size" : 0,
    "aggs" : {   
        "messages" : {  
            "terms" : {   
                 "size" : 100,
              "field" : "content",
                "include" : "[\u4E00-\u9FA5][\u4E00-\u9FA5]"
            }  
        }  
    },
   "highlight": {
     "fields": {
      "message": {}
    }
  }     
}
1.png

05

结果显示我写的文章里面最多的词多是一些连接词,比如 如果,但是...

当然具体分析的时候可以去除掉这些连接词.下面是我筛选出来的排名前5的有意义词汇

          [{
               "key": "我们",
               "doc_count": 28
            },
            {
               "key": "时间",
               "doc_count": 24
            },
            {
               "key": "自己",
               "doc_count": 24
            },
            {
               "key": "过程",
               "doc_count": 24
            },
            {
               "key": "实现",
               "doc_count": 23
            }]

当然是这是ES很小的一个使用方法,使用ElasticSearch也可以打造一个专属自己的搜索引擎.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 《文案创作完全手册》里37种标题写法: 1、在标题里提出疑问 示例:不背单词也能说好英语? 2、结合时事 示例:他...
    Clarklee阅读 333评论 0 1
  • 1:购买转化率; 2:粘性; 3:流量; 4:使用频率; 5:变现; 要求:用大卸八块命题拆分方法拆解到最细致的程...
    兜兜趣多多阅读 824评论 0 0
  • 平淡无奇的寒假需要浪漫和奇迹,希望你也能够相信自己~ 相信美好~ 不是任何APP代言,只是努力的感觉真好,一起加油吧!~
    柏柏呀阅读 207评论 0 0
  • 1 我是一个俗人 我是一个俗人,游走在俗世中,我的眼中和心中的标准只有真实,实用,和是否可以产生对我有益的价值。扫...
    视觉笔记糕小糕阅读 792评论 9 14
  • 在这个阳光明媚,春风和煦的日子里,我们迎来了我校一年一度的田径运动会。一大早蓝蓝的天空万里无云,白云也飘了出来...
    朋友_e135阅读 357评论 0 0