day24 6.23

https://github.com/medcl/elasticsearch-rtf
这是国内大神扩的es的发行版本，目前是5.1.1，目前看来是不需要安装中文分词，但好像ik也不难安装。当然有个过程。然后官方的一堆插件，其实没太看懂。当然可以不用。

【中文分词】https://github.com/medcl/elasticsearch-analysis-ik

直接解压到es/plugins/ik里就行。目前版本是5.4.2（发现RTF也是他搞的，呵呵，那怎么版本不同步）

【dev tool】kibana下载直接启动即可，也是官方的。

【索引可视化查询】https://github.com/mobz/elasticsearch-head，这个也是下载，进入目录，但是基于node.js的

需要npm install/npm run start,那就是也需要node.js的运行环境，呵呵。

start后运行在localhost:9100端口。其实这是一个独立服务器，可以远程连接

在es的config/*.yml文件下添加这两行即可。教程中后面的两句本来就是默认了。（https://my.oschina.net/kittyMan/blog/387512?p=1）

http.cors.enabled: true

http.cors.allow-origin: "*"

【kibana也是可视化，怎么变成一个dev tools?】这个也是下载开箱即可。但怎么只有x86的版本。

测了一下中文分词没有问题。

GET _analyze

{

"analyzer": "ik_max_word"

, "text": "批处理调用多个批处理文件_百度知道"

}

https://github.com/elastic/elasticsearch-dsl-py

这也是个神器啊，可以从dsl中解放出来。

pip install elasticsearch-dsl，直接安装。

==================================================

不要因为路远，就忘了为何出发。

让机器理解NLP去理解这个世界，提升效率。

首先中文最大的根源问题，就是分词。jieba没有去停止词的功能，不应该呀，它的词库里有stopwords-list吧。先不管了，网上找了一份。效果还行。

http://blog.csdn.net/u010533386/article/details/51458591

分词之后，要做机器学习，肯定需要把文档变成词向量。词袋模式，不考虑位置关系，肯定是落后的。用当下比较流行的word2vec。

国内一些语料库不太靠谱，要不下载不了，要不读不了。莫名其炒的问题。用wiki吧。中英文都有。主要是有成熟的方案。