day24 6.23

https://github.com/medcl/elasticsearch-rtf
这是国内大神扩的es的发行版本,目前是5.1.1,目前看来是不需要安装中文分词,但好像ik也不难安装。当然有个过程。然后官方的一堆插件,其实没太看懂。当然可以不用。

【中文分词】https://github.com/medcl/elasticsearch-analysis-ik

直接解压到es/plugins/ik里就行。目前版本是5.4.2(发现RTF也是他搞的,呵呵,那怎么版本不同步)

【dev tool】kibana下载直接启动即可,也是官方的。

【索引可视化查询】https://github.com/mobz/elasticsearch-head,这个也是下载,进入目录,但是基于node.js的

需要npm install/npm run start,那就是也需要node.js的运行环境,呵呵。

start后运行在localhost:9100端口。其实这是一个独立服务器,可以远程连接

在es的config/*.yml文件下添加这两行即可。教程中后面的两句本来就是默认了。(https://my.oschina.net/kittyMan/blog/387512?p=1)

http.cors.enabled: true

http.cors.allow-origin: "*"

【kibana也是可视化,怎么变成一个dev tools?】这个也是下载开箱即可。但怎么只有x86的版本。

测了一下中文分词没有问题。

GET _analyze

{

"analyzer": "ik_max_word"

, "text": "批处理调用多个批处理文件_百度知道"

}


https://github.com/elastic/elasticsearch-dsl-py

这也是个神器啊,可以从dsl中解放出来。

pip install elasticsearch-dsl,直接安装。

==================================================

不要因为路远,就忘了为何出发。

让机器理解NLP去理解这个世界,提升效率。

首先中文最大的根源问题,就是分词。jieba没有去停止词的功能,不应该呀,它的词库里有stopwords-list吧。先不管了,网上找了一份。效果还行。

http://blog.csdn.net/u010533386/article/details/51458591

分词之后,要做机器学习,肯定需要把文档变成词向量。词袋模式,不考虑位置关系,肯定是落后的。用当下比较流行的word2vec。

国内一些语料库不太靠谱,要不下载不了,要不读不了。莫名其炒的问题。用wiki吧。中英文都有。主要是有成熟的方案。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容