第十章 elasticserach搭建

elasticsearch 搜索功能搭建

标签(空格分隔): python scrapy elasticserach


elasticserach介绍

  • 传统搜索
    • 无法打分
    • 无法分布式
    • 无法解析搜索请求
    • 效率低
    • 分词

安装与使用

  • elasticsearch-rtf(github下载使用)

    • jdk版本为1.8
  • head插件和kibana的安装

    • nodejs安装

    • npm 镜像设置

    npm install -g cnpm --registry=https://registry.npm.taobao.org
    
    • head文件插件安装

    • 第三方插件的允许使用

    http.cors.enabled: true
    http.cors.allow-origin: "*"
    http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
    http.cors.allow-headers:"X-Requested-With,Content-Type,Content-Length,X-Use"
    
    • kibana安装
      elastic 官网下载,使用与上方的插件一样

    • 三个工具的启动方式

    elasticsearch.bat //搜索引擎库
    cnpm run start  //数据库查看
    kibana.bat  //数据库操作
    

elasticserach概念

  • 集群:一个或多个节点组织在一起

  • 节点:一个节点是一个集群中的一个服务器,有表示,是漫v的名字

  • 分片:将索引划分为多份的能力,允许水平分割和扩展容量,多个分片响应请求,提高性能和吞吐量

  • 副本:数据的备份,一个节点宕机,另一个顶上

    elasticsearch mysql
    index (索引) 数据库
    type(类型)
    document(文档)
    fields

倒排索引

  • 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包含一个属性值和具有该属性值得各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引,带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。
  • TF-IDF
  • 语法结构
    #新建索引
    PUT lagou
    {
      "settings": {
        "index":{
          "number_of_shards":5,
          "number_of_replicas":1
        }
      }
    }
    #新建表添加文件
    PUT lagou/job/1
    {
        "name":"张三",
        "phone":"13333333333",
        "address":"滁州学院",
        "openid":"110110",
        "items":{
            "productid":"123132",
            "productQuantity":2
        }
    }
    POST lagou/job/2
    {
        "name":"李四",
        "phone":"13333333333",
        "address":"滁州学院",
        "openid":"111110",
        "items":{
            "productid":"123132",
            "productQuantity":2
        }
    }
    
    #get参数
    GET lagou/job/1
    GET lagou/job/1?_source
    
    #修改数据
    POST lagou/job/1/_update
    {
      "doc":{
        "item":{
          "productid":"111111"
        }
      }
    }
    

批量操作

  • _mget

    GET _mget
    {
        "docs":[
            {
                "_index":"testdb",
                "_type":"job1",
                "_id":1
            },
            {
                "_index":"testdb",
                "_type":"job2",
                "_id":2
            }
        ]
    }
    GET textdb/_mget
    {
        "docs":[
            {
                "_type":"job1",
                "_id":1
            },
            {
                "_type":"job2",
                "_id":2
            }
        ]
    }
    GET textdb/job1/_mget
    {
        "docs":[
            {
                "_id":1
            },
            {
                "_id":2
            }
        ]
    }
    GET textdb/job1/_mget
    {
        "ids":[1,2]
    }
    
  • bulk批量操作

    action_and_meta_data\n
    optional_source\n
    
    {"index":{"_index":"textdb","type":"job1","_id":1}}
    {"fields":"values"}
    {"update":{"_index":"textdb","type":"job1","_id":1}}
    {"doc":{fields":"values"}}
    {"create":{"_index":"textdb","type":"job1","_id":1}}
    {"fields":"values"}
    {"delete":{"_index":"textdb","type":"job1","_id":1}}
    
    
    POST _bulk
    {"index":{"_index":"textdb","type":"job1","_id":1}}
    {
            "name":"李四",
            "phone":"13333333333",
            "address":"滁州学院",
            "openid":"111110",
            "items":{
                "productid":"123132",
                "productQuantity":2
            }
        
    }
    
  • 映射(mapping)
    为每个字段定义一个类型

    string类型:text,keyword(string类型在es5开始已经作废)
    数字类型:long,integer,short,byte,double,float
    日期类型: date
    bool类型: boolean
    binary类型:binary
    复杂类型:object,nested
    geo类型:geo-point,geo-shape
    专业类型:ip,competion
    
    属性 描述 适合类型
    store 值是yes表示存储,no表示不存储,默认为no all
    index yes表示分析,no表示不分析,默认值为true string
    null_value 如字段为空,可以设置一个默认值,比如“na” all
    analyzer 可以设置索引和搜索是用的分析器,默认使用standard分析器,还可以使用whitespace,simple,english all
    include_in_all 默认es为每个文档定义一个特殊域_all,它的作用是让每个字段被搜索到,如果不想摸个字段被搜索到,可以设置为false all
    format 时间格式字符串的模式 date
    PUT TEST
    {
        "mappings":{
            "job":{
                "properties":{
                    "title"{
                        "type":"text"
                    },
                    "city":{
                        "type":"keyword"
                    },
                    commenty:{
                        "properties":{
                            "name":{
                                "type":"text"
                            }
                        }
                    },
                    "publish_time":{
                        "type":"date",
                        "format":"yy-mm-dd"
                    }
                }
            }
        }
    }
    

elasticsearch查询

  • 简单查询
    • match查询(存储前分析过的分词处理可以查询)
    GET lagou/job/_search
    {
        "query":{
            "match":{
                "title":"Python"
            }
        }
    }
    # 控制返回结果
    GET lagou/job/_search
    {
        "query":{
            "match":{
                "title":"Python"
            }
        }
        "from":0,
        "size":2
    }
    # 所有结果
    GET lagou/job/_search
    {
        "query":{
            "match_all":{}
    }
    # 短语查询(满足"prthon系统")
    GET lagou/job/_search
    {
        "query":{
            "match_phrase":{
                "title":{
                    "query":"prthon系统",
                    "slop":6  #两个词之间最小距离
                }
            }
    }
    
    • term查询(存储前分析过的分词处理不可以查询)
    GET lagou/_search
    {
        "query":{
            "term":{
                "title":"python"
            }
        }
    }
    
    • trems查询
    GET lagou/_search
    {
        "query":{
            "terms":{
                "title":["python","django"]
            }
        }
    }
    
    • multi_match查询
    GET lagou/_search
    {
        "query":{
            "multi_match":{
                "query":"python",
                "fields":["title^3","desc"] #title^3出现的权重
            }
        }
    }
    
    • 指定返回字段
    GET lagou/_search
    {
        "stored_fields":["title","company_name"], # store为true的字段
        "query":{
            "match":{
                "title":"python"
            }
        }
    }
    
    • 通过sort把结果进行排序
    GET lagou/_search
    {
        "query":{
            "multi_all":{}
        "sort":[{
            "comments":{
                "order":"desc" # 降序
            }
        }]
        }
    }
    
    • 范围查询
    GET lagou/_search
    {
        "query":{
            "range":{
                "comments":{
                    "gte":10,   # 大于等于
                    "lte":20,   # 小于等于
                    "boost":2.0 # 权重
                }
            }
        }
    }
    GET lagou/_search
    {
        "query":{
            "range":{
                "add_time":{
                    "gte":"2017-04-01", # 大于等于
                    "lte":"now"         # 小于等于
                }
            }
        }
    }
    
    • wildcard 模糊查询
    GET lagou/_search
    {
        "query":{
            "wildcard":{
                "title":{
                    "value":"pyth*n", # 模糊
                    "boost":2.0
                }
            }
        }
    }
    
  • 组合查询
    • bool查询 (包括must should must_not filter)
    GET lagou/_search
    {
        "query":{
            "bool":{
                "must":{
                    "match_all":{}
                },
                "filter":{
                    "term":{
                        "aslary":20
                    }
                }
            }
        }
    }
    GET lagou/_search
    {
        "query":{
            "bool":{
                "must":{
                    "match_all":{}
                },
                "filter":{
                    "terms":{
                        "aslary":[10,20]
                    }
                }
            }
        }
    }
    
    • 查询分析器解析的结果
    GET _analyze
    {
        "analyze":"ik_max_word" # ik_smart(最少的数据分词)
        "text":""
    }
    
    • 组合过滤查询
    GET lagou/_search
    {
        "query":{
            "bool":{
                "should":[
                {
                  "term":{"salary":20}
                },
                 {
                  "term":{"title":"python"}
                }
                ],
                "must_not":{
                    "term":{
                        "price":30
                    }
                }
            }
        }
    }
    
    • 嵌套查询
    GET lagou/_search
    {
        "query":{
            "bool":{
                "should":[
                {
                  "term":{"salary":20}
                },
                "bool":{
                    "must":[
                    {
                      "term":{"salary":20}
                    },
                     {
                      "term":{"title":"python"}
                    }
                    ]
                }
            }
        }
    }
    
    • 过滤空和非空
    GET lagou/_search
    {
        "query":{
            "bool":{
                "filter":{
                    "exists":{  
                        "field":"tags"
                    }
                }
            }
        }
    }
    GET lagou/_search
    {
        "query":{
            "bool":{
                "must_not":{
                    "exists":{  
                        "field":"tags"
                    }
                }
            }
        }
    }
    

scrapy数据插入elasticsearch当中

  • elasticsearch-dsl

    pip intsall elasticsearch-dsl
    
  • 数据对接

    # mapping映射创建
    # models
    #!/usr/bin/env python3
    # _*_ coding: utf-8 _*_
    """
     @author 金全 JQ
     @version 1.0 , 2017/11/9
     @description es中jobbole文章模型
    """
    
    from datetime import datetime
    from elasticsearch_dsl import DocType, Date, Nested, Boolean, \
        analyzer, InnerObjectWrapper, Completion, Keyword, Text,Integer
    from elasticsearch_dsl.connections import connections
    connections.create_connection(hosts='localhost')
    
    class ESArticleJobbole(DocType):
        #jobbole 文章内容注入es
        title = Text(analyzer='ik_max_word')
        url = Keyword()
        url_object_id = Keyword()
        create_time = Date()
        praise_nums = Integer()
        fav_nums = Integer()
        comment_nums = Integer()
        content = Text(analyzer='ik_max_word')
        tags = Text(analyzer='ik_max_word')
        fornat_image_url = Keyword()
        fornat_image_path = Keyword()
    
        class Meta:
            index = "jobbole"
            doc_type = "article"
    
    if __name__ == "__main__":
        ESArticleJobbole.init()
    
    # item
    class JooblogArticleItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    url_object_id = scrapy.Field()
    create_time = scrapy.Field(
        input_processor=MapCompose(get_datetime)
    )
    praise_nums = scrapy.Field(
        input_processor=MapCompose(get_num)
    )
    fav_nums = scrapy.Field(
        input_processor=MapCompose(get_num)
    )
    comment_nums = scrapy.Field(
        input_processor=MapCompose(get_num)
    )
    content = scrapy.Field()
    tags = scrapy.Field(
        input_processor=MapCompose(remove_comment_tag),
        output_processor=Join(",")
    )
    fornat_image_url = scrapy.Field(
        output_processor=MapCompose(return_value)
    )
    fornat_image_path = scrapy.Field()
    
    def save_es(self):
        article = ESArticleJobbole()
        article.create_time = self['create_time']
        article.praise_nums = self['praise_nums']
        article.content = remove_tags(self['content'])
        article.fav_nums = self['fav_nums']
        article.comment_nums = self['comment_nums']
        article.title = self['title']
        article.tags = self['tags']
        article.fornat_image_path = self['fornat_image_path']
        article.fornat_image_url = self['fornat_image_url']
        article.url = self['url']
        article.meta.id = self['url_object_id']
        article.save()
        return
    
    # pipeline
    class EsArticlePippeline(object):
    # 数据插入es数据库
    def process_item(self, item, spider):
        item.save_es()
        return item
    

  • 原视频UP主慕课网(聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎)
  • 本篇博客撰写人: XiaoJinZi 个人主页 转载请注明出处
  • 学生能力有限 附上邮箱: 986209501@qq.com 不足以及误处请大佬指责
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容