solr批量生成索引踩坑

solr提供了一种批量生成索引的方式,各种文档中都有提到。由于有这个需求,所以笔者开始了艰辛的踩坑过程。

Lucene版本问题

其实Lucene版本问题也是始发因素,之前使用hbase-indexer去批量创建索引,hbase-indexer使用的solr客户端版本是solr-6.4.1,笔者的solr版本是solr-6.3.0,没有任何问题。但是后来使用了HDP,而HDP自带的solr版本solr-5.5.2,在进行索引合并操作时,出现了一个lucene版本问题:

18/02/11 16:38:06 ERROR mr.GoLive: Error sending live merge command
java.util.concurrent.ExecutionException: org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://10.1.236.66:8886/solr: Could not load codec 'Lucene62'.  Did you forget to add lucene-backward-codecs.jar?
    at java.util.concurrent.FutureTask.report(FutureTask.java:122)
    at java.util.concurrent.FutureTask.get(FutureTask.java:192)
    at com.ngdata.hbaseindexer.mr.GoLive.goLive(GoLive.java:130)
    at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.runIndexingPipeline(HBaseMapReduceIndexerTool.java:541)
    at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.run(HBaseMapReduceIndexerTool.java:241)
    at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.run(HBaseMapReduceIndexerTool.java:120)
    at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.run(HBaseMapReduceIndexerTool.java:110)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)
    at com.ngdata.hbaseindexer.mr.HBaseMapReduceIndexerTool.main(HBaseMapReduceIndexerTool.java:104)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:233)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:148)
Caused by: org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://10.1.236.66:8886/solr: Could not load codec 'Lucene62'.  Did you forget to add lucene-backward-codecs.jar?
    at org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod(HttpSolrClient.java:593)
    at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:262)
    at org.apache.solr.client.solrj.impl.HttpSolrClient.request(HttpSolrClient.java:251)
    at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:149)
    at org.apache.solr.client.solrj.SolrRequest.process(SolrRequest.java:166)
    at com.ngdata.hbaseindexer.mr.GoLive$1.call(GoLive.java:100)
    at com.ngdata.hbaseindexer.mr.GoLive$1.call(GoLive.java:89)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
18/02/11 16:38:06 INFO mr.GoLive: Live merging of index shards into Solr cluster took 0.894 secs

这个错误提示去查看在solr中是否有lucene-backward-codecs.jar,而solr中对应的jar包版本为:lucene-backward-codecs-5.5.2.jar

然后猜想应该可以通过某个可以设置lucene版本,寻寻觅觅了很久后找到了一个唯一配置lucene版本的地方,solrconfig.xml文件中包含如下:

 <luceneMatchVersion>5.5.2</luceneMatchVersion>

但是,修改之后发现并没有什么用处;进一步查看solr源码,发现了原因:

  • solr在接收到合并索引的请求后解析lucene索引过程中发现版本是Lucene62,而其内部查找对应版本的codec时找不到一致的版本
  • codec查找版本是通过访查看SPI 实现,而实现配置如下:
    luceneCodec配置

    由此可见solr并不支持多版本的索引合并,所以放弃了使用hbase-indexer作为统一的程序生成索引并向solr合并索引的方案。转而通过自己开发程序读取csv文件生成索引。

solr的mapreduce包不支持csv文件

solr自己提供了批量生成索引的类org.apache.solr.hadoop.MapReduceIndexerTool。但是笔者发现默认的Mapper类是org.apache.solr.hadoop.morphline.MorphlineMapper,它是用来解析单独的文本文件的,明显不满足需求。并且直接传递mapper类给MapReduceIndexerTool的方法也行不通(需要传递各种参数),所以只能自定义了一个Mapper,并同时重新实现MapReduceIndexerTool.java。

MapReduceIndexerTool对solr的客户端代码有依赖

本来以为对于不同版本的solr,只需要改动pom.xml文件中对solr的依赖就可以解决codec不同版本的问题,但是MapReduceIndexerTool中使用的solrj版本的内容不一致,所以不可避免的需要两套程序来做两个solr版本的批量索引生成。

找不到solr config文件夹

solr 批量创建索引的过程,是通过mapper把数据生成solr doc,而SolrReducer.java也只是把solr doc序列化,而真正的生成索引是在org.apache.solr.hadoop.SolrOutputFormat输出文件的过程中,生成一个内置的EmbeddedSolrServer建立索引,但是在生成EmbeddedSolrServer过程中,发现了solr config文件找不到。原因出在org.apache.solr.hadoop.SolrRecordWriter中:

  public static EmbeddedSolrServer createEmbeddedSolrServer(Path solrHomeDir, FileSystem fs, Path outputShardDir)
      throws IOException {

    ...
       SolrCore core = container.create("core1", ImmutableMap.of(CoreDescriptor.CORE_DATADIR, dataDirStr));
    ...
 
  }

这里的create方法会自动去dataDirStr/core1下寻找solr collection的配置文件,而去zookeeper拉取的配置文件是放在dataDirStr下的,所以无法找到。怀疑作者在测试过程中使用的是写死的solrHomeDir,而这里存储着对应的core1,因此修改代码如下,问题解决。

  public static EmbeddedSolrServer createEmbeddedSolrServer(Path solrHomeDir, FileSystem fs, Path outputShardDir)
      throws IOException {

    ...
       SolrCore core = container.create("core1", Paths.get(solrHomeDir.toString()), ImmutableMap.of(CoreDescriptor.CORE_DATADIR, dataDirStr));
    ...
  }

⚠️:以上是solr-5.5.2 版本的代码,对于solr-6.3.0同样的问题也存在,只不过报错不一致

TreeMerge过程LockFactory问题

生成索引的过程中如果包含TreeMerge过程(第一次reduce时shard个数少于reduce个数,需要经过第二次的索引合并工作),会引发锁竞争的问题。可以修改org.apache.solr.hadoop.TreeMergeOutputFormat类中directoty生成方式来解决问题。

          Directory mergedIndex = new HdfsDirectory(workDir, NoLockFactory.INSTANCE, context.getConfiguration(), HdfsDirectory.DEFAULT_BUFFER_SIZE);
//        Directory mergedIndex = new HdfsDirectory(workDir, context.getConfiguration());
    

生成的索引未合并

如下图所示,对同一份数据进行4次批量索引操作,最终在hdfs上显示的索引文件如下,可以发现未进行合并索引操作。而进行检索时会检索出同样ID的四条数据。
⚠️因此,批量索引操作适合增量索引或者全量索引,但是不适合批量跟新索引。

drwxr-xr-x   - infra-solr hdfs          0 2018-01-31 10:49 /user/infra-solr/mrsolr/core_node5
drwxr-xr-x   - infra-solr hdfs          0 2018-01-31 10:49 /user/infra-solr/mrsolr/core_node5/data
drwxr-xr-x   - infra-solr hdfs          0 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index
-rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.fdt
-rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.fdx
-rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.fnm
-rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7.si
-rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene50_0.doc
-rwxr-xr-x   3 infra-solr hdfs        178 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene50_0.tim
-rwxr-xr-x   3 infra-solr hdfs        102 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene50_0.tip
-rwxr-xr-x   3 infra-solr hdfs         73 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene54_0.dvd
-rwxr-xr-x   3 infra-solr hdfs        118 2018-02-03 21:15 /user/infra-solr/mrsolr/core_node5/data/index/_7_Lucene54_0.dvm
-rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.fdt
-rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.fdx
-rwxr-xr-x   3 infra-solr hdfs        496 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.fnm
-rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8.si
-rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene50_0.doc
-rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene50_0.tim
-rwxr-xr-x   3 infra-solr hdfs        148 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene50_0.tip
-rwxr-xr-x   3 infra-solr hdfs         82 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene54_0.dvd
-rwxr-xr-x   3 infra-solr hdfs        179 2018-02-03 21:20 /user/infra-solr/mrsolr/core_node5/data/index/_8_Lucene54_0.dvm
-rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.fdt
-rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.fdx
-rwxr-xr-x   3 infra-solr hdfs        496 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.fnm
-rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9.si
-rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene50_0.doc
-rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene50_0.tim
-rwxr-xr-x   3 infra-solr hdfs        148 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene50_0.tip
-rwxr-xr-x   3 infra-solr hdfs         82 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene54_0.dvd
-rwxr-xr-x   3 infra-solr hdfs        179 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/_9_Lucene54_0.dvm
-rwxr-xr-x   3 infra-solr hdfs        100 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.fdt
-rwxr-xr-x   3 infra-solr hdfs         83 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.fdx
-rwxr-xr-x   3 infra-solr hdfs        496 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.fnm
-rwxr-xr-x   3 infra-solr hdfs        489 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a.si
-rwxr-xr-x   3 infra-solr hdfs        110 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene50_0.doc
-rwxr-xr-x   3 infra-solr hdfs        244 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene50_0.tim
-rwxr-xr-x   3 infra-solr hdfs        148 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene50_0.tip
-rwxr-xr-x   3 infra-solr hdfs         82 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene54_0.dvd
-rwxr-xr-x   3 infra-solr hdfs        179 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/_a_Lucene54_0.dvm
-rwxr-xr-x   3 infra-solr hdfs        289 2018-02-03 21:24 /user/infra-solr/mrsolr/core_node5/data/index/segments_b
-rwxr-xr-x   3 infra-solr hdfs        351 2018-02-03 21:29 /user/infra-solr/mrsolr/core_node5/data/index/segments_c

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容